Ask HN: Aralık 2023 itibarıyla kendi belgelerimle özel bir LLM/ChatGPT'yi nasıl eğitirim?

(news.ycombinator.com)

4 puan yazan GN⁺ 2023-12-26 | 1 yorum | WhatsApp'ta paylaş

5 ay önce ilgili bir tartışma var, ancak artık güncel olmayan bilgi içerebileceği için Aralık 2023 itibarıyla yaklaşım yeniden aranıyor
Sorunun odağı, özel bir belge kümesini LLM'e sağlayarak daha az halüsinasyon içeren ve makul kalitede yanıtlar almanın en iyi yolu
Yalnızca kendi modelini eğitmekle sınırlı değil; belgeler temelinde soruları yanıtlatmaya yönelik yöntemlerin genelini kapsıyor ve RAG gibi yaklaşımları da içeriyor

1 yorum

GN⁺ 2023-12-26

Hacker News görüşleri

Belgeler üzerinde eğitim gerçekte yapılmıyor; birçok startup bu terimi kullansa da aslında RAG (Retrieval-Augmented Generation) kullanıyor.
- Llamaindex en iyi seçenek olarak görülüyor.
- Belgeler üzerinde eğitim yaptığını iddia eden startup'ların çoğu gerçekte RAG kullanıyor.
- qLoRA kullanarak soru-cevap çiftlerini otomatik üreten bir script bulmanız öneriliyor.
- Kişisel belge bilgi tabanı için başarıyla kullanılmış örnekler nadir; daha çok matematik, akıl yürütme, Python gibi alanlarda kullanılıyor.
- Bir belge setini doğrudan fine-tuning'e vermenin etkili olmadığı deneysel olarak gösterilmiş.
Belge miktarına göre farklı yaklaşımlar düşünülmeli.
- RAG küçük veri kümelerinde iyi çalışıyor ve Llamaindex bu alanda ciddi mühendislik yapıyor.
- Fine-tuning ile RAG'in birleşimi, internette kolayca bulunabilen bilgiye sahip büyük veri kümelerinde etkili.
- Sürekli pretraining ise çok büyük veri kümeleri ve size ait özel bilgi olduğunda gerekli.
AWS Bedrock kullanımı kolay; belgeleri S3'e yükleyip bir vektör veritabanıyla senkronize ederek API üzerinden kullanabiliyorsunuz.
- Bedrock, çeşitli modeller ve ortak bir API sunan bir ürün.
h2ogpt, çeşitli formatlardaki belgeleri işleyebilen ve farklı model hosting uygulamalarını destekleyen, özellik açısından tamamlanmış bir RAG implementasyonu.
Bir ChatGPT hesabı satın alıp kendi belgelerinizi yükleyebilir, bunun üzerinden özelleştirilmiş konuşma tabanlı bir yapay zeka oluşturabilirsiniz.
GPT4 Assistants şu anda varsayılan olarak RAG'i işleyebiliyor; PrivateGPT de bunun için iyi bilinen seçeneklerden biri.
Microsoft Office'in Copilot Builder'ı, kullanıcının temel URL'leri, yüklenen dosyaları vb. belirleyerek saniyeler içinde bir AI Copilot oluşturmasına olanak tanıyor.
Cheshire Cat, belgeleri daha sonra aranabilecek "anı"lar olarak saklayan bir yapay zeka yardımcı framework'ü.
Mistral 7B'nin QLoRA ile nasıl fine-tune edileceğine dair bir video rehberi var; ayrıca RAG tekniğinin daha tercih edilir olabileceği de belirtiliyor.

Ask HN: Aralık 2023 itibarıyla kendi belgelerimle özel bir LLM/ChatGPT'yi nasıl eğitirim?

İlgili okumalar

1 yorum

Hacker News görüşleri