- Geçmişte LLM’ler ağırlıklı olarak internet verileriyle eğitiliyordu ve bugün de büyük ölçüde durum böyle, ancak bu giderek daha az doğru hale geliyor
- "İnternet simülatörü" kavramı, GPT-5 ve sonrasının nasıl davranacağını öngörmek için artık pek faydalı değil
- Yeni modeller bu tanımın ötesine çoktan geçmeye başladı ve bu değişim daha yolun başında
Veri duvarı (Data Wall)
- OpenAI’nin 2020 tarihli GPT-3 makalesi eğitim veri setini ayrıntılı biçimde açıklıyordu, ancak bu artık geçmişte kalmış bir şey
- 2022’den sonra LLM eğitiminde kullanıcıya özel geri bildirimler kullanılmaya başlandı ve OpenAI gibi şirketler eğitim verileri hakkında daha ketum davranıyor
- GPT-4, Sora veya GPT-5’in hangi verilerle eğitildiğini bilmiyoruz, ancak yalnızca internet verileriyle eğitilmedikleri açık
- LLM geliştiricileri son dönemde bir "veri duvarı" ile karşı karşıya kaldı
- OpenAI zaten web’deki verilerin neredeyse tamamına sahip olduğu için, daha iyi LLM’ler üretmek adına özel verilerin elde edilmesi ve üretilmesi gerekiyor
- Parası olan laboratuvarlar için çözüm, özel veriyi güvence altına almak ve üretmek
- İlk aşamada odak, mevcut eğitim verisini daha faydalı hale getirmeye ya da mevcut özel veriyi eğitim havuzuna eklemeye yönelmişti
- Örneğin
- Açıklama ekleme ve filtreleme: Araştırmacılar eğitim verisine açıklamalar ekleyerek yüksek kaliteli verilere odaklanabiliyor ve böylece daha iyi modeller oluşturabiliyor
- RLHF: Laboratuvarlar insanlara model çıktısını değerlendirtip bu verileri modeli ince ayar yapmak ve faydalı davranışları teşvik etmek için kullanıyor
- Kullanım verisi: ChatGPT’nin günde yaklaşık 10 milyar token veri ürettiği söyleniyor
- Veri edinimi: E-postalar, sohbet kayıtları, şirket içi kılavuzlar, JIRA kayıtları, telefon kayıtları, iç raporlar, sözleşmeler gibi pek çok veri internette yer almıyor ve model eğiticileri bunları eğitim verisine ekleyebiliyor
- Ancak bu teknikler, "LLM’lerin mevcut veriden farklı çıktılar üretmede zorlanması" sorununu tamamen çözmüyor
- LLM’ler özellikle şu tür görevlerde zorlanıyor (çünkü bunları çevrimiçi gösteren çok fazla metin yok)
- Bir yanıta dair şüphe veya belirsizlik ifade etmek
- Tekrarlayan kalıplara ya da döngülere düşmeden uzun bir konuşmayı sürdürmek
- LLM ajanlarının izleyeceği üst düzey planlar oluşturmak
- Büyük ölçekli eski kod tabanları üzerinde kıdemli bir mühendis gibi akıl yürütmek
- Çok uzun veya karmaşık prompt’ları güvenilir biçimde takip etmek
- Geliştirilmiş mimariler ve daha fazla parametre bu sınırlamaları aşmaya yardımcı olabilir, ancak OpenAI, Meta, Google, Microsoft ve diğerleri bu boşluğu kapatmak için yeni örnekler üretip bunlarla eğitim verme gibi daha basit bir yönteme büyük para harcıyor
LLM’ler artık özel tasarlanmış verilerle eğitiliyor
- Microsoft’un Phi-3 teknik raporu (nisanda yayımlandı), özel tasarlanmış verideki artışın güncel bir örneği
- phi-3-mini yalnızca 3,8 milyar parametreye sahip olmasına rağmen, daha büyük ve daha ağır Mixtral modeliyle yarışabilecek performans gösteriyor
- Bu iyileşmenin bir kısmı, daha büyük LLM’lerin ürettiği yüksek kaliteli sentetik verilerin eğitim verisine dahil edilmesiyle açıklanıyor
- Sentetik veri, internet kaynaklı verideki boşlukları kapatabiliyor ve belirli bir model boyutu için performansı artırabiliyor
- Sentetik veri şu anda LLM araştırmalarının en çok ilgi gören başlıklarından biri
- Bir LLM’yi kendi çıktılarıyla eğitmenin nereye kadar mümkün olduğu henüz net değil (devasa bir sinir ağı yılanının kendi kuyruğunu yemesi gibi bir durum ortaya çıkabilir)
- Ancak en azından sentetik veri, LLM’lerin "internet simülatörü" gibi davranmasından doğan boşlukları kapatmaya yardımcı olacak gibi görünüyor
- Örneğin, belirsizlik ifade etmeye yönelik eğitim örnekleri yetersizse veya veri temsili değilse ve bu yüzden önyargılıysa, daha iyi örnekler üretilebilir
- Yine de LLM’lerle mükemmel sentetik veri üretmek zor bir problem ve bunun da sınırları olacak
- Bu yüzden internet dışındaki son büyük veri kaynağı olan "insan" devreye giriyor
Yıllık 1 milyar dolar ($1B) ile ne kadar veri üretilebilir?
- İnsanlara ödeme yaparsanız veri üretmeye gönüllü oluyorlar
- Scale.ai kendisini "AI için veri fabrikası" olarak tanımlıyor ve laboratuvarların insanlara veri üretmeleri için ödeme yapabildiği bir hizmet sunuyor
- AI şirketlerinin Scale’in hizmetlerine yılda 1 milyar dolardan fazla ödediği söyleniyor
- Bunun bir kısmı web’den ya da LLM’lerden alınan verilerin açıklanması ve değerlendirilmesi için kullanılsa da, sıfırdan yeni eğitim verisi de üretiliyor
- Scale; doktora düzeyinde akademisyenler, avukatlar, muhasebeciler, şairler, yazarlar ve belirli dillere çok hakim kişiler gibi yüksek derecede uzmanlaşmış çalışanlara odaklanıyor
- Bu kişiler OpenAI, Cohere, Anthropic, Google gibi şirketler için modelleri eğitiyor ve test ediyor; karşılığında daha yüksek saatlik ücret alıyorlar
- OpenAI gibi şirketler, uzmanların internet kaynaklı verideki boşlukları dolduracak yeni ve kaliteli veriler üretmesi için ödeme yapabiliyor; ardından bu veriler model eğitiminde kullanılıyor
- Örneğin, "Ph.D. düzeyindeki bir kişinin cevabı bilmediği bir soruyla karşılaştığında düşünceli bir belirsizlik ifade ettiği 50 bin örnek" gibi bir veri seti, üretim maliyetinin çok ötesinde bir değere sahip olabilir
- LLM’lerin başlangıçta internetten öğrendiği ve ilk zayıflıklarının büyük kısmının web’de yayımlanmış dağınık içeriklerden kaynaklandığı düşünülebilir
- Ancak özel eğitim verisinin ölçeği ve etkisi arttıkça, LLM’lerin "internet simülasyonu"nun çok ötesine geçmesi bekleniyor
- Özellikle de internette bulunmayan ama 1 milyar doların üzerindeki özel veri üretimiyle ortaya konabilecek alanlarda gelişmeye devam edecekler
- Kısacası bu tren bir süre daha yoluna devam edecek
GN⁺ görüşü
- Verinin önemi: LLM’lerin performansını artırmak için farklı kaynaklardan gelen verilere ihtiyaç var. Yalnızca internet verisi yeterli değil.
- Maliyet sorunu: Özel veri üretimi çok maliyetli. Bu, küçük laboratuvarlar veya şirketler için büyük bir yük olabilir.
- Sentetik verinin sınırları: Sentetik veri faydalı olsa da, gerçek insanların ürettiği veriyle arasında fark olabilir. Bu nedenle modelin gerçekçiliğinde sınırlamalar oluşabilir.
- Gelecek görünümü: Özel tasarlanmış veri ve sentetik veriyi kullanan LLM’lerin gelişiminin sürmesi bekleniyor. Bu, çok çeşitli alanlarda yeniliği beraberinde getirebilir.
- Rekabet durumu: OpenAI, Google, Microsoft gibi büyük şirketler özel veri üretimine yatırım yapıyor; bu nedenle rekabetin daha da kızışması bekleniyor.
2 yorum
"Data wall" denen şey sonuçta yeterli Compute olduğunda sorun haline geliyor; hatta güç verimliliği ve tedarik sorunlarına bakınca, Compute artışının sınırı, yani elektrik miktarı sorunu daha önemli hale gelebilir.
Hacker News görüşleri