LLM’ler artık "internetten öğrenmiyor"

(allenpike.com)

20 puan yazan GN⁺ 2024-06-03 | 2 yorum | WhatsApp'ta paylaş

Geçmişte LLM’ler ağırlıklı olarak internet verileriyle eğitiliyordu ve bugün de büyük ölçüde durum böyle, ancak bu giderek daha az doğru hale geliyor
"İnternet simülatörü" kavramı, GPT-5 ve sonrasının nasıl davranacağını öngörmek için artık pek faydalı değil
- Yeni modeller bu tanımın ötesine çoktan geçmeye başladı ve bu değişim daha yolun başında

Veri duvarı (Data Wall)

OpenAI’nin 2020 tarihli GPT-3 makalesi eğitim veri setini ayrıntılı biçimde açıklıyordu, ancak bu artık geçmişte kalmış bir şey
- 2022’den sonra LLM eğitiminde kullanıcıya özel geri bildirimler kullanılmaya başlandı ve OpenAI gibi şirketler eğitim verileri hakkında daha ketum davranıyor
- GPT-4, Sora veya GPT-5’in hangi verilerle eğitildiğini bilmiyoruz, ancak yalnızca internet verileriyle eğitilmedikleri açık
LLM geliştiricileri son dönemde bir "veri duvarı" ile karşı karşıya kaldı
- OpenAI zaten web’deki verilerin neredeyse tamamına sahip olduğu için, daha iyi LLM’ler üretmek adına özel verilerin elde edilmesi ve üretilmesi gerekiyor
Parası olan laboratuvarlar için çözüm, özel veriyi güvence altına almak ve üretmek
- İlk aşamada odak, mevcut eğitim verisini daha faydalı hale getirmeye ya da mevcut özel veriyi eğitim havuzuna eklemeye yönelmişti
- Örneğin
  1. Açıklama ekleme ve filtreleme: Araştırmacılar eğitim verisine açıklamalar ekleyerek yüksek kaliteli verilere odaklanabiliyor ve böylece daha iyi modeller oluşturabiliyor
  2. RLHF: Laboratuvarlar insanlara model çıktısını değerlendirtip bu verileri modeli ince ayar yapmak ve faydalı davranışları teşvik etmek için kullanıyor
  3. Kullanım verisi: ChatGPT’nin günde yaklaşık 10 milyar token veri ürettiği söyleniyor
  4. Veri edinimi: E-postalar, sohbet kayıtları, şirket içi kılavuzlar, JIRA kayıtları, telefon kayıtları, iç raporlar, sözleşmeler gibi pek çok veri internette yer almıyor ve model eğiticileri bunları eğitim verisine ekleyebiliyor
  Reklam
Ancak bu teknikler, "LLM’lerin mevcut veriden farklı çıktılar üretmede zorlanması" sorununu tamamen çözmüyor
- LLM’ler özellikle şu tür görevlerde zorlanıyor (çünkü bunları çevrimiçi gösteren çok fazla metin yok)
  1. Bir yanıta dair şüphe veya belirsizlik ifade etmek
  2. Tekrarlayan kalıplara ya da döngülere düşmeden uzun bir konuşmayı sürdürmek
  3. LLM ajanlarının izleyeceği üst düzey planlar oluşturmak
  4. Büyük ölçekli eski kod tabanları üzerinde kıdemli bir mühendis gibi akıl yürütmek
  5. Çok uzun veya karmaşık prompt’ları güvenilir biçimde takip etmek
Geliştirilmiş mimariler ve daha fazla parametre bu sınırlamaları aşmaya yardımcı olabilir, ancak OpenAI, Meta, Google, Microsoft ve diğerleri bu boşluğu kapatmak için yeni örnekler üretip bunlarla eğitim verme gibi daha basit bir yönteme büyük para harcıyor

LLM’ler artık özel tasarlanmış verilerle eğitiliyor

Microsoft’un Phi-3 teknik raporu (nisanda yayımlandı), özel tasarlanmış verideki artışın güncel bir örneği
- phi-3-mini yalnızca 3,8 milyar parametreye sahip olmasına rağmen, daha büyük ve daha ağır Mixtral modeliyle yarışabilecek performans gösteriyor
- Bu iyileşmenin bir kısmı, daha büyük LLM’lerin ürettiği yüksek kaliteli sentetik verilerin eğitim verisine dahil edilmesiyle açıklanıyor
- Sentetik veri, internet kaynaklı verideki boşlukları kapatabiliyor ve belirli bir model boyutu için performansı artırabiliyor
Reklam
Sentetik veri şu anda LLM araştırmalarının en çok ilgi gören başlıklarından biri
- Bir LLM’yi kendi çıktılarıyla eğitmenin nereye kadar mümkün olduğu henüz net değil (devasa bir sinir ağı yılanının kendi kuyruğunu yemesi gibi bir durum ortaya çıkabilir)
- Ancak en azından sentetik veri, LLM’lerin "internet simülatörü" gibi davranmasından doğan boşlukları kapatmaya yardımcı olacak gibi görünüyor
  - Örneğin, belirsizlik ifade etmeye yönelik eğitim örnekleri yetersizse veya veri temsili değilse ve bu yüzden önyargılıysa, daha iyi örnekler üretilebilir
Yine de LLM’lerle mükemmel sentetik veri üretmek zor bir problem ve bunun da sınırları olacak
- Bu yüzden internet dışındaki son büyük veri kaynağı olan "insan" devreye giriyor

Yıllık 1 milyar dolar ($1B) ile ne kadar veri üretilebilir?

İnsanlara ödeme yaparsanız veri üretmeye gönüllü oluyorlar
- Scale.ai kendisini "AI için veri fabrikası" olarak tanımlıyor ve laboratuvarların insanlara veri üretmeleri için ödeme yapabildiği bir hizmet sunuyor
- AI şirketlerinin Scale’in hizmetlerine yılda 1 milyar dolardan fazla ödediği söyleniyor
- Bunun bir kısmı web’den ya da LLM’lerden alınan verilerin açıklanması ve değerlendirilmesi için kullanılsa da, sıfırdan yeni eğitim verisi de üretiliyor
- Scale; doktora düzeyinde akademisyenler, avukatlar, muhasebeciler, şairler, yazarlar ve belirli dillere çok hakim kişiler gibi yüksek derecede uzmanlaşmış çalışanlara odaklanıyor
- Bu kişiler OpenAI, Cohere, Anthropic, Google gibi şirketler için modelleri eğitiyor ve test ediyor; karşılığında daha yüksek saatlik ücret alıyorlar
OpenAI gibi şirketler, uzmanların internet kaynaklı verideki boşlukları dolduracak yeni ve kaliteli veriler üretmesi için ödeme yapabiliyor; ardından bu veriler model eğitiminde kullanılıyor
- Örneğin, "Ph.D. düzeyindeki bir kişinin cevabı bilmediği bir soruyla karşılaştığında düşünceli bir belirsizlik ifade ettiği 50 bin örnek" gibi bir veri seti, üretim maliyetinin çok ötesinde bir değere sahip olabilir
LLM’lerin başlangıçta internetten öğrendiği ve ilk zayıflıklarının büyük kısmının web’de yayımlanmış dağınık içeriklerden kaynaklandığı düşünülebilir
Ancak özel eğitim verisinin ölçeği ve etkisi arttıkça, LLM’lerin "internet simülasyonu"nun çok ötesine geçmesi bekleniyor
- Özellikle de internette bulunmayan ama 1 milyar doların üzerindeki özel veri üretimiyle ortaya konabilecek alanlarda gelişmeye devam edecekler
Kısacası bu tren bir süre daha yoluna devam edecek

GN⁺ görüşü

Verinin önemi: LLM’lerin performansını artırmak için farklı kaynaklardan gelen verilere ihtiyaç var. Yalnızca internet verisi yeterli değil.
Maliyet sorunu: Özel veri üretimi çok maliyetli. Bu, küçük laboratuvarlar veya şirketler için büyük bir yük olabilir.
Sentetik verinin sınırları: Sentetik veri faydalı olsa da, gerçek insanların ürettiği veriyle arasında fark olabilir. Bu nedenle modelin gerçekçiliğinde sınırlamalar oluşabilir.
Gelecek görünümü: Özel tasarlanmış veri ve sentetik veriyi kullanan LLM’lerin gelişiminin sürmesi bekleniyor. Bu, çok çeşitli alanlarda yeniliği beraberinde getirebilir.
Rekabet durumu: OpenAI, Google, Microsoft gibi büyük şirketler özel veri üretimine yatırım yapıyor; bu nedenle rekabetin daha da kızışması bekleniyor.

2 yorum

bytebrawlers 2024-06-04

"Data wall" denen şey sonuçta yeterli Compute olduğunda sorun haline geliyor; hatta güç verimliliği ve tedarik sorunlarına bakınca, Compute artışının sınırı, yani elektrik miktarı sorunu daha önemli hale gelebilir.

GN⁺ 2024-06-03

Hacker News görüşleri

Bu yazı bazı iyi noktalara değiniyor ve özellikle Phi-3 çok ilginç bir teknoloji. Anthropic, Mistral, FAIR gibi en yeni mimarilerden bahsetmemesi tuhaf.
Modern LLM'ler yalnızca web'den toplanan verilerle değil, birçok kişinin oluşturduğu özelleştirilmiş veri kümeleriyle eğitiliyor. Bu büyüme potansiyelini gösterse de yanlış yönde sonsuza kadar ölçeklenme riski var.
İnsanların önyargılı veri üretmesi bir sorun. LLM'lerin özgün yanıtlar üretememesine örnek olarak, YouTube abone ol düğmesine tıklatmanın çeşitli yollarını önerememeleri veriliyor.
LLM eğitiminde kullanılan veriler, düşük ücretli Hintli programcılar tarafından sağlandı. Şu anda veriyi uzmanlar sağlıyor, ancak bunun düşük ücretli iş gücüne dönüşme ihtimali var.
Uzman sistemlerin başarısız olmasının nedeni, uzmanlara sürekli ödeme yapmak zorunda olunmasıydı. OpenAI ile MS iş birliği AGI'ye (genel yapay zeka) ulaşmayı hedefliyor, ancak pratik sınırlar var.
Multimodal modelleri eğitmek hâlâ zorlayıcı. Darboğaza yol açan şey veri eksikliği değil, başka problemler.
"Ph.D.'lerin bilmediği sorular hakkında dikkatle belirsizlik ifade eden 50.000 örnek" gibi bir veri kümesi, üretim maliyetinden daha büyük bir değere sahip olabilir.
Teknoloji yatırımları sayesinde, yetenekli yazarların yazı yazmasını sağlayan WPA benzeri programların ortaya çıkmasını umuyorum. Bu, üstün nitelikli insan üretimi eserlerden oluşan bir külliyat yaratabilir.
Yapay zekadaki gelecekteki büyük ilerlemenin veriyle ilgili olmayacağı düşünülüyor.
OpenAI ve benzerleri, verileri gizli tutma sözü vermiş şirketlere büyük paralar ödeyecek. Slack, Atlassian, Dropbox gibi şirketler buna dahil.