Dil modellerinden daha iyi bir sonraki kelime tahmini yapabiliyor musunuz?

(joel.tools)

8 puan yazan GN⁺ 2024-08-19 | 3 yorum | WhatsApp'ta paylaş

"Bir dil modelinden daha mı akıllısınız?"

Birçok benchmark, dil modellerinin insan görevlerini ne kadar iyi yerine getirdiğini değerlendirmeye çalışıyor.
Peki siz, bir sonraki kelimeyi tahmin etme gibi tipik bir dil modeli görevinde ne kadar başarılı olabilirsiniz?

15 soruyu çözün

3 yorum

curioe 2024-08-19

4 puan... sonuç sinir bozucu ya

xguru 2024-08-19

Aman Tanrım. İngilizce sorusu çözer gibi çözünce puanım gerçekten çok düşük çıkıyor hıçkırık

GN⁺ 2024-08-19

Hacker News görüşü

Başlıktaki "akıllı" ifadesinden beklediğim şey bu değildi ama ilginç bir fikir
- Aynı anda yalnızca bir soru gösterilip her yanıttan sonra anında geri bildirim verilmesi daha iyi olurdu
- Böylece daha sürükleyici olur ve doğru cevabı hemen görmek faydalı olur
Hacker News yorumlarından bir sonraki kelimeyi tahmin etmeye yönelik bir oyun/quiz yapılmış
- llama2 kullanılarak her yorum için üç alternatif tamamlama üretilmiş ve çoktan seçmeli sorular oluşturulmuş
- Yerel dil modeli, prompt ve yanıtın toplam perplexity değeri en düşük olan yanıtı seçiyor
- OpenAI modeli ise logit_bias ayarlanarak yalnızca izin verilen yanıtlardan birini seçmeye zorlanıyor
- Claude veya diğer çevrimiçi LLM'lerle karşılaştırma yapılamamış
- Quizin çok eğlenceli olduğu söylenemez ama %50'nin üzerinde doğru cevap oranını istikrarlı biçimde korumak mümkün olmuş
Dil modelinin seçme olasılığı en düşük olan kelimeyi seçmek kazanma stratejisi
- "aykırı değer (outlier)" seçmek en iyi strateji
- Bu, AI içeriğini tespit etmek için basit bir strateji olabilir
Sonuçlara bakınca, verilen bilgiyle bir sonraki kelimeyi tam olarak tahmin etmek imkansız görünüyor
- Yanıtları olasılığa göre sıralayıp doğru cevabı ne kadar yukarıya koyduğuna göre puan verilirse rastgele tahminden daha iyi olurdu
- LLM'in orijinal yazarın sesini taklit etmeye çalışıp çalışmadığını merak ediyorum
Bu oyun, HN yorumlarını fazla okuyup okumadığını anlamak için iyi bir test
Her seferinde rastgele bir quiz geldiği için sonuçları karşılaştırmak mümkün değil
- Ortalama bir insanın LLM'i yenebileceği bir corpus bulunup Wordle tarzı günlük meydan okuma ve sosyal paylaşım özellikleri eklenirse viral olma potansiyeli var
HN'de geçirilen zaman sayesinde AI'dan biraz daha iyi tahmin yapabildim
100 soruluk quizi deneyecekler için: geleneksel istatistik ölçütlerine göre üçte birden fazlasını doğru yapmak, tahminden daha iyi sayılmak için yeterli
- LLM'den daha iyi olmak için ise yarısından fazlasını doğru yapmak gerekiyor
Örnekler HN'den geldiyse, metnin zaten veri setinin bir parçası olma ihtimali var
- Yakın tarihli yorumlara bakılırsa bunun böyle olmama ihtimali daha yüksek
- ChatGPT Bing arama aracını kullanabiliyor olabilir ama gpt4o-mini API modelinin bunu yapma ihtimali düşük
Bazıları daha büyük bir bağlamdan alıntılanmış, bu yüzden LLM tahmin konusunda avantajlı bir konumda

Dil modellerinden daha iyi bir sonraki kelime tahmini yapabiliyor musunuz?

İlgili okumalar

3 yorum

Hacker News görüşü