"Bir dil modelinden daha mı akıllısınız?"
Birçok benchmark, dil modellerinin insan görevlerini ne kadar iyi yerine getirdiğini değerlendirmeye çalışıyor.
Peki siz, bir sonraki kelimeyi tahmin etme gibi tipik bir dil modeli görevinde ne kadar başarılı olabilirsiniz?
15 soruyu çözün
3 yorum
4 puan... sonuç sinir bozucu ya
Aman Tanrım. İngilizce sorusu çözer gibi çözünce puanım gerçekten çok düşük çıkıyor hıçkırık
Hacker News görüşü
Başlıktaki "akıllı" ifadesinden beklediğim şey bu değildi ama ilginç bir fikir
Hacker News yorumlarından bir sonraki kelimeyi tahmin etmeye yönelik bir oyun/quiz yapılmış
logit_biasayarlanarak yalnızca izin verilen yanıtlardan birini seçmeye zorlanıyorDil modelinin seçme olasılığı en düşük olan kelimeyi seçmek kazanma stratejisi
Sonuçlara bakınca, verilen bilgiyle bir sonraki kelimeyi tam olarak tahmin etmek imkansız görünüyor
Bu oyun, HN yorumlarını fazla okuyup okumadığını anlamak için iyi bir test
Her seferinde rastgele bir quiz geldiği için sonuçları karşılaştırmak mümkün değil
HN'de geçirilen zaman sayesinde AI'dan biraz daha iyi tahmin yapabildim
100 soruluk quizi deneyecekler için: geleneksel istatistik ölçütlerine göre üçte birden fazlasını doğru yapmak, tahminden daha iyi sayılmak için yeterli
Örnekler HN'den geldiyse, metnin zaten veri setinin bir parçası olma ihtimali var
gpt4o-miniAPI modelinin bunu yapma ihtimali düşükBazıları daha büyük bir bağlamdan alıntılanmış, bu yüzden LLM tahmin konusunda avantajlı bir konumda