8 puan yazan GN⁺ 2024-08-19 | 3 yorum | WhatsApp'ta paylaş

"Bir dil modelinden daha mı akıllısınız?"

Birçok benchmark, dil modellerinin insan görevlerini ne kadar iyi yerine getirdiğini değerlendirmeye çalışıyor.
Peki siz, bir sonraki kelimeyi tahmin etme gibi tipik bir dil modeli görevinde ne kadar başarılı olabilirsiniz?

15 soruyu çözün

3 yorum

 
curioe 2024-08-19

4 puan... sonuç sinir bozucu ya

 
xguru 2024-08-19

Aman Tanrım. İngilizce sorusu çözer gibi çözünce puanım gerçekten çok düşük çıkıyor hıçkırık

 
GN⁺ 2024-08-19
Hacker News görüşü
  • Başlıktaki "akıllı" ifadesinden beklediğim şey bu değildi ama ilginç bir fikir

    • Aynı anda yalnızca bir soru gösterilip her yanıttan sonra anında geri bildirim verilmesi daha iyi olurdu
    • Böylece daha sürükleyici olur ve doğru cevabı hemen görmek faydalı olur
  • Hacker News yorumlarından bir sonraki kelimeyi tahmin etmeye yönelik bir oyun/quiz yapılmış

    • llama2 kullanılarak her yorum için üç alternatif tamamlama üretilmiş ve çoktan seçmeli sorular oluşturulmuş
    • Yerel dil modeli, prompt ve yanıtın toplam perplexity değeri en düşük olan yanıtı seçiyor
    • OpenAI modeli ise logit_bias ayarlanarak yalnızca izin verilen yanıtlardan birini seçmeye zorlanıyor
    • Claude veya diğer çevrimiçi LLM'lerle karşılaştırma yapılamamış
    • Quizin çok eğlenceli olduğu söylenemez ama %50'nin üzerinde doğru cevap oranını istikrarlı biçimde korumak mümkün olmuş
  • Dil modelinin seçme olasılığı en düşük olan kelimeyi seçmek kazanma stratejisi

    • "aykırı değer (outlier)" seçmek en iyi strateji
    • Bu, AI içeriğini tespit etmek için basit bir strateji olabilir
  • Sonuçlara bakınca, verilen bilgiyle bir sonraki kelimeyi tam olarak tahmin etmek imkansız görünüyor

    • Yanıtları olasılığa göre sıralayıp doğru cevabı ne kadar yukarıya koyduğuna göre puan verilirse rastgele tahminden daha iyi olurdu
    • LLM'in orijinal yazarın sesini taklit etmeye çalışıp çalışmadığını merak ediyorum
  • Bu oyun, HN yorumlarını fazla okuyup okumadığını anlamak için iyi bir test

  • Her seferinde rastgele bir quiz geldiği için sonuçları karşılaştırmak mümkün değil

    • Ortalama bir insanın LLM'i yenebileceği bir corpus bulunup Wordle tarzı günlük meydan okuma ve sosyal paylaşım özellikleri eklenirse viral olma potansiyeli var
  • HN'de geçirilen zaman sayesinde AI'dan biraz daha iyi tahmin yapabildim

  • 100 soruluk quizi deneyecekler için: geleneksel istatistik ölçütlerine göre üçte birden fazlasını doğru yapmak, tahminden daha iyi sayılmak için yeterli

    • LLM'den daha iyi olmak için ise yarısından fazlasını doğru yapmak gerekiyor
  • Örnekler HN'den geldiyse, metnin zaten veri setinin bir parçası olma ihtimali var

    • Yakın tarihli yorumlara bakılırsa bunun böyle olmama ihtimali daha yüksek
    • ChatGPT Bing arama aracını kullanabiliyor olabilir ama gpt4o-mini API modelinin bunu yapma ihtimali düşük
  • Bazıları daha büyük bir bağlamdan alıntılanmış, bu yüzden LLM tahmin konusunda avantajlı bir konumda