8 puan yazan GN⁺ 2023-09-10 | 1 yorum | WhatsApp'ta paylaş
  • 20 soruluk bir set kullanılarak 60’tan fazla Büyük Dil Modelinin (Large Language Models, LLMs) performansı test ediliyor ve her LLM’nin yanıtları derleniyor
  • Bu sorular, LLM’lerin temel akıl yürütme, talimatları takip etme ve yaratıcılık becerilerini test etmek için tasarlanmış
  • LLM’lerden gelen yanıtlar bir SQLite veritabanında saklanıyor
  • Sorular, basit aritmetik problemlerden bir lise öğrencisine kuantum alan teorisini açıklamak gibi daha karmaşık görevlere kadar uzanıyor
  • Bu betik ayrıca cümle çevirisi, koddaki hataları belirleme ve Python fonksiyonu üretme gibi LLM’lerin yerine getirmesi gereken görevleri de içeriyor
  • Yazar, betiği çalıştırmak için OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha ve AI21 API’lerini kullanmış
    • Betiği, her modele uygun şekilde optimize edilmiş stop sequence’ler ve prompt formatları kullanarak geliştirmeyi planlıyor
    • Geleceğe dönük fikirler arasında herkese açık oylamayla ELO puanı hesaplama, iki modeli yan yana karşılaştırma ve topluluk tarafından gönderilen prompt’lar yer alıyor

1 yorum

 
GN⁺ 2023-09-10
Hacker News görüşleri
  • Kullanıcı, çeşitli büyük dil modelleri (Large Language Models, LLMs) üzerinde benchmark çalıştırmak için genel amaçlı bir harness oluşturdu ve başkalarını modelleri kendi verileriyle test etmeye teşvik ediyor. Bu kütüphane OpenAI, Anthropic, Google, Llama, Codellama, Replicate ve Ollama modellerini destekliyor.
  • Vercel'in AI Playground'u, birden fazla LLM'e aynı anda soru sormaya yarayan kullanışlı bir araç olarak öne çıkarılıyor; ancak şu anda 60 değil yalnızca 24 modeli destekliyor.
  • Yazıdaki LLM benchmark yöntemi, sınav geçme gibi geleneksel yöntemlere kıyasla daha gerçekçi olduğu için övgü alıyor. Ancak soruların eğitim setinin bir parçası hâline gelerek sonuçları çarpıtma ihtimali konusunda endişeler dile getiriliyor.
  • Aile ilişkileriyle ilgili bir soruda LLM'lerin yanıtları arasında farklılık bulundu ve bir kullanıcı, yazının tüm LLM'lerin yanlış cevap verdiğini iddia ettiği soruya GPT4'ün doğru cevap verdiğini bildirdi.
  • Falcon Instruct (40B), tatille ilgili bir şaka üzerinden eğlenceli biçimde "en komik model" olarak öne çıkarılıyor.
  • LLM'ler için ek benchmark önerileri arasında "TheoremQA: Teorem Tabanlı [STEM] Soru Cevaplama Veri Kümesi" ve "Awesome-legal-nlp" yer alıyor.
  • ChatGPT 3.5, lafı uzatan yanıtları nedeniyle eleştiriliyor; bir kullanıcı sık sık gereksiz derecede uzun açıklamalar verdiğine dikkat çekiyor.
  • Yapay zekadaki ilerlemeye hayranlık duyulurken, bir kullanıcı LLM'lerin "Kubernetes lehine ve aleyhine etik ve aseksüel haiku" üretebilme becerisinden söz ediyor.
  • CodeLlama modelinin performansı hakkında soru işaretleri ortaya atılıyor; bir kullanıcı, yazıda listelenenden çok daha iyi sonuçlar gördüğünü bildiriyor.
  • LLM'lere duyulan ilgiye rağmen bazı kullanıcılar, özellikle müzik teorisi sorularında, modellerin yanıt kalitesinden hayal kırıklığı duyduklarını ve bu modellerin zaman içinde gerçekten büyük ölçüde gelişip gelişmeyeceğini sorguladıklarını ifade ediyor.