- 20 soruluk bir set kullanılarak 60’tan fazla Büyük Dil Modelinin (Large Language Models, LLMs) performansı test ediliyor ve her LLM’nin yanıtları derleniyor
- Bu sorular, LLM’lerin temel akıl yürütme, talimatları takip etme ve yaratıcılık becerilerini test etmek için tasarlanmış
- LLM’lerden gelen yanıtlar bir SQLite veritabanında saklanıyor
- Sorular, basit aritmetik problemlerden bir lise öğrencisine kuantum alan teorisini açıklamak gibi daha karmaşık görevlere kadar uzanıyor
- Bu betik ayrıca cümle çevirisi, koddaki hataları belirleme ve Python fonksiyonu üretme gibi LLM’lerin yerine getirmesi gereken görevleri de içeriyor
- Yazar, betiği çalıştırmak için OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha ve AI21 API’lerini kullanmış
- Betiği, her modele uygun şekilde optimize edilmiş stop sequence’ler ve prompt formatları kullanarak geliştirmeyi planlıyor
- Geleceğe dönük fikirler arasında herkese açık oylamayla ELO puanı hesaplama, iki modeli yan yana karşılaştırma ve topluluk tarafından gönderilen prompt’lar yer alıyor
1 yorum
Hacker News görüşleri