Needle in a Needlestack: GPT-4o'nun bellek atılımı! (NIAN kodu) - Tom Burns
Yeni bir benchmark tanıtımı
- Needle in a Needlestack, LLM'lerin (büyük dil modelleri) bağlam penceresindeki bilgilere ne kadar iyi dikkat ettiğini ölçen yeni bir benchmark.
- NIAN, binlerce limerick içeren istemler üretir ve belirli bir konumdaki tek bir limerick hakkında soru sorar.
- Örnek istem yaklaşık 2500 limerick içerir.
- Şimdiye kadar hiçbir LLM bu benchmark'ta çok iyi bir performans göstermedi.
GPT-4 Turbo ve Claude-3 Sonnet'in denemeleri
- GPT-4 Turbo ve Claude-3 Sonnet denemeleri:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
GPT-4o'nun atılımı
- GPT-4o büyük bir atılım gerçekleştirdi!
- Bu benchmark'ta neredeyse kusursuz bir performans gösteriyor.
- OpenAI'nin GPT-4 Turbo'ya kıyasla GPT-4o'yu nasıl bu kadar iyi hale getirdiğini ne zaman açıklayacağını merak ediyorum.
Mistral modellerinin performansı
- Mistral modelleri kullanımı çok iyi. API son derece hızlı ve tutarlı.
- Ancak Mistral'ın yeni 8x22 modeli bu benchmark'ta ciddi şekilde zorlanıyor.
- İstemin en başındaki sorularda bile doğru yanıtlama olasılığı yalnızca %50.
- Mistral large daha iyi bir sonuç verdi, ancak yine de doğruluk oranı %70'te kaldı.
- Not: Token sayısını tahmin etmek için OpenAI'nin tokenizer'ı kullanıldı. Mistral, yaklaşık %25 daha fazla token üreten farklı bir tokenizer kullandığı için, grafikteki token sayıları gerçek sayıdan daha düşüktür.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Kısa istemlerde performans
- Modeller kısa istemlerde çok daha iyi performans gösteriyor.
- Örnek: Mistral 7b'nin 16k token istem ve 32k token istem performansının karşılaştırması.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
Bilgiyi tekrar etmenin önemi
- Bilgiyi tekrarlamak bu testte büyük fark yaratıyor.
- GPT-3.5-turbo, sorulan limerick istem içinde 10 kez tekrarlandığında dramatik biçimde daha iyi sonuç veriyor.
- limerick used once
- limerick used 10 times
Benchmark kodu ve ek bilgiler
- Bu benchmark'ın koduna buradan ulaşabilirsiniz.
- Ek model desteği kolayca eklenebilir.
- Yanıtların nasıl değerlendirildiği ve soruların nasıl doğrulandığına dair ayrıntılar için metodoloji sayfasına bakabilirsiniz.
- Sorularınız varsa iletişim adresi üzerinden ulaşabilirsiniz.
- Bu site açık kaynaklıdır. Bu sayfayı iyileştir.
GN⁺ görüşü
- Teknik ilerleme: GPT-4o'nun performansı, LLM bellek ve dikkat kapasitesindeki gelişimde büyük bir ilerleme gösteriyor. Bu da daha karmaşık görevlerin mümkün olmasının önünü açıyor.
- Model seçimi: Farklı modellerin performansı karşılaştırılırken, belirli işe uygun modeli seçmek önemlidir. Örneğin, kısa istemlerde daha iyi sonuç veren bir modeli seçmek avantajlı olabilir.
- Tekrarın önemi: Bilginin tekrarının model performansına etkisi dikkate alınmalıdır. Bu, veri hazırlama ve istem tasarımında önemli bir unsur olabilir.
- Açık kaynağın avantajı: Bu benchmark'ın açık kaynak olması, araştırmacılar ve geliştiriciler için serbestçe erişme ve iyileştirme fırsatı sunar. Bu da topluluğun gelişimine katkı sağlayabilir.
- Gelecek görünümü: GPT-4o gibi modellerdeki ilerleme, yapay zekanın çeşitli uygulama alanlarında yenilik getirebilir. Ancak bu tür teknolojiler benimsenirken etik değerlendirmeler ve sorumlu kullanım gereklidir.
2 yorum
Teknolojik gelişme gerçekten inanılmaz.. T_T
Hacker News görüşü
Hacker News yorumları özeti
Hukuki belge karşılaştırmasındaki hatalar
Limericks veri seti temelli
Needle in the Haystack testinin sınırları
Gemini Pro 1.5'in performansı
"Synthesis from Haystack" testine ihtiyaç
GPT ile HTML düzeni dönüştürme
GPT-4o'nun gelişmiş dikkat yeteneği
LLM değerlendirmesinin zorluğu
Eğitim veri setine dair soru işaretleri