4 puan yazan GN⁺ 2024-05-15 | 2 yorum | WhatsApp'ta paylaş

Needle in a Needlestack: GPT-4o'nun bellek atılımı! (NIAN kodu) - Tom Burns

Yeni bir benchmark tanıtımı

  • Needle in a Needlestack, LLM'lerin (büyük dil modelleri) bağlam penceresindeki bilgilere ne kadar iyi dikkat ettiğini ölçen yeni bir benchmark.
  • NIAN, binlerce limerick içeren istemler üretir ve belirli bir konumdaki tek bir limerick hakkında soru sorar.
  • Örnek istem yaklaşık 2500 limerick içerir.
  • Şimdiye kadar hiçbir LLM bu benchmark'ta çok iyi bir performans göstermedi.

GPT-4 Turbo ve Claude-3 Sonnet'in denemeleri

  • GPT-4 Turbo ve Claude-3 Sonnet denemeleri:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

GPT-4o'nun atılımı

  • GPT-4o büyük bir atılım gerçekleştirdi!
  • Bu benchmark'ta neredeyse kusursuz bir performans gösteriyor.
  • OpenAI'nin GPT-4 Turbo'ya kıyasla GPT-4o'yu nasıl bu kadar iyi hale getirdiğini ne zaman açıklayacağını merak ediyorum.

Mistral modellerinin performansı

  • Mistral modelleri kullanımı çok iyi. API son derece hızlı ve tutarlı.
  • Ancak Mistral'ın yeni 8x22 modeli bu benchmark'ta ciddi şekilde zorlanıyor.
    • İstemin en başındaki sorularda bile doğru yanıtlama olasılığı yalnızca %50.
    • Mistral large daha iyi bir sonuç verdi, ancak yine de doğruluk oranı %70'te kaldı.
  • Not: Token sayısını tahmin etmek için OpenAI'nin tokenizer'ı kullanıldı. Mistral, yaklaşık %25 daha fazla token üreten farklı bir tokenizer kullandığı için, grafikteki token sayıları gerçek sayıdan daha düşüktür.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Kısa istemlerde performans

  • Modeller kısa istemlerde çok daha iyi performans gösteriyor.
  • Örnek: Mistral 7b'nin 16k token istem ve 32k token istem performansının karşılaştırması.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

Bilgiyi tekrar etmenin önemi

  • Bilgiyi tekrarlamak bu testte büyük fark yaratıyor.
  • GPT-3.5-turbo, sorulan limerick istem içinde 10 kez tekrarlandığında dramatik biçimde daha iyi sonuç veriyor.
    • limerick used once
    • limerick used 10 times

Benchmark kodu ve ek bilgiler

  • Bu benchmark'ın koduna buradan ulaşabilirsiniz.
  • Ek model desteği kolayca eklenebilir.
  • Yanıtların nasıl değerlendirildiği ve soruların nasıl doğrulandığına dair ayrıntılar için metodoloji sayfasına bakabilirsiniz.
  • Sorularınız varsa iletişim adresi üzerinden ulaşabilirsiniz.
  • Bu site açık kaynaklıdır. Bu sayfayı iyileştir.

GN⁺ görüşü

  • Teknik ilerleme: GPT-4o'nun performansı, LLM bellek ve dikkat kapasitesindeki gelişimde büyük bir ilerleme gösteriyor. Bu da daha karmaşık görevlerin mümkün olmasının önünü açıyor.
  • Model seçimi: Farklı modellerin performansı karşılaştırılırken, belirli işe uygun modeli seçmek önemlidir. Örneğin, kısa istemlerde daha iyi sonuç veren bir modeli seçmek avantajlı olabilir.
  • Tekrarın önemi: Bilginin tekrarının model performansına etkisi dikkate alınmalıdır. Bu, veri hazırlama ve istem tasarımında önemli bir unsur olabilir.
  • Açık kaynağın avantajı: Bu benchmark'ın açık kaynak olması, araştırmacılar ve geliştiriciler için serbestçe erişme ve iyileştirme fırsatı sunar. Bu da topluluğun gelişimine katkı sağlayabilir.
  • Gelecek görünümü: GPT-4o gibi modellerdeki ilerleme, yapay zekanın çeşitli uygulama alanlarında yenilik getirebilir. Ancak bu tür teknolojiler benimsenirken etik değerlendirmeler ve sorumlu kullanım gereklidir.

2 yorum

 
wedding 2024-05-18

Teknolojik gelişme gerçekten inanılmaz.. T_T

 
GN⁺ 2024-05-15
Hacker News görüşü

Hacker News yorumları özeti

  • Hukuki belge karşılaştırmasındaki hatalar

    • İki küçük hukuki belge karşılaştırılırken, GPT-4 bazı maddelerin yalnızca tek bir belgede bulunduğunu yanlış tespit etti. Oysa içerik aslında aynıydı.
    • Bu tek bir örnek olsa da, %90 doğruluk iddiası şüpheli görünüyor. Yaklaşık 80k token söz konusuydu.
  • Limericks veri seti temelli

    • 2021'de yayımlanan bir limericks veri setine dayanıyor. GPT-4o'nun bu veri setiyle eğitilmiş olma ihtimali yüksek.
    • NIAN ekibinin başka modeller kullanarak limericks üretip bunların veri setine dahil edilmediğini doğrulaması gerekiyor.
  • Needle in the Haystack testinin sınırları

    • Bu test, modelin gerçek uzun bağlam işleme yeteneğini sınırlı ölçüde gösteriyor. İlk modeller bu testte kötü performans verdiği için ağırlıklı olarak kullanıldı.
    • Son dönemdeki modeller bu testte iyi sonuç veriyor, ancak 32K token sonrasında karmaşık görevleri yerine getirme becerileri ciddi biçimde düşüyor.
    • RULER testi daha iyi bir değerlendirme yöntemi.
  • Gemini Pro 1.5'in performansı

    • Gemini Pro 1.5, Moby Dick'in tamamını ve Byung Chul-Han'ın tüm kitaplarını işleyebildi. Soruların yanıtlarını doğru biçimde buldu.
  • "Synthesis from Haystack" testine ihtiyaç

    • Sadece basit erişimi değil, derin kavrayış, ilişki kurma ve soyutlamayı da test eden bir yönteme ihtiyaç var.
    • İnsanlar kitap okurken genel bir sezgi geliştirir. Bunu nicel olarak ölçmenin bir yolu gerekli.
  • GPT ile HTML düzeni dönüştürme

    • GPT kullanılarak dinamik veriler gerçek zamanlı olarak güzel HTML düzenlerine dönüştürülebilir. Bu, geliştirme süresinden tasarruf sağlar ve veri yapısı değiştiğinde HTML'in de güncellenmesine olanak verir.
    • Önceki denemelerde GPT-4 Turbo'nun bağlamı ve talimatları görmezden geldiği durumlar olmuştu.
  • GPT-4o'nun gelişmiş dikkat yeteneği

    • GPT-4o, GPT-4 Turbo ve Claude-3 Sonnet'e kıyasla, giriş penceresinin tamamında dikkatini daha iyi koruyabiliyor.
    • "Needle In A Needlestack" testi iyi bir sonraki adım olabilir. Binlerce limerick içeren bir prompt içinde, belirli bir konumdaki limerick hakkında soru sorulmasını içeriyor.
  • LLM değerlendirmesinin zorluğu

    • Kamuya açık internette gerçek anlamda düzgün LLM değerlendirmesi yapan neredeyse kimse olmadığı yönünde bir görüş var.
  • Eğitim veri setine dair soru işaretleri

    • GPT-4o'nun bu veri setiyle eğitilmediğinin nasıl bilinebileceğine dair soru işaretleri var.
    • Test verisinin eğitim verisine dahil edilmediğini bilmek gerekiyor; ancak o zaman anlamlı olur.