10 puan yazan GN⁺ 2025-08-27 | 3 yorum | WhatsApp'ta paylaş
  • Son 5 yılda şirketler 2K'dan 2M'ye kadar bağlam penceresi boyutunu rekabet içinde büyüttü
  • Ancak birçok kişi, modele etikette yazan bağlam penceresi boyutu ile gerçekte kullanılabilir boyutun farklı olduğuna dikkat çekiyor
  • Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama gibi başlıca modellerin gerçek performansları karşılaştırıldığında, tanıtılandan oldukça farklı deneyimler bildiren çok sayıda örnek var
  • “Büyük bağlam anlamlı ama pratikte yalnızca 4–8k civarında düzgün çalışıyor” diyen şüpheci bakış ile, “yüz binlerce tokene kadar gerçek kullanım mümkün” diyen olumlu deneyimler karşı karşıya geliyor

Ana tartışma noktaları

  • 1. Gerçekte kullanılabilir bağlam boyutu

    • Gerçek kullanım zaman çizelgesi 1k→2k→4k→8k→8k→8k→32k→40k; yalnızca Gemini 2.5 Pro 80k'ye kadar çıkabiliyor
    • Fiilî kullanım aralığı hâlâ yalnızca 4–8k
    • “Etiketteki boyut anlamsız; önemli olan kullanılabilir bağlam uzunluğu”
    • Açıklanan boyut ile gerçek kullanım boyutu arasındaki fark kabul ediliyor
  • 2. Gemini performansı

    • Gemini 2.5 Pro 250k'ye kadar kararlı, 500k de kullanılabiliyor; 800k'de yanıt üretiyor ama doğruluk düşüyor
    • 200k'ye kadar bozulma çok yavaş, sonrasında da Gemini en iyi performansı gösteriyor
    • Gemini, RoPE genişletmesi yerine sequence sharding gibi kendine özgü bir mimari kullanıyor; bazı katmanlar tüm token'lar üzerinde yoğun attention uyguluyor
  • 3. GPT-5 değerlendirmesi

    • GPT-5-thinking 200k'nin üzerinde de iyi çalışıyor
    • 100k'ye kadar çok hassas ama performansı Gemini'den daha erken düşüyor
  • 4. Claude değerlendirmesi

    • Claude'un büyük bağlamı korumakta zayıf olduğu yönünde ortak bir görüş var
      • Ayrıntıları, olay sırasını, yöntem adlarını yanlış hatırlıyor veya halüsinasyon üretiyor
    • Claude Sonnet 4, 4k'de bile bellekte sorun yaşıyor; Qwen 32b'den daha kötü
    • “Claude gerçekten kötü, Qwen'e geçtim”
  • 5. Qwen, Mistral, Gemma vb.

    • Mistral Large ve Gemma3 27B, 32k'de fena görünmüyor
    • Gemma3 en kötü seviyede; Fiction.live benchmark'ına bakılması öneriliyor
  • 6. Llama serisi

    • Llama 4 Scout, 10 milyon token desteği sunduğunu iddia ediyor
    • Gerçekte kullanılabilir aralık bunun çok altında. 0.5M bağlam testinde yalnızca son belgeyi özetliyor → büyük kod tabanları için de uygun değil
  • 7. Modellere dair ayrıntılı deneyimler

    • “Tutarlılık (coherence) ≠ gerçek kullanılabilirlik”; Gemini 2.5 Pro bile 10–20k roman özetlerinde bağlam takibinde zorlanıyor
    • Gemini 1.5 Pro'nun diğer alanlarda zayıf olsa da uzun bağlam yorumlamada 2.5 Pro'dan daha iyi olduğu değerlendiriliyor
    • Ajan tabanlı kodlama araçlarında sistem prompt'u 20k'nin üzerinde; bu nedenle yalnızca 4–8k kullanılabildiği iddiası doğru değil. Yine de ilk bağlam kısmı en kararlı bölüm

Diğer

  • Araç/kaynak paylaşımı:
    • Animasyon grafik üretim aracı: Remotion
    • Performans düşüşüyle ilgili kaynak: LoCoDiff-bench

Sonuç

  • Ortak görüş: Her modelde “resmî teknik özellikler” ile “gerçek kullanım performansı” arasında büyük fark var
  • Gemini: Genel olarak en kararlı ve büyük bağlamlarda da güçlü olarak değerlendiriliyor
  • GPT-5: Orta seviyeye kadar çok iyi, ancak performans düşüşü Gemini'den daha erken başlıyor
  • Claude: Uzun bağlam kullanımında en düşük değerlendirmeyi alıyor
  • Llama/Gemma: Desteklenen teknik özelliklere kıyasla gerçek kullanılabilirlik yetersiz

3 yorum

 
firstlesson 2025-08-27

Açıkçası ben benchmark’ların söylediği kadar ezici bir fark pek hissedemedim.
Benim hissettiğim daha çok sadece “biraz daha iyi” seviyesinde; öyle çok keskin bir fark yoktu.
Hatta modellerin performansı genel olarak birbirine yaklaşınca insanların daha katı karşılaştırmalar yaptığını da düşünüyorum haha
Sonuçta asıl önemli olanın hangi senaryoda kullanıldığına göre değiştiğini düşünüyorum.

Gemini’nin context window’u zaten çok büyük olduğu için büyük kod tabanları ya da uzun bağlamı korumak için iyi görünüyor; Claude ise istikrarlı kodlama doğruluğuyla öne çıkıyor, bu yüzden kullanım amacına göre seçmek en doğrusu gibi duruyor.

 
tested 2025-08-27

AI benchmark değerleri dışında, gerçek kullanım deneyiminde kodlama performansı Claude'dan daha iyi olan bir model var mı?

 
shakespeares 2025-08-27

Claude'un uzun bağlamda bazı dezavantajları var ama kodlama konusunda en iyisi gibi görünüyor.