Uzun Bağlam Neden Başarısız Olur

(dbreunig.com)

3 puan yazan GN⁺ 2025-07-06 | Henüz yorum yok. | WhatsApp'ta paylaş

En yeni büyük dil modellerinde, 1 milyon token’a kadar destekleyen uzun bağlam pencereleri kullanıma girdi ve bunun ajan performansında sıçrama yaratacağı beklentisi oluştu
Ancak pratikte uzun bağlam, daha iyi yanıtlar üretmiyor; aksine bağlam zehirlenmesi, hata, kafa karışıklığı ve çakışma nedeniyle sistem başarısızlıklarına yol açıyor
Temel sorunlar arasında bağlam zehirlenmesi (poisoning), bağlam dikkat dağılması (distraction), bağlam karmaşası (confusion) ve bağlam çakışması (clash) yer alıyor
Bu sorunlar özellikle çok sayıda bilgi kaynağı, araç entegrasyonu ve çok aşamalı akıl yürütme gibi karmaşık akışlarda ajanları daha ağır etkiliyor
Gelecek yazıda pratik çözüm yolları ve kaçınma stratejileri ele alınacak

Bağlam yönetiminin önemi

Son dönemin öncü büyük modelleri, 1 milyon token’a kadar destekleyen uzun bağlam pencereleri sunuyor
Birçok kişi, büyük pencereye tüm araçları, belgeleri ve talimatları koymanın sorun yaratmayacağını düşünüyor
Ancak gerçekte bağlam aşırı yükü çeşitli başarısızlıklara neden oluyor ve özellikle ajan tabanlı uygulamalarda kritik bir sorun haline geliyor

Bağlam zehirlenmesi, halüsinasyonların (hallucination) veya hataların bağlama sızıp tekrar tekrar referans alınması durumudur
Deep Mind’ın Gemini 2.5 teknik raporu, oyun sırasında yanlış oyun durumunun hedef veya özet bölümünde kalması nedeniyle ajanın anlamsız stratejileri ve imkânsız hedefleri tekrar tekrar takip ettiği vakaları anlatıyor
Bu tür kirlenmiş bağlam, ajanın muhakemesini geçici ya da uzun süreli olarak bozabiliyor

Bağlam dikkat dağılması, bağlam o kadar uzadığında ortaya çıkar ki model, eğitim sırasında öğrendiklerinden çok bağlama aşırı odaklanır
Gemini 2.5 Pro’nun 1M+ token penceresinde bile, bağlam 100.000 token’ı geçtiğinde modelin geçmiş kayıtları tekrar etmeye başladığı ve yaratıcı planlama yapmakta zorlandığı görülüyor
Databricks araştırması, Llama 3.1 405b için doğruluğun 32.000 token’da bile keskin biçimde düştüğünü gösteriyor
Bu da aşırı büyük pencerelerin pratikte daha çok özetleme (summarization) ve bilgi getirme (retrieval) için yararlı olduğuna işaret ediyor

Bağlama çok fazla araç veya tanım eklendiğinde, model gereksiz ya da uygunsuz araç çağrıları gibi düşük kaliteli yanıtlar üretiyor
Berkeley’nin Function-Calling Leaderboard verilerine göre, sunulan araç sayısı arttıkça tüm modellerin performansı düşüyor ve gereksiz çağrılar sıklaşıyor
GeoEngine benchmark makalesinde, Llama 3.1 8b modeli 46 aracın verildiği durumda başarısız olurken yalnızca 19 araç verildiğinde başarılı oluyor
Bağlama giren bilgi, model tarafından mutlaka değerlendirilmesi gereken bilgi olarak algılandığı için gereksiz gürültü sorun yaratıyor

Bağlam çakışması, çok aşamalı biçimde toplanmış bilgiler veya araç açıklamaları arasında birbiriyle çelişen ya da çatışan içeriklerin bulunması durumudur
Microsoft ve Salesforce araştırmaları, çok turlu konuşmalarda bunun ortalama %39 performans düşüşüne yol açtığını gösteriyor
Bunun nedeni, ilk yanıtta yanlış varsayımların oluşması ve sonraki adımlarda aynı yanıta aşırı bağımlı kalınmasıdır
MCP gibi harici araçlarla bağlantı kurulduğunda çakışma riski artıyor

Milyon token’lık bağlamın ortaya çıkışı bir yenilik olarak görülse de, gerçekte zehirlenme, dikkat dağılması, karmaşa ve çakışma gibi yeni hata türlerini artırıyor
Bu sorunlar özellikle birden fazla bilgi toplama, aşamalı araç zincirleri ve uzun konuşma geçmişi biriken ajan sistemlerinde yıkıcı etki yaratıyor
Çözüm olarak dinamik araç yükleme ve bağlam yalıtımı gibi çeşitli stratejiler önerilebilir; bunlar sonraki yazıda ayrıntılı biçimde ele alınacak