Uzun Bağlam Neden Başarısız Olur
(dbreunig.com)- En yeni büyük dil modellerinde, 1 milyon token’a kadar destekleyen uzun bağlam pencereleri kullanıma girdi ve bunun ajan performansında sıçrama yaratacağı beklentisi oluştu
- Ancak pratikte uzun bağlam, daha iyi yanıtlar üretmiyor; aksine bağlam zehirlenmesi, hata, kafa karışıklığı ve çakışma nedeniyle sistem başarısızlıklarına yol açıyor
- Temel sorunlar arasında bağlam zehirlenmesi (poisoning), bağlam dikkat dağılması (distraction), bağlam karmaşası (confusion) ve bağlam çakışması (clash) yer alıyor
- Bu sorunlar özellikle çok sayıda bilgi kaynağı, araç entegrasyonu ve çok aşamalı akıl yürütme gibi karmaşık akışlarda ajanları daha ağır etkiliyor
- Gelecek yazıda pratik çözüm yolları ve kaçınma stratejileri ele alınacak
Bağlam yönetiminin önemi
- Son dönemin öncü büyük modelleri, 1 milyon token’a kadar destekleyen uzun bağlam pencereleri sunuyor
- Birçok kişi, büyük pencereye tüm araçları, belgeleri ve talimatları koymanın sorun yaratmayacağını düşünüyor
- Ancak gerçekte bağlam aşırı yükü çeşitli başarısızlıklara neden oluyor ve özellikle ajan tabanlı uygulamalarda kritik bir sorun haline geliyor
Bağlam Zehirlenmesi (Context Poisoning)
- Bağlam zehirlenmesi, halüsinasyonların (hallucination) veya hataların bağlama sızıp tekrar tekrar referans alınması durumudur
- Deep Mind’ın Gemini 2.5 teknik raporu, oyun sırasında yanlış oyun durumunun hedef veya özet bölümünde kalması nedeniyle ajanın anlamsız stratejileri ve imkânsız hedefleri tekrar tekrar takip ettiği vakaları anlatıyor
- Bu tür kirlenmiş bağlam, ajanın muhakemesini geçici ya da uzun süreli olarak bozabiliyor
Bağlam Dikkat Dağılması (Context Distraction)
- Bağlam dikkat dağılması, bağlam o kadar uzadığında ortaya çıkar ki model, eğitim sırasında öğrendiklerinden çok bağlama aşırı odaklanır
- Gemini 2.5 Pro’nun 1M+ token penceresinde bile, bağlam 100.000 token’ı geçtiğinde modelin geçmiş kayıtları tekrar etmeye başladığı ve yaratıcı planlama yapmakta zorlandığı görülüyor
- Databricks araştırması, Llama 3.1 405b için doğruluğun 32.000 token’da bile keskin biçimde düştüğünü gösteriyor
- Bu da aşırı büyük pencerelerin pratikte daha çok özetleme (summarization) ve bilgi getirme (retrieval) için yararlı olduğuna işaret ediyor
Bağlam Karmaşası (Context Confusion)
- Bağlama çok fazla araç veya tanım eklendiğinde, model gereksiz ya da uygunsuz araç çağrıları gibi düşük kaliteli yanıtlar üretiyor
- Berkeley’nin Function-Calling Leaderboard verilerine göre, sunulan araç sayısı arttıkça tüm modellerin performansı düşüyor ve gereksiz çağrılar sıklaşıyor
- GeoEngine benchmark makalesinde, Llama 3.1 8b modeli 46 aracın verildiği durumda başarısız olurken yalnızca 19 araç verildiğinde başarılı oluyor
- Bağlama giren bilgi, model tarafından mutlaka değerlendirilmesi gereken bilgi olarak algılandığı için gereksiz gürültü sorun yaratıyor
Bağlam Çakışması (Context Clash)
- Bağlam çakışması, çok aşamalı biçimde toplanmış bilgiler veya araç açıklamaları arasında birbiriyle çelişen ya da çatışan içeriklerin bulunması durumudur
- Microsoft ve Salesforce araştırmaları, çok turlu konuşmalarda bunun ortalama %39 performans düşüşüne yol açtığını gösteriyor
- Bunun nedeni, ilk yanıtta yanlış varsayımların oluşması ve sonraki adımlarda aynı yanıta aşırı bağımlı kalınmasıdır
- MCP gibi harici araçlarla bağlantı kurulduğunda çakışma riski artıyor
Sonuç ve görünüm
- Milyon token’lık bağlamın ortaya çıkışı bir yenilik olarak görülse de, gerçekte zehirlenme, dikkat dağılması, karmaşa ve çakışma gibi yeni hata türlerini artırıyor
- Bu sorunlar özellikle birden fazla bilgi toplama, aşamalı araç zincirleri ve uzun konuşma geçmişi biriken ajan sistemlerinde yıkıcı etki yaratıyor
- Çözüm olarak dinamik araç yükleme ve bağlam yalıtımı gibi çeşitli stratejiler önerilebilir; bunlar sonraki yazıda ayrıntılı biçimde ele alınacak
Sonraki yazı: “Bağlamınızı nasıl düzeltirsiniz”
Henüz yorum yok.