1 puan yazan GN⁺ 2025-06-22 | 1 yorum | WhatsApp'ta paylaş
  • Büyük dil modelleri (LLM) uzun girdilerde belirli bilgileri iyi bulsa da, eksik bilgiyi tespit etmede sınırlı kalıyor
  • Yeni AbsenceBench kıyaslaması, dizi, şiir ve GitHub PR’leri dahil 3 alanda LLM’lerin eksik bilgi tespit yeteneğini değerlendiriyor
  • En yeni modellerden Claude-3.7-Sonnet bile 5K token bağlamda yalnızca %69,6 F1-score düzeyinde kalarak düşük performans gösteriyor
  • Bunun nedeni, Transformer tabanlı attention mekanizmasının belgedeki “boşluklar” üzerinde etkili çalışmaması
  • Bu çalışma, LLM’lerde eklenmiş bilgiyi tespit etme ile eksik bilgiyi tespit etme arasındaki özsel zorluk farkını gösteriyor

Genel Bakış

  • Büyük dil modelleri (LLM) uzun belgelerde bilgi bulma performansında büyük ilerleme kaydetti
  • Mevcut ‘Needle in a Haystack (NIAH)’ testi, uzun girdiler içinde şaşırtıcı bilgiyi bulma yeteneğini ölçüyor ve LLM’ler burada çok yüksek performans gösteriyor
  • Ancak LLM’lerin açıkça eksik olan bilgiyi bulup bulamayacağı ayrı bir mesele
  • Bu amaçla, belgenin bazı bölümlerinin açıkça çıkarıldığı ve hangi bilginin eksik olduğunun bulunmasının istendiği AbsenceBench kıyaslaması öneriliyor

AbsenceBench kıyaslamasının açıklaması

  • AbsenceBench, modelin eksik tespit yeteneğini şiir, sayısal diziler ve GitHub Pull Request (PR) olmak üzere 3 alanda değerlendiriyor
  • Orijinal belge ile içeriğinin bir kısmı kasıtlı olarak çıkarılmış değiştirilmiş sürüm birlikte LLM’e veriliyor ve eksik bilginin tespit edilip edilmediği ölçülüyor
  • Ortalama bağlam uzunluğu 5K token olup, mevcut uzun bağlam testlerine göre daha kısa olan bir “orta bağlam” kıyaslaması niteliği taşıyor

Değerlendirme sonuçlarındaki başlıca sorunlar

  • 14 temsilî LLM (ör. GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash vb.) üzerinde yapılan değerlendirmede, en yeni modeller bile yaklaşık %69,6 F1-score ile düşük sonuç verdi
  • NIAH testinde LLM’ler zaten “insanüstü seviyeye” ulaşmışken, AbsenceBench’te performans %56,9 düşüyor
  • Bağlam uzunluğu arttıkça özellikle şiir alanında performans daha da geriliyor
  • inference-time compute kullanıldığında performans yalnızca %7,9 artıyor, buna karşılık ortalama olarak 3 kat daha fazla chain-of-thought token tüketiliyor
  • Buna karşılık, eksiltme oranı (omission rate) düştükçe LLM performansı şaşırtıcı biçimde daha kötü oluyor

Nedenler ve derinlemesine analiz

  • Transformer tabanlı self-attention mekanizması, “eksik bilgiye” (boşluğa) odaklanmakta zorlanıyor; çünkü anahtar tabanlı attention yapısında aslında var olmayan bilgiyi izlemek zor
  • Test sırasında eksik kısımlara placeholder string eklendiğinde performans ortalama %35,7 oranında belirgin biçimde arttı

AbsenceBench yapısı ve örnekler

  • Her görev şu şekilde tanımlanıyor
    • Orijinal belge (Dorig) ve değiştirilmiş belge (Dmodified) veriliyor
    • Dorig içindeki öğelerin p% kadarı çıkarılarak Dmodified oluşturuluyor; ardından ikisi karşılaştırılarak LLM’in hangi bilgilerin eksik olduğunu gösteren doğru küme (Domit) üretiliyor
  • Üç alan için örnekler:
    • Şiir (Poetry): Gutenberg Poetry Corpus’tan şiirler seçiliyor, satırlar rastgele eksiltiliyor
    • Sayısal Diziler (Numerical Sequences): Rastgele üretilmiş sayı dizilerinden belirli bir olasılıkla sayılar çıkarılıyor
    • GitHub PR’leri: Popüler açık kaynak PR’lerinin diff dosyalarındaki değişmiş satırların bir kısmı rastgele çıkarılıyor

Değerlendirme şablonu örneği (şiir alanı)

  • Sistem istemi: “Bir öğrenci şiiri ezberden okudu ama bazı satırlar eksik olabilir. Tam olarak hangi satırların eksik olduğunu bul.”
  • Hem orijinal şiir hem de okunan sürüm veriliyor ve yalnızca gerçekten eksik olan satırların yanıtlanması isteniyor

Başlıca deney sonuçları

  • Alanlara göre belge uzunluğu ve eksiltme oranı gibi değişkenler çeşitlendirilerek deneyler yapıldı
  • GitHub PR’leri, şiir ve sayısal dizilerin tamamında LLM’ler eksik kısımları tam olarak tespit edemedi
  • NIAH ile AbsenceBench arasındaki temel fark: NIAH var olan anahtar/bilgiye odaklanırken, AbsenceBench “var olmayan kısma” odaklanmayı gerektiriyor; bu nedenle yapısal olarak daha zor

Sonuç ve çıkarımlar

  • AbsenceBench, LLM’lerin “ne eksik?” sorusunda hâlâ zayıf kaldığını gösteriyor
  • Bu durum, LLM’lerin değerlendirici olarak kullanıldığı pratik senaryolarda (ör. LLM-as-a-Judge) güvenilirlik konusunda dikkat gerektiğine işaret ediyor
  • Transformer mimarisinin tasarımsal zayıflığını aşacak yeni yaklaşımlara ihtiyaç var
  • AbsenceBench veri kümesi ve kodları açık olarak yayımlandı; LLM’lerin eksik tespit yeteneğini araştırmak için bir başlangıç noktası olarak sunuluyor

Başlıca katkıların özeti

  • Orta bağlamlı (5K token) belgelerde açıkça eksik bırakılmış öğelerin tespiti için yeni bir kıyaslama tasarlanıp yayımlandı
  • 14 güncel LLM üzerinde yapılan değerlendirme, eklenmiş bilgiyi tespit etmenin neredeyse kusursuzken eksik bilgiyi tespit etmenin hâlâ zor olduğunu doğruladı
  • inference-time compute gibi yöntemlerin de gerçek performans artışında sınırlı kaldığı gösterildi
  • Eksik bölümlere açıkça placeholder eklenince performansın büyük ölçüde arttığı gözlemlendi
  • AbsenceBench’in, Transformer attention mekanizmasının temel bir sınırını ortaya koyan bir örnek olduğu gösterildi

AbsenceBench veri kümesinin yapısı

  • Poetry: Bir şiir 100 ila 1000 satır arasında bölünerek farklı uzunluklarda belgeler oluşturuluyor, her satır bazında eksiltme yapılıyor
  • Numerical Sequences: İlk sayı rastgele belirleniyor; farklı kurallarla (artan, azalan, rastgele, farklı aralıklar) sonraki sayılar diziliyor ve bazıları çıkarılıyor
  • GitHub PR’leri: En popüler 20 sıcak repodaki 10–200 satırlık diff’lerden yalnızca değişmiş satırlar seçilip bir kısmı çıkarılarak gerçek durumlar yansıtılıyor

Gerçek kıyaslama örnekleri

  • Şiir örneği
    • Orijinal: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
    • Değiştirilmiş: “And so, to you, who always were / In memory of early times...”
    • Doğru yanıt: “To me, I give these weedy rhymes”
  • Sayısal dizi örneği
    • Orijinal: 117, 121, 125, 129, 133, 137 ...
    • Değiştirilmiş: 117, 125, 129, 133 ...
    • Doğru yanıt: 121, 137
  • GitHub PR örneği
    • PR’deki kod değişiklik satırları arasından belirli satırlar eksik bırakılıyor

Kullanım ve pratik önemi

  • Pratikte bu, PR diff’lerinde değişiklik eksikliği ya da belgelerde gerekli bilginin atlanması gibi durumları tespit etme yeteneğiyle doğrudan ilişkili
  • LLM’ler inceleme/doğrulama otomasyonunda kullanılacaksa, eksik tespiti için ayrı tamamlayıcı önlemler gerekiyor

1 yorum

 
GN⁺ 2025-06-22
Hacker News görüşleri
  • Gerald Sussman’ın bir konuşmasını izledikten sonra Kanizsa üçgeni görselini Claude’a verip belirsiz bir soru sorarak Claude’un üçgeni tanıyıp tanımadığını test etme deneyimini paylaştı. Claude görseli doğru tanıyıp özetleyince, görseli 90 derece döndürüp yeniden denedi. Ancak bu kez Claude görseli tanıyamadı ve öğe sayısını da yanlış belirledi. Claude’un yaptığı açıklama “dört adet Pac-Man benzeri kısmi daire, iki ince siyah üçgen veya ok şekli ve açık gri bir arka plan” bileşenlerinden oluşuyordu

    • İleride eğitim sürecinde tüm görsellerin 90 derece döndürülmüş sürümlerinin de eklenerek bu tür sorunların çözülebileceğini öngördü

    • Makalenin kapsamı metin belgeleriyle sınırlı olduğu için Kanizsa üçgeni deneyinin bu tartışmaya doğrudan uygulanamayacağını belirtti. Görüntü işleme konusunda LLM’lerin hâlâ yeterince gelişmediğini vurguladı. Çoğu görme özelliğinin ayrı bir ön işleme adımından geçirilip token’lara dönüştürülerek transformer’a verildiğini açıkladı; OCR, CNN tabanlı örüntü tanıma, farklı açılardan ve büyütülmüş görseller gibi çeşitli ön işleme aşamalarını örnek verdi

    • Hesaplamanın kendisine dair anlayış eksikliğine dikkat çekti. Eski tartışmalarla ilgili Hacker News başlıklarını ve Strange Loop konuşma videosunu paylaştı: bağlantı, bağlantı

    • Beş bacaklı bir köpek fotoğrafı gösterildiğinde LLM’in bacak sayısını doğru belirleyemeyebileceğini söyledi

    • Soyutlama ve genelleştirmeye örnek olarak, çok sayıda nokta üçgen biçiminde dizildiğinde insanların bunu anında üçgen olarak algılayabildiğini anlattı. Zekânın özünün bu tür basit örneklerde görülebileceğini hissettiğini, çok büyük karmaşıklıkların da basit örüntüler olarak algılanabilmesinin aslında IQ’nun anlamı olduğunu savundu. Eğer bu noktalar hafifçe döndürülmüş bir 10 boyutlu küpün köşeleri olsaydı, 10 boyutlu düşüncede bunun da çok kolay bir örüntü olacağını ileri sürdü

  • Son modellerin de özgün ve değiştirilmiş sürümü aynı anda gördüklerinde eksik bilgiyi belirlemede düşük performans gösterdiğini ve transformer’ın attention mekanizmasıyla zaten silinmiş token’lara dikkat yöneltilemeyeceğini söyleyen makale yazarlarının görüşünü özetledi

    • Aslında anahtarın özgün metinde bulunduğunu, dolayısıyla ikisi birden girdi olarak verilirse modelin o anahtara dikkat edebileceğini öne sürdü. Attention açısından bakıldığında

      Original: {ortak bölüm} {çıkarılan bölüm} {ortak son bölüm}
      Modified: {ortak bölüm} {ortak son bölüm}
      

      ile

      Original: {ortak bölüm} {ortak son bölüm}
      Modified: {ortak bölüm} {eklenen bölüm} {ortak son bölüm}
      

      arasında büyük bir fark olmadığını savundu. RASP ile şu tür bir algoritmanın uygulanabileceğine dair somut bir yaklaşım önerdi: 1. adımda Original/Modified token’larının konumlarını bulmak, 2. adımda her birinin ortalama değerini hesaplayıp farkını almak, 3. adımda bu farka en yakın token’ın {çıkarılan bölüm} / {eklenen bölüm} olduğunu belirlemek. Tek mesele farkın hangi yönden çıkarılacağı. Eğer eklemeleri iyi yakalayıp silmeleri yakalayamıyorsa, bunun LLM’in prensibi anlayıp silme verisi az olduğu için yeterince eğitilmemiş olmasından kaynaklanabileceğini düşündü

    • En yeni üst düzey modellerin (OpenAI opus, o3, Gemini 25 pro vb.) deney sonuçlarının makaleye dahil edilmediğine dikkat çekti

    • Bir görsel model söz konusuysa, fotoğraf negatifi, görsel döndürme gibi işlemlerle eğitimin işe yarayıp yaramayacağını merak etti. Madlib benzeri boşluk doldurma Soru-Cevap biçiminin de deneysel olarak kullanılabileceğini söyledi

    • Modeller arasında performans farkı bulunduğu için, artık bu benchmark ilgi gördüğüne göre ileride performans artışı beklediğini söyledi. İyileştirme alanı açıkça var gibi görünüyor

  • Attention mekanizmasının yapısı gereği sınıflandırılmamış eksik parçaları bulamamasının doğal olduğunu savundu. Needle-in-a-haystack probleminde aranacak belirli bir hedef olduğu için attention iyi çalışıyor; ancak omission durumunda neyin eksik olduğu baştan bilinmediğinden tüm bağlamın karşılaştırılması gerekiyor ve mevcut attention katmanları burada sınırlı kalıyor. Bunun uzun listeleri sıralama gibi sorunlara benzediğini anlattı

    • Omission bulma deneyinde LLM’e gerçekten gerekli bilgilerin (örneğin hem özgün hem değiştirilmiş metnin) verildiğini, dolayısıyla bunun yapısal bir sınırdan çok model ayarlama meselesi olduğunu düşündüğünü söyledi. Örneğin bir ML makalesindeki eksikleri ararken beynin Star Wars, Top Gear gibi alakasız anılarla değil başka ML makaleleriyle karşılaştırma yaptığını; yani bağlam daraltma sayesinde verimli çalıştığını belirtti
  • Makaleyi henüz okumadığını, ama yazarın attention mekanizmasının sınırlarına dair açıklamasına katıldığını söyledi. Omission’da neyin eksik olduğunun baştan bilinmemesi nedeniyle bunun basitçe bulunamadığını, tüm bağlamın kıyaslanmasının gerektiğini vurguladı

  • AbsenceBench gibi yeni benchmark yaklaşımlarına yöneltilen bazı eleştirilerin haklı olduğunu, ancak böyle girişimlerin ortaya çıkmasını olumlu bulduğunu ve bunun daha iyi bir yöne ilerlemek için vesile olabileceğini düşündüğünü söyledi

  • Makale yazarlarının, insanlardan farklı olarak LLM’lerin bağlam içindeki eksik konumuna bile yaklaşamadığı görüşüne kısmen katıldığını, ancak mimarinin matematiksel olarak neden daha uygunsuz olduğunu merak ettiğini söyledi. Bu tür görevlerde fine-tuning’in etkili olup olmayacağını sorguladı. Girdi kısa, eksik sayısı az olduğunda problemin daha da kötü çözüldüğünü gösteren sonuçlara karşılık, insanların da bir iki kelime eksik olduğunda bunu fark etmekte zorlandığını hatırlattı. Reasoning modellerinin daha iyi performans göstermesine rağmen %100 doğruluğa ulaşamamasını şaşırtıcı buldu. Makaledeki gibi sorunların basit bir programla kolayca çözülebildiğini belirtti. İnsan zekâsında hâlâ resmen tanımlanmamış birçok yön bulunduğunu ve bu makalenin LLM’lerin o alanlarda zayıf olabileceğine işaret etmesini ilginç buldu

  • Literal string diff buldurmanın, LLM’e aritmetik yaptırmak gibi karmaşıklığın fazla tahsis edildiği bir kullanım olduğunu söyledi. Bunun yerine LLM’den tüm belgeyi listeleyip doğrudan kıyaslamasını istemek gibi reasoning tabanlı yaklaşımların daha avantajlı göründüğünü gözlemledi. Bunun, aritmetik problemler parçalanıp adım adım çözüldüğünde performansın artmasına benzer olduğunu söyledi. İyi sonuç veren modellerin MoE (Mixture of Experts) mimarisine sahip olabileceğini, Gemini Flash’ın da muhtemelen MoE tabanlı olduğunu öne sürdü

  • LLM’e “meta” yaklaşım izni verilirse, omission detection için doğrudan bir Python betiği yazdırılıp çalıştırılarak sorunun çözülebileceğini söyledi

    • Ancak LLM’in hangi durumda Python kullanması gerektiğini algoritmik olarak ayırt edemeyebileceğinden endişe etti; sürekli kod kullanımını teşvik eden bir yönergenin hataları azaltabileceği varsayımıyla konuştu. Çok basit görünen problemlerin bile LLM için zor olabileceğini ve bu tür zayıflıkların kodlama yeteneğini de sınırlayabileceğini belirtti
  • Belirli benchmark’a itiraz etti. Prompt örneğinde qwq-32b modelinin 3 maddelik deneyde atlanan öğeyi kusursuz biçimde bulduğunu söyledi. 100 maddelik bir listeyi de çözebileceğini düşündüğünü, ancak bunun daha fazla token gerektireceğini belirtti. 5000 token sınırının reasoning modeli için fazla düşük olduğunu, daha fazla batch ve sadeleştirme süreci tekrarlandığında doğru sonucun her zaman bulunabileceğini savundu. Doğru cevabı çıkarmak için tüm belgeyi token’lara ayırıp tekrar tekrar karşılaştırma yöntemi önerdi. [Prompt’un tam örneğini paylaştı]

    • Gerçekten de 26 HN başlığından 3’ünün çıkarıldığı bir listeyle qwq-32b üzerinde bizzat deney yaptığını ve 50 bin token tüketmeden hepsini doğru bulduğunu söyledi. Deney materyali bağlantısı

    • Sorunu sayma işlemiyle biraz basitleştirmenin anlamsız bir araştırma olduğunu söyledi; bu çalışmanın asıl amacının LLM’lerin sıralama/sınıflandırma ile çözülemeyen sınırlı alanlarını tespit etmek olduğunu vurguladı

  • Hamlet’te “utter love” ifadesinin geçip geçmediğini ChatGPT’ye sorduğu gerçek bir deneyimi anlattı. ChatGPT, Hamlet’in tüm repliklerini kontrol ettiğini söyleyerek bu ifadenin yer almadığını belirtmiş. Ancak çevrimiçi asıl metinde yapılan aramada ifade hemen bulunmuş; bu bölüm ChatGPT’ye gösterilince o da bunu kabul edip özür dilemiş ve tüm pasajı yeniden vermiş. Bunu, “sonuçta insan hafızasının ChatGPT index’inden daha iyi çıktığı bir deneyim” olarak paylaştı

    • Gerçek cevabın Act 2, Scene 1 olduğunu ve konuşmacının Polonius olduğunu düzeltti

    • Araç veya arama döngüsü olmadan LLM’lerin hatırlama becerisinin çok zayıf olduğunu kabul etti; 4o modelinin de arama olmadan başarısız olduğunu, doğru cevabın ancak search özelliğiyle bulunabildiğini söyledi. Buradan “probleme uygun aracı doğru kullanmanın öneminin” giderek arttığı sonucunu çıkardı

  • LLM’lerin duyusal girdiye dayalı varlık tespitinde bir ölçüde iyi olsalar da, absence (yokluk) tespitinde zorlandığını söyledi; çünkü yoklukta duyusal girdi yoktur. Bunu algılamak için çok güçlü bir dünya modeli ve beklenti gerekir. Bu tür higher-order nörolojik görevlerin, en azından şimdilik, LLM’lerden ziyade yalnızca organizmalara özgü olabileceğini öne sürdü

    • LLM’lerin tasarımı gereği tutarlılık sorunları yaşayabileceğini, bazı yolların basit ezbere, bazılarının ise gelişmiş örüntü eşleştirmeye dayandığını belirtti

    • Gerçek zamanlı düşünceyle kıyaslandığında LLM’lerin “sabit ve statik” bir gerçeklik üzerinden akıl yürüttüğünü, zamansal boyutta da sınırlı kaldığını söyledi

    • Gerçek absence tespitinin hafızayla yakından ilişkili olduğunu anlattı. Örneğin masanın üzerinde duran bir kalem kaybolduğunda, beyin geçmiş duyusal girdiyi (kalemi görmüş olma anısını) mevcut durumla karşılaştırarak yokluğu fark eder. Bu açıdan bakıldığında, şu an için thinking’in organizmalara özgü bir nitelik olabileceğini söyledi