Gerçek fact-check uygulamalarında frontier LLM'ler arasındaki anlaşmazlık

(lenz.io)

1 puan yazan GN⁺ 2026-05-29 | 1 yorum | WhatsApp'ta paylaş

5 frontier LLM arasında, kullanıcıların gerçek gönderimlerinden alınan 1.000 iddianın %67’sinde değerlendirmeler ayrıştı; 5 modelin tamamının aynı sonuca vardığı durumların oranı %33 oldu
Çoğunluk kararı, doğru etiket değil, uyumsuzluğu ölçmek için kullanılan bir ölçüttür; oybirliği olmayan bu %67’lik bölümde en az 1 modelin yanlış olması kaçınılmazdır
4 aşamalı rubrikte en az 2 kademe ayrılan esaslı uyumsuzluk oranı %34 oldu; True ile False arasında uç düzey bölünme de %21 olarak görüldü
Model çiftleri arasındaki etiket uyumu %53~%75 aralığındaydı; en yüksek uyum, aynı temel modeli paylaşan Gemini 3 Pro ile Search sürümü arasında görüldü
Veri, Lenz’in yakın dönemdeki gerçek iddialarından seçildi ve doğru etiket ya da LLM değerlendiricisi kullanılmadan ölçüldü; bu da doğruluktan çok değerlendirme yapısındaki istikrarsızlığı ortaya koyuyor

Gerçek iddialarda değerlendirmeler ne sıklıkla ayrıştı?

İncelenen 1.000 iddianın 672’sinde, %67 (95% CI 64–70) 5 frontier modelin değerlendirmeleri birbiriyle uyuşmadı
- 5 modelin tamamının aynı değerlendirmeyi verdiği iddia sayısı 328, oranı %33 (95% CI 30–36) oldu
- Yalnızca 1 modelin farklı değerlendirme verdiği iddia sayısı 224, oranı %22 (95% CI 20–25) oldu
- 2 modelin farklı değerlendirme verdiği iddia sayısı 316, oranı %32 (95% CI 29–35) oldu
- 2-2-1 veya 2-1-1-1 gibi, katı bir çoğunluğun oluşmadığı bölünmeler 132 adetle %13 (95% CI 11–15) düzeyindeydi
- En az 2 modelin farklı değerlendirme verdiği durumlar 448 adetle %45 (95% CI 42–48) oldu
Çoğunluk kararı, doğruluğun vekil göstergesi değil, uyumsuzluğu saymak için kullanılan yapısal bir ölçüttür
- Çoğunluk kararı yanlış olabilir; azınlıkta kalan model doğru olabilir
- Dört değerlendirme kategorisinden yalnızca birinin doğru olduğu varsayılırsa, oybirliği olmayan iddiaların %67’sinde en az 1 model yanlıştır
- 3-2, 3-1-1 ve çoğunluksuz bölünmeleri içeren %45’lik bölümde en az 2 model yanlıştır
- Çoğunluğun oluşmadığı %13’lük bölümde hiçbir kategori 3 oya ulaşmadığı için en az 3 model yanlıştır
- 5 modelin tamamının aynı fikirde olduğu %33’lük bölümde de ortak kör noktalar bulunabilir
Panel uzlaşı düzeyi Krippendorff’s α(ordinal)=0.639 oldu
- Model değerlendirmeleri rastgeleye yakın değil, ancak 5 modeli birbirinin yerine geçebilen tek tip değerlendiriciler gibi görecek kadar da tutarlı değil
- True / Mostly True / Misleading / False sıralı kategoriler olduğu için sıralı α kullanıldı

Nüans farkları ve esaslı uyumsuzluk

1.000 iddianın 343’ünde, %34 (95% CI 31–37) en az iki modelin değerlendirmesi 4 aşamalı rubrikte 2 kademe veya daha fazla ayrıldı
- True ile Mostly True arasındaki fark, güven ayarına yakın bir nüans farkı olarak ele alındı
- True ile False arasındaki fark ise cevabın kendisinin ayrıştığı esaslı bir uyumsuzluk olarak değerlendirildi
Ölçüm, 5 değerlendirmenin maksimum ikili kategori uzaklığı üzerinden hesaplandı
- Değerlendirme sırası True (0) → Mostly True (1) → Misleading (2) → False (3) şeklindedir
- Uzaklık 0 olanlar 328 adetle %33 (95% CI 30–36); yani 5 modelin tamamı aynı kategoriyi seçti
- Uzaklık 1 olanlar 329 adetle %33 (95% CI 30–36); bu, True ↔ Mostly True gibi nüans farklarına karşılık geliyor
- Uzaklık 2 olanlar 132 adetle %13 (95% CI 11–15); bu, True ↔ Misleading veya Mostly True ↔ False gibi esaslı uyumsuzluklara işaret ediyor
- Uzaklık 3 olanlar 211 adetle %21 (95% CI 19–24); bu, True ↔ False arasında uç düzey bölünme anlamına geliyor
Kategori uzaklığı, hata büyüklüğünü hassas biçimde ölçen bir ölçek değil, kaba bir göstergedir
- True / Mostly True / Misleading / False kategorilerini eşit aralıklı sıralı ölçek olarak ele alan bir basitleştirme içerir
- 2 kademe fark; rubrik belirsizliği, zaman ölçütündeki farklar veya “Misleading” yorumundaki farklılıklardan da doğabilir

Modeller arası uyum oranı

5 model çifti arasındaki etiket uyumu %53~%75 aralığındaydı
- En yüksek uyum Gemini 3 Pro × Gemini 3 Pro + Search arasında %75 (95% CI 72–77) oldu; iki model aynı temel modeli paylaşıyor
- En düşük uyum ise üç çiftte görülen %53 (95% CI 50–56) oldu
Başlıca çift bazlı uyum oranları
- GPT-5.4 × Claude Opus 4.7: %65 (95% CI 62–68)
- GPT-5.4 × Gemini 3 Pro: %65 (95% CI 62–68)
- GPT-5.4 × Gemini 3 Pro + Search: %60 (95% CI 57–63)
- GPT-5.4 × Sonar Pro: %60 (95% CI 57–63)
- Claude Opus 4.7 × Gemini 3 Pro: %53 (95% CI 50–56)
- Claude Opus 4.7 × Gemini 3 Pro + Search: %53 (95% CI 50–56)
- Claude Opus 4.7 × Sonar Pro: %58 (95% CI 55–61)
- Gemini 3 Pro × Sonar Pro: %53 (95% CI 50–56)
- Gemini 3 Pro + Search × Sonar Pro: %58 (95% CI 55–61)

Model bazında değerlendirme eğilimleri

Değerlendirme dağılımı
- Modellere göre True/False uçlarına yığılma derecesi ile Mostly True/Misleading ara kategorilerini kullanma sıklığı farklıydı
- Doğru etiket bulunmadığı için modelin ön eğilimleri ile iddia özelliklerinin etkisi birbirinden ayrıştırılamıyor
- GPT-5.4: True %42 (95% CI 39–45), Mostly True %16 (14–19), Misleading %12 (10–14), False %30 (28–33)
- Claude Opus 4.7: True %38 (35–41), Mostly True %26 (23–29), Misleading %19 (17–22), False %17 (15–20)
- Gemini 3 Pro: True %54 (51–57), Mostly True %3 (2–4), Misleading %3 (2–4), False %40 (37–43)
- Gemini 3 Pro + Search: True %52 (49–55), Mostly True %4 (3–5), Misleading %9 (7–11), False %35 (32–38)
- Sonar Pro: True %35 (32–38), Mostly True %23 (21–26), Misleading %16 (14–18), False %26 (23–28)
Panelin geri kalan çoğunluğuyla uyum
- Her modelin, kalan 4 modelden en az 3’ünün oluşturduğu katı çoğunlukla aynı değerlendirmeyi verdiği oran %69~%81 aralığındaydı
- Bu değer, ilgili korpustaki akran hizalanmasını gösterir; doğruluğu değil
- Hesaplamaya yalnızca kalan 4 modelin 3/4 veya daha yüksek çoğunluk oluşturduğu iddialar dahil edildiği için, model bazında eligible n farklıdır
- GPT-5.4: %81 (95% CI 78–84), eligible n=650, ineligible=350
- Claude Opus 4.7: %70 (95% CI 67–74), eligible n=691, ineligible=309
- Gemini 3 Pro: %77 (95% CI 74–80), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: %76 (95% CI 73–79), eligible n=693, ineligible=307
- Sonar Pro: %69 (95% CI 66–73), eligible n=675, ineligible=325

Alanlara göre anlaşmazlık

Alan bazında payda, ilgili alandaki claim sayısıdır; alanların çoğunda anlaşmazlık oranı yarıyı belirgin biçimde aştı
- Finance: 75 adet, rastgele anlaşmazlık %67 (%95 CI 55–76), esaslı anlaşmazlık %39 (%28–50), çoğunluk yok %20 (%13–30)
- General: 179 adet, rastgele anlaşmazlık %68 (%60–74), esaslı anlaşmazlık %40 (%33–48), çoğunluk yok %12 (%8–17)
- Health: 171 adet, rastgele anlaşmazlık %71 (%64–78), esaslı anlaşmazlık %29 (%23–36), çoğunluk yok %12 (%8–17)
- History: 131 adet, rastgele anlaşmazlık %53 (%44–61), esaslı anlaşmazlık %24 (%17–32), çoğunluk yok %13 (%8–20)
- Legal: 48 adet, rastgele anlaşmazlık %77 (%63–87), esaslı anlaşmazlık %40 (%27–54), çoğunluk yok %19 (%10–32)
- Politics: 168 adet, rastgele anlaşmazlık %70 (%62–76), esaslı anlaşmazlık %38 (%31–46), çoğunluk yok %8 (%5–13)
- Science: 151 adet, rastgele anlaşmazlık %68 (%60–75), esaslı anlaşmazlık %36 (%29–44), çoğunluk yok %21 (%15–28)
- Tech: 77 adet, rastgele anlaşmazlık %69 (%58–78), esaslı anlaşmazlık %31 (%22–42), çoğunluk yok %8 (%4–16)
Alan ayrımı, Lenz'in trafik örüntülerini yansıtır; fact-check yapılabilir tüm claim'lerin eşit örneklenmesiyle elde edilmiş bir sonuç değildir

Karar bucket'larına göre uzlaşı

Panel orta bucket'lara ulaştığında neredeyse hiç yakınsamadı
- Mostly True ve Misleading için çoğunluk kararlarında oybirliği oranı en fazla ayrı ayrı %5 düzeyinde kaldı
- True ve False çoğunluk kararlarında oybirliği oranı sırasıyla %47 ve %43 oldu
Kriter, ilgili kararı veren katı bir 3/5 veya üzeri çoğunluğa sahip claim'lerdir
- True: eligible n=438, oybirliği %47 (%95 CI 42–51), 3~4 oy çoğunluğu %53 (%49–58)
- Mostly True: eligible n=76, oybirliği %0 (%95 CI 0–5), 3~4 oy çoğunluğu %100 (%95 CI 95–100)
- Misleading: eligible n=74, oybirliği %5 (%95 CI 2–13), 3~4 oy çoğunluğu %95 (%87–98)
- False: eligible n=280, oybirliği %43 (%95 CI 37–49), 3~4 oy çoğunluğu %57 (%51–63)
5 modelin tamamının aynı kararı verdiği 328 claim de uç kutuplarda yoğunlaştı
- True: 204 adet, oybirliği içindeki pay %62 (%95 CI 57–67)
- Mostly True: 0 adet, %0 (%95 CI 0–1)
- Misleading: 4 adet, %1 (%95 CI 0–3)
- False: 120 adet, %37 (%95 CI 32–42)
17.856 PolitiFact claim'i üzerinde tek aileli Llama-3 ablasyon çalışması, Schwab et al. 2025 da daha incelikli etiketlerde fact-check karar modellerinin hatalarının yoğunlaştığını gösteren ilişkili sonuçlar sunuyor

Veri seti ve hariç tutma ölçütleri

Analiz kapsamı 1.000 claim'den oluşuyor
- Lenz fact-check platformuna gönderilen gerçek kullanıcı istekleri içinden, hariç tutma koşullarını geçen en güncel claim'ler seçildi
- Tüm claim'ler 15 Şubat 2026 sonrasında oluşturuldu
- Lenz'in kendi kararı analize dahil edilmedi; analiz, Lenz ile frontier modelleri karşılaştırmıyor, yalnızca frontier modeller arasındaki anlaşmazlığı ölçüyor
atomic_claim alanı, kullanıcının girdiği ham metin değil; Lenz'in framing aşaması sonrasında düzenlenmiş nötr ve doğrulanabilir bir önermedir
- Örneğin “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” girdisi, “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.” önermesine dönüştürülür
Hariç tutulan claim'ler
- Gönderen tarafından gizli olarak işaretlenen claim'ler
- Platform çalışanları, dahili hesaplar, ajan/API gönderimleri tarafından oluşturulan claim'ler
- Düzenleme durumu pending veya hidden olan claim'ler
- Kamuya mal olmuş kişi olmayan bireyler hakkında kişisel veri içerdikleri için Lenz'in PII tarama aşamasında otomatik işaretlenen claim'ler
- OpenAI text-embedding-3-small 1536 boyutlu embedding'lerinde atomic_claim'ler arası cosine distance değeri 0.2 içinde kalan yakın kopya claim'ler
- 5 modelden herhangi biri, bir yeniden denemeden sonra bile ayrıştırılabilir bir karar üretemeyen claim'ler
- Toplama anı itibarıyla 180 günden daha eski claim'ler
Yakın kopyalarda, zamana bağlı önermelerde daha yeni claim; diğer durumlarda ise Lenz'de görüntülenme sayısı en yüksek mevcut claim temsil satırı olarak seçildi

Metodoloji

Modeller ve prompt
- Parametrik modeller: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Arama destekli modeller: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Her claim, gönderim tarihine göre ayarlanmış “as of YYYY-MM-DD” referans tarihiyle birlikte sunuldu
- Modeller True, Mostly True, Misleading, False seçeneklerinden birini zorunlu olarak seçmek zorundaydı

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

Abstain seçeneği sunulmadı; zorunlu seçim, modeller arası karşılaştırmayı simetrik tutmak için kullanıldı
Çağrı ayarları ve puanlama
- Tüm modellere aynı sistem placeholder'ı . ve aynı kullanıcı prompt şablonu usr_v2 verildi
- Yapılandırılmış çıktı şeması, araç çağırma şeması, seed, top-p ve logit-bias kontrolleri kullanılmadı
- Desteklenen durumlarda deterministik decoding istenerek temperature=0.0 kullanıldı
- GPT-5.4 ve Claude Opus 4.7 için sağlayıcı adaptörleri özel temperature ayarını reddettiğinden, bu modeller açıkça temperature belirtilmeden çağrıldı
- GPT-5.4, Claude Opus 4.7 ve Sonar Pro için çıktı uzunluğu 16 token ile sınırlandı; Gemini 3 Pro ve Gemini 3 Pro + Search ise 1024 token sınırı kullandı
- Gemini 3 Pro + Search için Google Search grounding etkinleştirildi; Sonar Pro ise Perplexity'nin search-backed API'si üzerinden çalışan arama destekli model olarak ele alındı
- Normalizasyondan sonra yalnızca dört etiketten tam olarak biriyle eşleşen çıktılar ayrıştırılabilir kabul edildi
- LLM judge ve referans doğru etiketler kullanılmadı; tüm ölçümler, 5 modelin doğrudan ayrıştırılmış etiket uyumundan üretildi
İstatistiksel işlem
- Korpus, tek bir fact-check platformuna gönderilmiş en güncel 1.000 eligible claim'den oluşur; daha geniş bir popülasyondan alınmış olasılıklı bir örnek değildir
- Wilson %95 güven aralıkları, aynı eleme kurallarını izleyen benzer eligible gönderim akışlarında her claim'in bağımsız seçildiği varsayımı altındaki nominal binom aralıklarıdır
- Lenz claim'leri haber olayları etrafında kümelenerek gönderilir ve aynı kullanıcı tek oturumda ilişkili birden çok claim gönderebilir; bu nedenle bağımsız ve özdeş dağılımlı değildir
- Daha dürüst bir cluster modelinde gerçek örneklem oynaklığı Wilson aralıklarından daha büyük olabilir
- Modeller arası anlamlılık testi yapılmadı; ikili uyum oranları ve Wilson %95 CI değerleri betimleyici istatistik olarak raporlandı

Yeniden üretilebilirlik ve kamuya açık çıktılar

Tüm claim bazlı veriler CSV olarak sunuluyor
- Her satırda claim ID ve URL’si, atomic claim metni, 5 frontier kararı, maksimum ikili bucket mesafesi, alan ve oluşturulma tarihi yer alıyor
- Gönderen kişi daha sonra claim’i siler veya gizliye çevirirse bazı sayfalar kullanılamayabilir
PDF, çevrimdışı okuma, alıntılama ve arXiv tarzı preprint barındırma için tarayıcıdan bağımsız bir render sürümüdür
Snapshot v1.0 ve verilerin referans tarihi 21 Mayıs 2026’dır
- Arşiv URL’si https://lenz.io/research/llm-disagreement/v1.0, v1.0 snapshot’ını kalıcı olarak sunar
- Genel URL ileride başka sürümlere geçse bile alıntı kararlılığı korunur
Kalıcı kayıt ve alıntı bilgileri doi.org/10.5281/zenodo.20344847 üzerinden sunuluyor

Sınırlamalar

Güvercin yuvası ilkesine dayalı hata alt sınırı, belirli bir claim’de hangi modelin olgusal olarak yanlış olduğunu gösteren bir hüküm değil, rubric uyumsuzluğunun alt sınırıdır
- Dört bucket’tan yalnızca biri doğru olabileceği için her türlü uyuşmazlık en az bir tutarsız karara işaret eder
- Ancak hangi modelin hangi claim’de yanlış olduğu bilinemez
Bucket mesafesinin sıralı kabul edilmesi bir basitleştirmedir
- True / Mostly True / Misleading / False, eşit aralıklı sıralı bir ölçek gibi ele alınır
- 2 adımlık fark; rubric belirsizliği, zaman referansı farkı veya “Misleading” yorumundaki farklardan kaynaklanabilir ve mutlaka daha büyük bir olgusal hata anlamına gelmez
Karar belirsizliği yalnızca LLM’lerin sorunu değil, aynı zamanda görevin kendi niteliğidir
- AVeriTeC, 50 fact-check kuruluşunu temel alan ve çok turlu incelemeden geçmiş 4.568 claim’lik bir corpus’tur; kararlar için annotator’lar arası uzlaşı κ=0.619’da kalır
- Frontier model uyuşmazlıklarının bir kısmı, herhangi bir değerlendirici için de zor olan etiketlerin doğasını yansıtır
Snapshot belirli bir tarihe ve belirli model sürümlerine sabitlenmiştir
- Frontier LLM’ler deterministik değildir; aynı model ve prompt ile yeniden çalıştırıldığında bile sonuçlar bir miktar değişebilir
- Yeni modeller veya farklı prompt’larla yeniden çalıştırılırsa sonuçlar daha fazla oynayabilir
Arama destekli modeller, çıkarım sırasında kaynaklara bakmış olabilir; ancak neyi aradıkları kontrol edilmez veya denetlenmez

Önceki çalışmalar ve sonraki plan

Yang & Wang (2026), en üst düzey frontier modellerin toplam doğruluğu korurken bile MMLU-Pro ve GPQA maddelerinin %16~38’inde uyuşmadığını gösteriyor
Gerçek claim doğrulamasında katı insan anotasyonu için bir referans noktası olarak AVeriTeC sunuluyor
Daha büyük bir fact-check corpus’u olarak tek aileli Llama-3 ablasyon kurulumundaki 17.856 PolitiFact claim’i bulunuyor
Lenz corpus’u, son 180 gündeki gerçek kullanıcı gönderilerinden oluşuyor, yalnızca lenz.io’da indeksleniyor ve kamuya açık eğitim setlerinde hiçbir zaman standart kararlarla eşleştirilmedi
Sonraki çalışma, aynı corpus’un tamamını insanlarca etiketleyip bu etiketleri ground truth olarak kullanarak 5 frontier modeli ve Lenz’in kendi kararlarını değerlendirmeyi planlıyor
Amaç bir leaderboard oluşturmak değil; frontier panelinin insan uzlaşısından nerede saptığını, Lenz’in her ikisinden de nerede ayrıldığını ve hangi kategorilerin uyuşmazlığı tetiklediğini analiz etmek

Etik ve veri kullanımı

Kullanılan alanlar, yalnızca herkese açık claim alanları olan atomic claim metni ve oluşturulma tarihidir
- Kişisel veri kullanılmaz
- Gizli claim’ler ve çalışan claim’leri hariç tutulur
- Frontier modellere yalnızca claim metni ve referans tarihi verilir; gönderenin kimliği veya analiz sinyalleri verilmez
Gönderen kişi daha sonra claim’i gizliye çevirir veya silerse ilgili claim snapshot’tan ve gelecekteki indirmelerden çıkarılabilir

Frontier panelinin ciddi biçimde ayrıştığı örnekler

Ek bölüm, en yüksek bucket ile en düşük bucket arasındaki farkın en büyük olduğu 20 claim’i sunuyor
- Bunlar, en az bir modelin kararı diğer modellere göre 2 adım veya daha fazla uzaklaştığı anlamlı uyuşmazlık claim’leridir
- Maksimum ikili bucket mesafesine göre azalan sırada dizilir, ardından çoğunluk olmayan vakalar önce gelecek şekilde eşitlik bozulur ve sonra claim ID’nin kararlı hash’ine göre sıralanır
Temsili mesafe 3 · çoğunluk yok örnekleri
- Muthiah Muralidaran’ın Indian Premier League’in tamamen bir iş olduğunu ve düşük skorlu maçlar sponsorlar için sıkıcı olduğundan düz pitch’ler hazırlandığını söylediği claim: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- 2025 itibarıyla Nigeria’da World Bank’in active portfolio’sunun 16,4 milyar doların üzerinde olduğu claim: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Olumlu duygu içeriği daha az olan müzikleri tercih eden kişilerin daha yüksek zekaya sahip olma eğiliminde olduğu claim: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Rajasthan, Kota’daki hostellerin öğrenci intiharını önleme tedbiri olarak kafes tipi tavan vantilatörlerini yaygın biçimde kullandığı claim: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- 6 Mayıs 2026 itibarıyla çeşitli ülkelerden Müslümanların India’nın West Bengal eyaletindeki Hooghly district’te toplandığı claim: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 yorum

GN⁺ 2026-05-29

Hacker News görüşleri

Kullanılan prompt şuydu: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
İddia listesi https://lenz.io/research/llm-disagreement/data.csv adresinde yer alıyor; gezmesi kolay olsun diye bunu Datasette Lite içine koymuşlar. Uyumsuzluk örneği: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
“Tüm bademler ABD'nin California eyaletinde yetiştirilir” iddiası yanlış, ama yalnızca Opus 4.7 “misleading” diye yanıt vermiş. Bir de “mostly true” ile “misleading” seçenekleri eklenip üstüne “açıklama yasak” kuralı konunca, argümanın gücü zayıflıyor
Daha iyi bir örnek olarak “Eksik Mısır vize başvuruları, Mısır vize başvurularının reddedilmesinin en yaygın nedenleri arasındadır” ifadesinde modeller “true” ve “mostly true” arasında bölünmüş, ama ifadede geçen “among the most” nedeniyle ikisi fiilen aynı anlama geliyor
Daha belirleyici bir örnek olarak “18 Mayıs 2026'da Ukrayna, Rusya'nın Moskova kentine drone saldırısı düzenledi” iddiasında arama aracı yoksa tek doğru yanıt “doğrulanamaz” olurdu, ama böyle bir seçenek yoktu ve yanıtlar true/false diye ayrıldı: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- Her değerlendiriciye True / Mostly True / Misleading / False tanımları verilmediyse, yazının “bir iddia için yalnızca tek bir doğru kategori vardır” savını ben false sayarım
  Bazı iddialar aynı anda hem “misleading” hem de true veya false olabilir. “Büyük ölçüde yanlış” bir durumun hangi kategoriye gireceği de belirsiz
  Ne kadar yanlış olunca “mostly true”dan “false”a geçildiğine dair de bir ölçüt yok. Sonuçta bu, olgusal anlayışı değil modelin mostly ve misleading kavramlarını nasıl tanımladığını da test ediyor; dolayısıyla modellerin olguların kendisinde temelden anlaşamadığını söylemek abartılı
- Bir diğer kritik hata da model içi varyansın ölçülmeye çalışılmamış olması
  Sıkı bir değerlendirmeyi gerçekten bağlayınca, web araması gibi araç çağrılarında altyapı sorunları, geçici başarısızlıklar ve her türlü nedensel olmayan değişkenlik aynen içeri giriyor
  Aramasız 3 model ile arama yapan ajanı ayırıp rakamları öyle göstermeleri gerekirdi. Bilgi kesim tarihinden sonraki güncel olgusal iddialarda aramasız model fiilen pek anlamlı değil ve “bilmiyorum” seçeneği olmadığı için sonuç neredeyse tamamen geçersiz hale geliyor. Bilmediği halde bunu söyleyemeyince kulağa makul gelen bir cevap işaretliyor
  Zorunlu seçim ile “zayıf/güçlü” varyantların manşet rakamlarını şişirdiği görüşüne de katılıyorum. Bu tür ayrımlar için çok daha sıkı bir prompt gerekiyor ve “mostly”nin ne anlama geldiğini modele bırakmamak için bağlam içi örnekler (ICL) de büyük olasılıkla gerekli
- Eğer “çoğunluk” Wikipedia ölçütüne göre yaklaşık %51 demekse[1], %51'in nasıl olup da “tamamına” yakın sayılabildiğini ve bu yüzden “misleading”in geçerli bir yanıt olabildiğini anlayamıyorum
  Acaba gözden kaçırdığım bir şey mi var diye merak ediyorum
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- Opus 4.7'nin diğer modellere göre daha fazla çekinceli yanıt verdiğine dair bir hissim vardı ve gerçekten de öyleymiş
  claude-opus-4-7 1000 örneğin 451'inde, yani %45.1'inde böyleydi; sonar-pro %39.1, gpt-5.4 %27.7, gemini-3-retrieval %12.9, gemini-3-pro ise %6.0 oranındaydı

Datasette sorgusu burada: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

LLM'leri bir kahin gibi kullanacaksanız, bu prompt'un mantıksız olduğunu düşünmüyorum. LLM'ler dahi gibi pazarlanıyor ve insanlar da, özellikle bilim kurgudaki AI'ın aşırı isabetli varlıklar olarak tasvir edilmesi nedeniyle, onlara böyle davranıyor
“Dahi düzeyinde zekaya” sahip kusursuz bir araçsa, doğru yanıt vermesi gerekir

“Dünya dışı yaşam evrende bir yerlerde vardır” iddiası için GPT-5.4 ve Opus 4.7 Misleading, Gemini 3 ve Gemini 3 (Retrieval), Sonar Pro ise FALSE yanıtını veriyor
Tuhaf bir olgusal iddia. Gerçek doğru cevap aslında kimse kesin olarak bilmiyor, ama böyle bir seçenek yok
- Bunun tutarsızlığı gösterdiğini söylemek daha da tuhaf. Bu konuda bilgili 5 insana çoktan seçmeli olarak doğru cevabı seçtirseniz, bu 5 LLM'den çok daha fazla ayrışmaları muhtemel
  Bu, halüsinasyonun sorun olmadığı anlamına gelmiyor ama bunu test etmenin yolu olarak oldukça kötü
- Verilen seçenekler arasında muhtemelen en iyisi “Misleading”. Çünkü kanıtlanmış değil ama oldukça makul bir şeyi sanki gerçekmiş gibi sunuyor
  Yine de unknown veya undecidable kategorisi olmalıydı
- Bu örüntü sürekli görünüyor ve bir benchmark olarak çok zayıf görünüyor. Beklediğim iddialar bunlar değildi
- O halde burada doğru seçenek misleading değil mi?
- “misleading”in nasıl “unknown”un yerini alabileceğini anlamıyorum
“Bu, açık bir cevap anahtarı olan bir benchmark maddesi değil; gerçek kullanıcıların fact-checking platformuna doğrulama talebiyle gönderdiği iddialar” kısmı iyi
Ama yazarlar raporun kendisini yazıp üretirken LLM'leri ne kadar kullandıklarını tam olarak açıklamazsa bunun ne kadar anlamlı olduğunu bilmiyorum. “11. Ethics & data use” bölümü bile var ve LLM'lerin hatasızlığına benzer konular ele alınıyor, ama rapor üretiminde LLM kullanılıp kullanılmadığı bir kez bile geçmiyor
- Veri toplama ve işleme elle yapıldı, LLM'ler ise rapor taslağının hazırlanmasına yardımcı oldu. Yayından önce hepsi insanlar tarafından gözden geçirildi
Bu deneyin birçok açıdan kusurlu olduğu konusunda hepimiz TRUE diyebiliriz sanırım
Yine de insanların LLM kullanırken yaptığı yaygın hataları ortaya çıkarmak için harika bir alıştırma. Prompt engineering iş görüşmesi sorusu olarak iyi olabilir
Modeller her geçen gün daha insansı hale geliyor
- Bugünlerde birçok insan da neyin gerçek olduğu konusunda uzlaşamıyor. Giderek kötüleşiyor gibi görünüyor ve çözümün ne olduğunu pek bilmiyorum
Goodhart yasası yüzünden bu “benchmark” birkaç gün, bilemediniz birkaç hafta içinde anlamsızlaşacak
Sonra yeniden eğitime yedirilecek ve “çözülmüş” gibi görünecek, ama ortada akıl yürütmenin ortaya çıkması değil, yeni bir “sorun”a ışık tutulduğu için istatistiksel olarak daha makul doğrulukların artması olacak. Ardından bunun her şeyi “değiştiren” muazzam bir “ilerleme” olduğu diye ortalık ayağa kalkacak
Ek olarak, kurumsal strateji ve PR diploması olabilir de olmayabilir de
- Böyle bir etki var ama ölümcül değil. Gerçek ürün trafiğine dayalı özel benchmarklar da çok, kirlenmemiş açık problemler de var
  Araştırma laboratuvarlarındaki insanlar genel olarak ne yaptıklarını biliyor; bu tür sorunlardan habersiz değiller
- İnsan zekasında da durum aynı değil mi? Zeki olup da açık bir doğruluk değeri yokmuş gibi görünen inançlara sahip birçok insan tanıyorum
Neden Grok'u hariç tuttuklarını bilmiyorum. Grok'un nasıl eğitildiğine dair felsefi fark kamuya açık olduğundan ilginç bir veri noktası olurdu
Bu fark hakkında bütün gün tartışılabilir ama bunu nesnel olarak gözlemleme fırsatını kaçırmış olmak yazık
- Başlıkta “Frontier” yazdığı için Grok dışarıda kalacaktır
  Grok, birçok kişinin hoşuna giden önyargılara sahip olacak şekilde eğitildi ama doğru olması amaçlanan bir model değil
- Katılıyorum. Grok'un ne kadar daha kötü performans göstereceğini görmek eğlenceli olurdu
Bunun bize zaten bilmediğimiz neyi gösterdiğini anlamıyorum. LLM'ler, eğitim setlerinde olmayan verilere dair sorulara doğru cevap veremez
Pek bir şey söylemiyor gibi görünüyor
- LLM'ler eğitim setindeki verilerle ilgili sorulara da yanlış cevap verebilir ve bu sinir ağlarının doğasında var. Sadece veri eğitim setinde yoksa bunun olasılığı daha yüksek oluyor
- Ne yazık ki çoğu kişi bunu bilmiyor ve LLM'lere her şeyi bilen, her şeyi yapabilen süper güçlü bir beyin gibi davranıyor
- O halde bu, bu modellerin çok farklı eğitim setleri kullandığını ve emin olmamaları gereken durumlarda bile yüksek güven sergilediklerini gösteriyor
  “Ağız gargarası etkili mi” gibi bir sorunun, tıbbi dergiler gibi sağlam bir veri kaynağında bir karşılığı olması beklenir
- Memnuniyetle sizin yerinize arama yapar ve cevap olarak Reddit'teki en üst yorumu verir
  Bu daha kötü
Herkesin neden LLM'lere fact-checking yaptırma konusunda bu kadar takıntılı olduğunu anlamıyorum
Bu teknoloji bunun için değil. Belirli durumlarda idare eder şekilde çalışabilir ama bu, işe uygun araç olduğu anlamına gelmez
Kıyafet saklamak için buzdolabı satın almaya benziyor
- Nietzsche yaşasaydı, bunun hakikat yanılsaması değil, konfor yanılsaması olduğunu söyleyebilirdi
  Son insan, ona “olgusal olarak yanlış” ya da “olgusal olarak doğru” diyecek bir makine istiyor. Çünkü nihai hakikatin yokluğuna dair uçurumu, yanında uyuyabileceği kadar küçük hale getirmek istiyor
- İnsanlar cevap almak için soru sorar. Bana kişisel olarak oldukça önemli geliyor. Özellikle arama motorları LLM yanıtlarını öne itmeye başlamışsa daha da önemli
- Ama insanlar bunu gerçekten böyle kullanıyor. O zaman mesele ne?
%100 yerel CPU fact-checking için bunu yaptım: https://news.ycombinator.com/item?id=48301003
- Ortada makale yok, benchmark yok, hatta insan yazımı bir README bile yok; neden buna güvenelim?

Gerçek fact-check uygulamalarında frontier LLM'ler arasındaki anlaşmazlık

Gerçek iddialarda değerlendirmeler ne sıklıkla ayrıştı?

Nüans farkları ve esaslı uyumsuzluk

Modeller arası uyum oranı

Model bazında değerlendirme eğilimleri

Değerlendirme dağılımı

Panelin geri kalan çoğunluğuyla uyum

Alanlara göre anlaşmazlık

Karar bucket'larına göre uzlaşı

Veri seti ve hariç tutma ölçütleri

Metodoloji

Modeller ve prompt

Çağrı ayarları ve puanlama

İstatistiksel işlem

Yeniden üretilebilirlik ve kamuya açık çıktılar

Sınırlamalar

Önceki çalışmalar ve sonraki plan

Etik ve veri kullanımı

Frontier panelinin ciddi biçimde ayrıştığı örnekler

İlgili okumalar

1 yorum

Hacker News görüşleri