- 5 frontier LLM arasında, kullanıcıların gerçek gönderimlerinden alınan 1.000 iddianın %67’sinde değerlendirmeler ayrıştı; 5 modelin tamamının aynı sonuca vardığı durumların oranı %33 oldu
- Çoğunluk kararı, doğru etiket değil, uyumsuzluğu ölçmek için kullanılan bir ölçüttür; oybirliği olmayan bu %67’lik bölümde en az 1 modelin yanlış olması kaçınılmazdır
- 4 aşamalı rubrikte en az 2 kademe ayrılan esaslı uyumsuzluk oranı %34 oldu; True ile False arasında uç düzey bölünme de %21 olarak görüldü
- Model çiftleri arasındaki etiket uyumu %53~%75 aralığındaydı; en yüksek uyum, aynı temel modeli paylaşan Gemini 3 Pro ile Search sürümü arasında görüldü
- Veri, Lenz’in yakın dönemdeki gerçek iddialarından seçildi ve doğru etiket ya da LLM değerlendiricisi kullanılmadan ölçüldü; bu da doğruluktan çok değerlendirme yapısındaki istikrarsızlığı ortaya koyuyor
Gerçek iddialarda değerlendirmeler ne sıklıkla ayrıştı?
- İncelenen 1.000 iddianın 672’sinde, %67 (95% CI 64–70) 5 frontier modelin değerlendirmeleri birbiriyle uyuşmadı
- 5 modelin tamamının aynı değerlendirmeyi verdiği iddia sayısı 328, oranı %33 (95% CI 30–36) oldu
- Yalnızca 1 modelin farklı değerlendirme verdiği iddia sayısı 224, oranı %22 (95% CI 20–25) oldu
- 2 modelin farklı değerlendirme verdiği iddia sayısı 316, oranı %32 (95% CI 29–35) oldu
- 2-2-1 veya 2-1-1-1 gibi, katı bir çoğunluğun oluşmadığı bölünmeler 132 adetle %13 (95% CI 11–15) düzeyindeydi
- En az 2 modelin farklı değerlendirme verdiği durumlar 448 adetle %45 (95% CI 42–48) oldu
- Çoğunluk kararı, doğruluğun vekil göstergesi değil, uyumsuzluğu saymak için kullanılan yapısal bir ölçüttür
- Çoğunluk kararı yanlış olabilir; azınlıkta kalan model doğru olabilir
- Dört değerlendirme kategorisinden yalnızca birinin doğru olduğu varsayılırsa, oybirliği olmayan iddiaların %67’sinde en az 1 model yanlıştır
- 3-2, 3-1-1 ve çoğunluksuz bölünmeleri içeren %45’lik bölümde en az 2 model yanlıştır
- Çoğunluğun oluşmadığı %13’lük bölümde hiçbir kategori 3 oya ulaşmadığı için en az 3 model yanlıştır
- 5 modelin tamamının aynı fikirde olduğu %33’lük bölümde de ortak kör noktalar bulunabilir
- Panel uzlaşı düzeyi Krippendorff’s α(ordinal)=0.639 oldu
- Model değerlendirmeleri rastgeleye yakın değil, ancak 5 modeli birbirinin yerine geçebilen tek tip değerlendiriciler gibi görecek kadar da tutarlı değil
- True / Mostly True / Misleading / False sıralı kategoriler olduğu için sıralı α kullanıldı
Nüans farkları ve esaslı uyumsuzluk
- 1.000 iddianın 343’ünde, %34 (95% CI 31–37) en az iki modelin değerlendirmesi 4 aşamalı rubrikte 2 kademe veya daha fazla ayrıldı
- True ile Mostly True arasındaki fark, güven ayarına yakın bir nüans farkı olarak ele alındı
- True ile False arasındaki fark ise cevabın kendisinin ayrıştığı esaslı bir uyumsuzluk olarak değerlendirildi
- Ölçüm, 5 değerlendirmenin maksimum ikili kategori uzaklığı üzerinden hesaplandı
- Değerlendirme sırası
True (0) → Mostly True (1) → Misleading (2) → False (3) şeklindedir
- Uzaklık 0 olanlar 328 adetle %33 (95% CI 30–36); yani 5 modelin tamamı aynı kategoriyi seçti
- Uzaklık 1 olanlar 329 adetle %33 (95% CI 30–36); bu, True ↔ Mostly True gibi nüans farklarına karşılık geliyor
- Uzaklık 2 olanlar 132 adetle %13 (95% CI 11–15); bu, True ↔ Misleading veya Mostly True ↔ False gibi esaslı uyumsuzluklara işaret ediyor
- Uzaklık 3 olanlar 211 adetle %21 (95% CI 19–24); bu, True ↔ False arasında uç düzey bölünme anlamına geliyor
- Kategori uzaklığı, hata büyüklüğünü hassas biçimde ölçen bir ölçek değil, kaba bir göstergedir
- True / Mostly True / Misleading / False kategorilerini eşit aralıklı sıralı ölçek olarak ele alan bir basitleştirme içerir
- 2 kademe fark; rubrik belirsizliği, zaman ölçütündeki farklar veya “Misleading” yorumundaki farklılıklardan da doğabilir
Modeller arası uyum oranı
- 5 model çifti arasındaki etiket uyumu %53~%75 aralığındaydı
- En yüksek uyum Gemini 3 Pro × Gemini 3 Pro + Search arasında %75 (95% CI 72–77) oldu; iki model aynı temel modeli paylaşıyor
- En düşük uyum ise üç çiftte görülen %53 (95% CI 50–56) oldu
- Başlıca çift bazlı uyum oranları
- GPT-5.4 × Claude Opus 4.7: %65 (95% CI 62–68)
- GPT-5.4 × Gemini 3 Pro: %65 (95% CI 62–68)
- GPT-5.4 × Gemini 3 Pro + Search: %60 (95% CI 57–63)
- GPT-5.4 × Sonar Pro: %60 (95% CI 57–63)
- Claude Opus 4.7 × Gemini 3 Pro: %53 (95% CI 50–56)
- Claude Opus 4.7 × Gemini 3 Pro + Search: %53 (95% CI 50–56)
- Claude Opus 4.7 × Sonar Pro: %58 (95% CI 55–61)
- Gemini 3 Pro × Sonar Pro: %53 (95% CI 50–56)
- Gemini 3 Pro + Search × Sonar Pro: %58 (95% CI 55–61)
Model bazında değerlendirme eğilimleri
-
Değerlendirme dağılımı
- Modellere göre True/False uçlarına yığılma derecesi ile Mostly True/Misleading ara kategorilerini kullanma sıklığı farklıydı
- Doğru etiket bulunmadığı için modelin ön eğilimleri ile iddia özelliklerinin etkisi birbirinden ayrıştırılamıyor
- GPT-5.4: True %42 (95% CI 39–45), Mostly True %16 (14–19), Misleading %12 (10–14), False %30 (28–33)
- Claude Opus 4.7: True %38 (35–41), Mostly True %26 (23–29), Misleading %19 (17–22), False %17 (15–20)
- Gemini 3 Pro: True %54 (51–57), Mostly True %3 (2–4), Misleading %3 (2–4), False %40 (37–43)
- Gemini 3 Pro + Search: True %52 (49–55), Mostly True %4 (3–5), Misleading %9 (7–11), False %35 (32–38)
- Sonar Pro: True %35 (32–38), Mostly True %23 (21–26), Misleading %16 (14–18), False %26 (23–28)
-
Panelin geri kalan çoğunluğuyla uyum
- Her modelin, kalan 4 modelden en az 3’ünün oluşturduğu katı çoğunlukla aynı değerlendirmeyi verdiği oran %69~%81 aralığındaydı
- Bu değer, ilgili korpustaki akran hizalanmasını gösterir; doğruluğu değil
- Hesaplamaya yalnızca kalan 4 modelin 3/4 veya daha yüksek çoğunluk oluşturduğu iddialar dahil edildiği için, model bazında eligible n farklıdır
- GPT-5.4: %81 (95% CI 78–84), eligible n=650, ineligible=350
- Claude Opus 4.7: %70 (95% CI 67–74), eligible n=691, ineligible=309
- Gemini 3 Pro: %77 (95% CI 74–80), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: %76 (95% CI 73–79), eligible n=693, ineligible=307
- Sonar Pro: %69 (95% CI 66–73), eligible n=675, ineligible=325
Alanlara göre anlaşmazlık
- Alan bazında payda, ilgili alandaki claim sayısıdır; alanların çoğunda anlaşmazlık oranı yarıyı belirgin biçimde aştı
- Finance: 75 adet, rastgele anlaşmazlık %67 (%95 CI 55–76), esaslı anlaşmazlık %39 (%28–50), çoğunluk yok %20 (%13–30)
- General: 179 adet, rastgele anlaşmazlık %68 (%60–74), esaslı anlaşmazlık %40 (%33–48), çoğunluk yok %12 (%8–17)
- Health: 171 adet, rastgele anlaşmazlık %71 (%64–78), esaslı anlaşmazlık %29 (%23–36), çoğunluk yok %12 (%8–17)
- History: 131 adet, rastgele anlaşmazlık %53 (%44–61), esaslı anlaşmazlık %24 (%17–32), çoğunluk yok %13 (%8–20)
- Legal: 48 adet, rastgele anlaşmazlık %77 (%63–87), esaslı anlaşmazlık %40 (%27–54), çoğunluk yok %19 (%10–32)
- Politics: 168 adet, rastgele anlaşmazlık %70 (%62–76), esaslı anlaşmazlık %38 (%31–46), çoğunluk yok %8 (%5–13)
- Science: 151 adet, rastgele anlaşmazlık %68 (%60–75), esaslı anlaşmazlık %36 (%29–44), çoğunluk yok %21 (%15–28)
- Tech: 77 adet, rastgele anlaşmazlık %69 (%58–78), esaslı anlaşmazlık %31 (%22–42), çoğunluk yok %8 (%4–16)
- Alan ayrımı, Lenz'in trafik örüntülerini yansıtır; fact-check yapılabilir tüm claim'lerin eşit örneklenmesiyle elde edilmiş bir sonuç değildir
Karar bucket'larına göre uzlaşı
- Panel orta bucket'lara ulaştığında neredeyse hiç yakınsamadı
- Mostly True ve Misleading için çoğunluk kararlarında oybirliği oranı en fazla ayrı ayrı %5 düzeyinde kaldı
- True ve False çoğunluk kararlarında oybirliği oranı sırasıyla %47 ve %43 oldu
- Kriter, ilgili kararı veren katı bir 3/5 veya üzeri çoğunluğa sahip claim'lerdir
- True: eligible n=438, oybirliği %47 (%95 CI 42–51), 3~4 oy çoğunluğu %53 (%49–58)
- Mostly True: eligible n=76, oybirliği %0 (%95 CI 0–5), 3~4 oy çoğunluğu %100 (%95 CI 95–100)
- Misleading: eligible n=74, oybirliği %5 (%95 CI 2–13), 3~4 oy çoğunluğu %95 (%87–98)
- False: eligible n=280, oybirliği %43 (%95 CI 37–49), 3~4 oy çoğunluğu %57 (%51–63)
- 5 modelin tamamının aynı kararı verdiği 328 claim de uç kutuplarda yoğunlaştı
- True: 204 adet, oybirliği içindeki pay %62 (%95 CI 57–67)
- Mostly True: 0 adet, %0 (%95 CI 0–1)
- Misleading: 4 adet, %1 (%95 CI 0–3)
- False: 120 adet, %37 (%95 CI 32–42)
- 17.856 PolitiFact claim'i üzerinde tek aileli Llama-3 ablasyon çalışması, Schwab et al. 2025 da daha incelikli etiketlerde fact-check karar modellerinin hatalarının yoğunlaştığını gösteren ilişkili sonuçlar sunuyor
Veri seti ve hariç tutma ölçütleri
- Analiz kapsamı 1.000 claim'den oluşuyor
- Lenz fact-check platformuna gönderilen gerçek kullanıcı istekleri içinden, hariç tutma koşullarını geçen en güncel claim'ler seçildi
- Tüm claim'ler 15 Şubat 2026 sonrasında oluşturuldu
- Lenz'in kendi kararı analize dahil edilmedi; analiz, Lenz ile frontier modelleri karşılaştırmıyor, yalnızca frontier modeller arasındaki anlaşmazlığı ölçüyor
atomic_claim alanı, kullanıcının girdiği ham metin değil; Lenz'in framing aşaması sonrasında düzenlenmiş nötr ve doğrulanabilir bir önermedir
- Örneğin “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” girdisi, “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.” önermesine dönüştürülür
- Hariç tutulan claim'ler
- Gönderen tarafından gizli olarak işaretlenen claim'ler
- Platform çalışanları, dahili hesaplar, ajan/API gönderimleri tarafından oluşturulan claim'ler
- Düzenleme durumu
pending veya hidden olan claim'ler
- Kamuya mal olmuş kişi olmayan bireyler hakkında kişisel veri içerdikleri için Lenz'in PII tarama aşamasında otomatik işaretlenen claim'ler
- OpenAI
text-embedding-3-small 1536 boyutlu embedding'lerinde atomic_claim'ler arası cosine distance değeri 0.2 içinde kalan yakın kopya claim'ler
- 5 modelden herhangi biri, bir yeniden denemeden sonra bile ayrıştırılabilir bir karar üretemeyen claim'ler
- Toplama anı itibarıyla 180 günden daha eski claim'ler
- Yakın kopyalarda, zamana bağlı önermelerde daha yeni claim; diğer durumlarda ise Lenz'de görüntülenme sayısı en yüksek mevcut claim temsil satırı olarak seçildi
Metodoloji
-
Modeller ve prompt
- Parametrik modeller: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Arama destekli modeller: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Her claim, gönderim tarihine göre ayarlanmış “as of YYYY-MM-DD” referans tarihiyle birlikte sunuldu
- Modeller
True, Mostly True, Misleading, False seçeneklerinden birini zorunlu olarak seçmek zorundaydı
Classify this claim as of <date>: "<atomic claim>"
Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
- Abstain seçeneği sunulmadı; zorunlu seçim, modeller arası karşılaştırmayı simetrik tutmak için kullanıldı
-
Çağrı ayarları ve puanlama
- Tüm modellere aynı sistem placeholder'ı
. ve aynı kullanıcı prompt şablonu usr_v2 verildi
- Yapılandırılmış çıktı şeması, araç çağırma şeması, seed, top-p ve logit-bias kontrolleri kullanılmadı
- Desteklenen durumlarda deterministik decoding istenerek
temperature=0.0 kullanıldı
- GPT-5.4 ve Claude Opus 4.7 için sağlayıcı adaptörleri özel temperature ayarını reddettiğinden, bu modeller açıkça temperature belirtilmeden çağrıldı
- GPT-5.4, Claude Opus 4.7 ve Sonar Pro için çıktı uzunluğu 16 token ile sınırlandı; Gemini 3 Pro ve Gemini 3 Pro + Search ise 1024 token sınırı kullandı
- Gemini 3 Pro + Search için Google Search grounding etkinleştirildi; Sonar Pro ise Perplexity'nin search-backed API'si üzerinden çalışan arama destekli model olarak ele alındı
- Normalizasyondan sonra yalnızca dört etiketten tam olarak biriyle eşleşen çıktılar ayrıştırılabilir kabul edildi
- LLM judge ve referans doğru etiketler kullanılmadı; tüm ölçümler, 5 modelin doğrudan ayrıştırılmış etiket uyumundan üretildi
-
İstatistiksel işlem
- Korpus, tek bir fact-check platformuna gönderilmiş en güncel 1.000 eligible claim'den oluşur; daha geniş bir popülasyondan alınmış olasılıklı bir örnek değildir
- Wilson %95 güven aralıkları, aynı eleme kurallarını izleyen benzer eligible gönderim akışlarında her claim'in bağımsız seçildiği varsayımı altındaki nominal binom aralıklarıdır
- Lenz claim'leri haber olayları etrafında kümelenerek gönderilir ve aynı kullanıcı tek oturumda ilişkili birden çok claim gönderebilir; bu nedenle bağımsız ve özdeş dağılımlı değildir
- Daha dürüst bir cluster modelinde gerçek örneklem oynaklığı Wilson aralıklarından daha büyük olabilir
- Modeller arası anlamlılık testi yapılmadı; ikili uyum oranları ve Wilson %95 CI değerleri betimleyici istatistik olarak raporlandı
Yeniden üretilebilirlik ve kamuya açık çıktılar
- Tüm claim bazlı veriler CSV olarak sunuluyor
- Her satırda claim ID ve URL’si, atomic claim metni, 5 frontier kararı, maksimum ikili bucket mesafesi, alan ve oluşturulma tarihi yer alıyor
- Gönderen kişi daha sonra claim’i siler veya gizliye çevirirse bazı sayfalar kullanılamayabilir
- PDF, çevrimdışı okuma, alıntılama ve arXiv tarzı preprint barındırma için tarayıcıdan bağımsız bir render sürümüdür
- Snapshot v1.0 ve verilerin referans tarihi 21 Mayıs 2026’dır
- Kalıcı kayıt ve alıntı bilgileri doi.org/10.5281/zenodo.20344847 üzerinden sunuluyor
Sınırlamalar
- Güvercin yuvası ilkesine dayalı hata alt sınırı, belirli bir claim’de hangi modelin olgusal olarak yanlış olduğunu gösteren bir hüküm değil, rubric uyumsuzluğunun alt sınırıdır
- Dört bucket’tan yalnızca biri doğru olabileceği için her türlü uyuşmazlık en az bir tutarsız karara işaret eder
- Ancak hangi modelin hangi claim’de yanlış olduğu bilinemez
- Bucket mesafesinin sıralı kabul edilmesi bir basitleştirmedir
- True / Mostly True / Misleading / False, eşit aralıklı sıralı bir ölçek gibi ele alınır
- 2 adımlık fark; rubric belirsizliği, zaman referansı farkı veya “Misleading” yorumundaki farklardan kaynaklanabilir ve mutlaka daha büyük bir olgusal hata anlamına gelmez
- Karar belirsizliği yalnızca LLM’lerin sorunu değil, aynı zamanda görevin kendi niteliğidir
- AVeriTeC, 50 fact-check kuruluşunu temel alan ve çok turlu incelemeden geçmiş 4.568 claim’lik bir corpus’tur; kararlar için annotator’lar arası uzlaşı κ=0.619’da kalır
- Frontier model uyuşmazlıklarının bir kısmı, herhangi bir değerlendirici için de zor olan etiketlerin doğasını yansıtır
- Snapshot belirli bir tarihe ve belirli model sürümlerine sabitlenmiştir
- Frontier LLM’ler deterministik değildir; aynı model ve prompt ile yeniden çalıştırıldığında bile sonuçlar bir miktar değişebilir
- Yeni modeller veya farklı prompt’larla yeniden çalıştırılırsa sonuçlar daha fazla oynayabilir
- Arama destekli modeller, çıkarım sırasında kaynaklara bakmış olabilir; ancak neyi aradıkları kontrol edilmez veya denetlenmez
Önceki çalışmalar ve sonraki plan
- Yang & Wang (2026), en üst düzey frontier modellerin toplam doğruluğu korurken bile MMLU-Pro ve GPQA maddelerinin %16~38’inde uyuşmadığını gösteriyor
- Gerçek claim doğrulamasında katı insan anotasyonu için bir referans noktası olarak AVeriTeC sunuluyor
- Daha büyük bir fact-check corpus’u olarak tek aileli Llama-3 ablasyon kurulumundaki 17.856 PolitiFact claim’i bulunuyor
- Lenz corpus’u, son 180 gündeki gerçek kullanıcı gönderilerinden oluşuyor, yalnızca lenz.io’da indeksleniyor ve kamuya açık eğitim setlerinde hiçbir zaman standart kararlarla eşleştirilmedi
- Sonraki çalışma, aynı corpus’un tamamını insanlarca etiketleyip bu etiketleri ground truth olarak kullanarak 5 frontier modeli ve Lenz’in kendi kararlarını değerlendirmeyi planlıyor
- Amaç bir leaderboard oluşturmak değil; frontier panelinin insan uzlaşısından nerede saptığını, Lenz’in her ikisinden de nerede ayrıldığını ve hangi kategorilerin uyuşmazlığı tetiklediğini analiz etmek
Etik ve veri kullanımı
- Kullanılan alanlar, yalnızca herkese açık claim alanları olan atomic claim metni ve oluşturulma tarihidir
- Kişisel veri kullanılmaz
- Gizli claim’ler ve çalışan claim’leri hariç tutulur
- Frontier modellere yalnızca claim metni ve referans tarihi verilir; gönderenin kimliği veya analiz sinyalleri verilmez
- Gönderen kişi daha sonra claim’i gizliye çevirir veya silerse ilgili claim snapshot’tan ve gelecekteki indirmelerden çıkarılabilir
Frontier panelinin ciddi biçimde ayrıştığı örnekler
- Ek bölüm, en yüksek bucket ile en düşük bucket arasındaki farkın en büyük olduğu 20 claim’i sunuyor
- Bunlar, en az bir modelin kararı diğer modellere göre 2 adım veya daha fazla uzaklaştığı anlamlı uyuşmazlık claim’leridir
- Maksimum ikili bucket mesafesine göre azalan sırada dizilir, ardından çoğunluk olmayan vakalar önce gelecek şekilde eşitlik bozulur ve sonra claim ID’nin kararlı hash’ine göre sıralanır
- Temsili mesafe 3 · çoğunluk yok örnekleri
- Muthiah Muralidaran’ın Indian Premier League’in tamamen bir iş olduğunu ve düşük skorlu maçlar sponsorlar için sıkıcı olduğundan düz pitch’ler hazırlandığını söylediği claim: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- 2025 itibarıyla Nigeria’da World Bank’in active portfolio’sunun 16,4 milyar doların üzerinde olduğu claim: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- Olumlu duygu içeriği daha az olan müzikleri tercih eden kişilerin daha yüksek zekaya sahip olma eğiliminde olduğu claim: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Rajasthan, Kota’daki hostellerin öğrenci intiharını önleme tedbiri olarak kafes tipi tavan vantilatörlerini yaygın biçimde kullandığı claim: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- 6 Mayıs 2026 itibarıyla çeşitli ülkelerden Müslümanların India’nın West Bengal eyaletindeki Hooghly district’te toplandığı claim: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True
1 yorum
Hacker News görüşleri
Classify this claim as of : ""/Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.İddia listesi https://lenz.io/research/llm-disagreement/data.csv adresinde yer alıyor; gezmesi kolay olsun diye bunu Datasette Lite içine koymuşlar. Uyumsuzluk örneği: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
“Tüm bademler ABD'nin California eyaletinde yetiştirilir” iddiası yanlış, ama yalnızca Opus 4.7 “misleading” diye yanıt vermiş. Bir de “mostly true” ile “misleading” seçenekleri eklenip üstüne “açıklama yasak” kuralı konunca, argümanın gücü zayıflıyor
Daha iyi bir örnek olarak “Eksik Mısır vize başvuruları, Mısır vize başvurularının reddedilmesinin en yaygın nedenleri arasındadır” ifadesinde modeller “true” ve “mostly true” arasında bölünmüş, ama ifadede geçen “among the most” nedeniyle ikisi fiilen aynı anlama geliyor
Daha belirleyici bir örnek olarak “18 Mayıs 2026'da Ukrayna, Rusya'nın Moskova kentine drone saldırısı düzenledi” iddiasında arama aracı yoksa tek doğru yanıt “doğrulanamaz” olurdu, ama böyle bir seçenek yoktu ve yanıtlar true/false diye ayrıldı: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Bazı iddialar aynı anda hem “misleading” hem de true veya false olabilir. “Büyük ölçüde yanlış” bir durumun hangi kategoriye gireceği de belirsiz
Ne kadar yanlış olunca “mostly true”dan “false”a geçildiğine dair de bir ölçüt yok. Sonuçta bu, olgusal anlayışı değil modelin mostly ve misleading kavramlarını nasıl tanımladığını da test ediyor; dolayısıyla modellerin olguların kendisinde temelden anlaşamadığını söylemek abartılı
Sıkı bir değerlendirmeyi gerçekten bağlayınca, web araması gibi araç çağrılarında altyapı sorunları, geçici başarısızlıklar ve her türlü nedensel olmayan değişkenlik aynen içeri giriyor
Aramasız 3 model ile arama yapan ajanı ayırıp rakamları öyle göstermeleri gerekirdi. Bilgi kesim tarihinden sonraki güncel olgusal iddialarda aramasız model fiilen pek anlamlı değil ve “bilmiyorum” seçeneği olmadığı için sonuç neredeyse tamamen geçersiz hale geliyor. Bilmediği halde bunu söyleyemeyince kulağa makul gelen bir cevap işaretliyor
Zorunlu seçim ile “zayıf/güçlü” varyantların manşet rakamlarını şişirdiği görüşüne de katılıyorum. Bu tür ayrımlar için çok daha sıkı bir prompt gerekiyor ve “mostly”nin ne anlama geldiğini modele bırakmamak için bağlam içi örnekler (ICL) de büyük olasılıkla gerekli
Acaba gözden kaçırdığım bir şey mi var diye merak ediyorum
[1]: https://en.wikipedia.org/wiki/Almond#Production
claude-opus-4-71000 örneğin 451'inde, yani %45.1'inde böyleydi;sonar-pro%39.1,gpt-5.4%27.7,gemini-3-retrieval%12.9,gemini-3-proise %6.0 oranındaydıDatasette sorgusu burada: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
“Dahi düzeyinde zekaya” sahip kusursuz bir araçsa, doğru yanıt vermesi gerekir
“Dünya dışı yaşam evrende bir yerlerde vardır” iddiası için GPT-5.4 ve Opus 4.7 Misleading, Gemini 3 ve Gemini 3 (Retrieval), Sonar Pro ise FALSE yanıtını veriyor
Tuhaf bir olgusal iddia. Gerçek doğru cevap aslında kimse kesin olarak bilmiyor, ama böyle bir seçenek yok
Bu, halüsinasyonun sorun olmadığı anlamına gelmiyor ama bunu test etmenin yolu olarak oldukça kötü
Yine de unknown veya undecidable kategorisi olmalıydı
“Bu, açık bir cevap anahtarı olan bir benchmark maddesi değil; gerçek kullanıcıların fact-checking platformuna doğrulama talebiyle gönderdiği iddialar” kısmı iyi
Ama yazarlar raporun kendisini yazıp üretirken LLM'leri ne kadar kullandıklarını tam olarak açıklamazsa bunun ne kadar anlamlı olduğunu bilmiyorum. “11. Ethics & data use” bölümü bile var ve LLM'lerin hatasızlığına benzer konular ele alınıyor, ama rapor üretiminde LLM kullanılıp kullanılmadığı bir kez bile geçmiyor
Bu deneyin birçok açıdan kusurlu olduğu konusunda hepimiz TRUE diyebiliriz sanırım
Yine de insanların LLM kullanırken yaptığı yaygın hataları ortaya çıkarmak için harika bir alıştırma. Prompt engineering iş görüşmesi sorusu olarak iyi olabilir
Modeller her geçen gün daha insansı hale geliyor
Goodhart yasası yüzünden bu “benchmark” birkaç gün, bilemediniz birkaç hafta içinde anlamsızlaşacak
Sonra yeniden eğitime yedirilecek ve “çözülmüş” gibi görünecek, ama ortada akıl yürütmenin ortaya çıkması değil, yeni bir “sorun”a ışık tutulduğu için istatistiksel olarak daha makul doğrulukların artması olacak. Ardından bunun her şeyi “değiştiren” muazzam bir “ilerleme” olduğu diye ortalık ayağa kalkacak
Ek olarak, kurumsal strateji ve PR diploması olabilir de olmayabilir de
Araştırma laboratuvarlarındaki insanlar genel olarak ne yaptıklarını biliyor; bu tür sorunlardan habersiz değiller
Neden Grok'u hariç tuttuklarını bilmiyorum. Grok'un nasıl eğitildiğine dair felsefi fark kamuya açık olduğundan ilginç bir veri noktası olurdu
Bu fark hakkında bütün gün tartışılabilir ama bunu nesnel olarak gözlemleme fırsatını kaçırmış olmak yazık
Grok, birçok kişinin hoşuna giden önyargılara sahip olacak şekilde eğitildi ama doğru olması amaçlanan bir model değil
Bunun bize zaten bilmediğimiz neyi gösterdiğini anlamıyorum. LLM'ler, eğitim setlerinde olmayan verilere dair sorulara doğru cevap veremez
Pek bir şey söylemiyor gibi görünüyor
“Ağız gargarası etkili mi” gibi bir sorunun, tıbbi dergiler gibi sağlam bir veri kaynağında bir karşılığı olması beklenir
Bu daha kötü
Herkesin neden LLM'lere fact-checking yaptırma konusunda bu kadar takıntılı olduğunu anlamıyorum
Bu teknoloji bunun için değil. Belirli durumlarda idare eder şekilde çalışabilir ama bu, işe uygun araç olduğu anlamına gelmez
Kıyafet saklamak için buzdolabı satın almaya benziyor
Son insan, ona “olgusal olarak yanlış” ya da “olgusal olarak doğru” diyecek bir makine istiyor. Çünkü nihai hakikatin yokluğuna dair uçurumu, yanında uyuyabileceği kadar küçük hale getirmek istiyor
%100 yerel CPU fact-checking için bunu yaptım: https://news.ycombinator.com/item?id=48301003