7 puan yazan GN⁺ 2025-10-23 | 1 yorum | WhatsApp'ta paylaş
  • Avrupa Yayın Birliği (EBU) ve BBC öncülüğünde yürütülen uluslararası ortak araştırma, başlıca 4 AI asistanının (ChatGPT, Copilot, Gemini, Perplexity) haber içeriğini aktarırken %45 oranında çarpıtma veya hata gösterdiğini ortaya koydu
  • Araştırma, 18 ülkeden 22 kamu yayıncısının katılımıyla 14 dilde 3.000'den fazla yanıtı değerlendirdi; kaynak eksikliği veya yanlışlığı (%31), olgusal hata ve halüsinasyonlar (%20) gibi çok sayıda sorun tespit edildi
  • Özellikle Gemini'nin sorun oranı %76 ile en yüksek çıktı; bunun başlıca nedeni kaynak belirtme başarısızlığı olarak analiz edildi
  • BBC'nin önceki araştırmasına kıyasla bazı iyileşmeler görülse de, sistematik ve çok uluslu düzeyde sorunların sürdüğü doğrulandı
  • AI asistanlarının haber aramasının yerini alma eğilimi sürerken, kamusal güvenin ve demokratik katılımın zayıflaması riski gündeme geldi

Araştırmaya genel bakış

  • EBU Haber Genel Kurulu'nda (Napoli) açıklanan bu çalışma, bugüne kadarki en büyük çok uluslu deney olarak, AI asistanlarının dil, ülke ve platform fark etmeksizin tutarlı biçimde haber çarpıtması ürettiği sonucuna vardı
  • Katılımcı kurumlar: BBC, ARD, ZDF, CBC, NPR gibi dünyadan 22 kamu yayıncısı
  • Değerlendirme ölçütleri: doğruluk, kaynağın açıkça belirtilip belirtilmediği, olgu ile görüşün ayrılması, bağlam sunulması gibi temel gazetecilik etiği göstergeleri

Başlıca sonuçlar

  • Tüm yanıtların %45'inde ciddi sorunlar bulundu
    • %31 kaynak hatalarıydı (eksik kaynak, yanlış alıntı, yanlış tanımlanmış kaynak)
    • %20 doğruluk kusurlarıydı (halüsinasyonlar, güncelliğini yitirmiş bilgiler, yanlış bilgi dahil)
  • Gemininin sorun oranı %76 ile diğer modellerin yaklaşık iki katı oldu
  • BBC'nin bu yılın başında yayımladığı araştırmaya göre bazı göstergelerde iyileşme olsa da, genel çarpıtma oranı hâlâ yüksek

Bu çarpıtma neden önemli?

  • AI asistanları, birçok kişi için şimdiden arama motorlarının yerini alan bir haber kapısı hâline geldi
  • Reuters Institute'un 'Digital News Report 2025' raporuna göre, tüm çevrimiçi haber tüketicilerinin %7'si (25 yaş altındakilerde %15) haber kaynağı olarak AI asistanlarını kullanıyor
  • Jean Philip De Tender (EBU Medya Direktörü), “AI asistanlarındaki sorunlar sınırları ve dilleri aşan sistematik bir olgu ve bu durum kamusal güveni tehdit ediyor” uyarısında bulundu
  • BBC'den Peter Archer ise “AI'nin potansiyeli büyük, ancak önce güvenilir bilgi sunumu sağlanmalı ve medya kuruluşlarıyla AI şirketlerinin ortak bir yanıt geliştirmesi gerekiyor” diye vurguladı

Müdahale ve sonraki adımlar

  • Araştırma ekibi, sorunun çözümü için 'News Integrity in AI Assistants Toolkit' dokümanını yayımladı
    • İyi bir AI yanıtının ölçütlerini ve sorun çözüm yönünü sunuyor
    • AI yanıt kalitesini iyileştirmeyi ve kullanıcıların medya okuryazarlığını artırmayı hedefliyor
  • EBU, AB'ye ve ulusal düzenleyici kurumlara bilgi bütünlüğü ve dijital hizmetlerle ilgili yasaların daha güçlü uygulanması çağrısı yaptı ve AI asistanlarının sürekli bağımsız biçimde izlenmesini önerdi

Ek araştırma ve algı çalışması

  • BBC, ayrı bir 'Audience Use and Perceptions of AI Assistants for News' raporunda,
    • Birleşik Krallık'taki yetişkinlerin üçte birinden fazlasının AI tarafından oluşturulan haber özetlerine güvendiğini söylediğini,
    • hata tespit edildiğinde sorumluluğun yalnızca AI'ye değil, medya kuruluşlarına da yüklendiği eğiliminin bulunduğunu analiz etti
  • Bu da AI asistanlarındaki hataların haber markalarına duyulan güveni de olumsuz etkileyebileceğini gösteriyor

Katılımcı yayın kuruluşları listesi

  • Belçika (RTBF, VRT), Kanada (CBC-Radio Canada), Çekya (Czech Radio), Finlandiya (YLE), Fransa (Radio France),
    Gürcistan (GPB), Almanya (ARD, ZDF, Deutsche Welle), İtalya (Rai), Litvanya (LRT),
    Hollanda (NOS/NPO), Norveç (NRK), Portekiz (RTP), İspanya (RTVE), İsveç (SVT),
    İsviçre (SRF), Ukrayna (Suspilne), Birleşik Krallık (BBC), ABD (NPR)

1 yorum

 
GN⁺ 2025-10-23
Hacker News yorumu
  • Asıl rapora bakınca, sayıların nasıl üretildiğini görmek mümkün. Hataların çoğu “kaynak sorunu”: yapay zeka asistanı ya iddiayı alıntılamıyor ya da (şaşırtıcı biçimde) BBC yerine Wikipedia’yı kaynak gösteriyor. Ayrıca bu rapor hangi modellerin kullanıldığını da net biçimde açıklamıyor (eklerde geçiyor). Anthropic’i (bence bu tür işlerde en iyisi) dışarıda bırakıp yalnızca Perplexity ve Copilot’u hedef almışlar. Yakın tarihli raporlarla bir yıl önceki araştırmayı birbirine karıştırıp bağlamı kaybetmişler; bu arada durumun çok değiştiği de atlanmış. Bu haberde birkaç önemli sorun var

    • İnsan gazeteciler de beyaz bültenleri yaklaşık %85 oranında yanlış aktarıyor. Bunu hesaba katınca %45 o kadar da kötü gelmiyor

    • Alıntı sorununun bir nedeni de BBC’nin robots.txt dosyası olabilir; çünkü çoğu AI crawler’ını ve user-agent’ı engelliyor

    • İnsan yazısını yorumlamaktan doğan sorunların gerçekten büyük olduğuna katılıyorum. Bu haber iyi olmasa bile, haberde öne sürülen türden sorunlar gerçekte ciddi biçimde var. LLM’ler tek tek cümleleri yanlış anlayabiliyor ya da kimin ne söylediğini takip etmeyi kaybedebiliyor; bu, en yeni modellerde bile (GPT-5 dahil) zaman zaman görülüyor. Özellikle insan yazımı tartışmaları analiz etmeleri istendiğinde oluyor. Bu muhtemelen çözülebilir ama henüz kesinlikle tamamen çözülmüş değil

    • Wikipedia’yı BBC yerine kaynak göstermenin sorun olduğu eleştirisine özellikle şunu eklemek isterim: Asıl daha büyük sorun, “var olmayan” Wikipedia maddelerini kaynak göstermeleri. Örneğin ChatGPT, gerçekte var olmayan “European Union Enlargement Goals for 2040” adlı bir wiki maddesine bağlantı verdi; bu aynı zamanda resmî bir AB politikası da değildi. Var olmayan URL’ler, hayalî AB hedefleri ve politikaları uydurdu

    • Bence bu haber kendi işlevini gayet iyi yerine getiriyor: insanların daha sonra alıntılayacağı bir manşet üretmek. Önümüzdeki bir iki ay içinde bu haber bağlantısını ya da “AI projelerinin %95’i başarısız olur” gibi sığ alıntıları her yerde göreceğiz. POSIWID ("the purpose of a system is what it does" kısaltması; yani bir sistemin amacı, fiilen yaptığı şeydir)

  • Kaç kişi AI özetlerini gidip özgün metinle gerçekten karşılaştırdı, merak ediyorum. Ben birkaç kez bizzat karşılaştırdım ve sonuç gerçekten berbattı. Özetten çok “rastgele sıkıştırma” yapıyorlar; bu ise özetlemeden tamamen farklı. Ağır vakalarda ana sonuç, gerçektekinin tam tersine dönüyor. Bu yüzden artık AI özetleme özelliklerine hiç güvenmiyorum

    • Gemini’nin arama özeti özelliğini kontrol ederseniz neredeyse her zaman ciddi sorunlar çıkıyor. Daha dün Gemini, üzerinde anlaşmadığımız bir konuyu sanki karara bağlanmış gibi kaydetti. Üstelik en önemli nokta buydu ve sonuç tamamen ters yansıdı. Hiç olmaması daha iyi olacak kadar kötü

    • “Rastgele sıkıştırma” ifadesi gerçekten çok yerinde. Ben bunu özellikle e-posta ya da mesaj özetlerinde fark ediyorum. Mesajın özünü hiç yakalayamıyor, rastgele cümleler seçiyor ve vakaların %99,9’unda bunlar asıl kilit noktalar olmuyor. Bu yüzden tamamen görmezden geliyorum

    • Benim denemelerimde bu durum daha çok hafifletilmiş open-source modellerde ya da mini modellerde görülüyor. SOTA seviyesindeki modellerde (ör. Sonnet-4.5, Opus-4.1, GPT-5-Thinking) bu sorun neredeyse hiç yok. Ama onların maliyeti çok yüksek olduğu için çoğu şirket maliyet veya hız yüzünden ucuz modeller ya da uygulanmamış TTC kullanıyor

    • Acaba bunun bir nedeni de haber başlıklarının çoğu zaman clickbait olması olabilir mi? AI sadece başlığa bakıp içeriği özetliyorsa, özgün metnin yarısından fazlasını yanlış anlaması çok da şaşırtıcı değil

    • Bazen AI düpedüz var olmayan şeyleri de uyduruyor. Gerçekte olmayan makale başlıkları, yazarlar ve sonuçlardan oluşan tamamen temelsiz atıflar gördüm

  • Gemini’den en güncel haberleri toplayıp göstermesini istedim; arama kullanmadan başlıkları, özetleri ve bağlantıları tamamen uydurdu. Bu bir iki kez değil, birçok kez oldu. O yüzden artık Gemini’yi web araması içeren hiçbir işte kullanmaya çekiniyorum. Örnek olarak, “Google DeepMind ve Harvard araştırmacıları LLM’lerin ‘zihin teorisini (testing the theory of mind)’ değerlendirmek için yeni bir yöntem önerdi” şeklinde bir içerik ve bağlantı verdi; ama bağlantı çalışmıyordu ve başlık da aramada çıkmıyordu

    • Gemini’nin cevaplarına on kez bakarsanız yedisinden fazlası yanlıştır. Bazen ürün adlarını karıştırıyor ya da açılış saatlerini gerçeğe aykırı söylüyor. Örneğin eşimle gideceğimiz restoranın Pzt-Cuma açık olduğunu söyledi ama gerçekte yalnızca Salı-Cumartesi çalışıyormuş; boşuna gitmiş olduk. Bazen de düzinelerce “gerçeği” tamamen saçma biçimde uyduruyor. Eşim artık her şeyi bizzat daha dikkatli kontrol ediyor; hatta işletme sahibi bile “Gemini X diyorsa, gerçekte Y’dir herhalde?” diye şaka yapıyor

    • Ben aynı durumu yeniden üretemiyorum. Hangi prompt’un kullanıldığını merak ediyorum. Günün en önemli haberlerini istediğimde Google Search kullanıp gerçek bağlantılar veriyor

    • Hangi Gemini sürümünün kullanıldığını, API üzerinden mi çağrıldığını yoksa web uygulamasından mı (Gemini ya da AI Studio gibi) kullanıldığını da merak ediyorum. Tüm LLM uygulamalarında web/haber arama özelliği açık değil; bu yüzden erişim yetkisine göre sonuçlar tamamen değişebilir. Tabii AI’ın web arama yetkisi yoksa bunu söylemesi gerekir; sahte bağlantılar uydurmamalı. Eğer web araması açıksa ama yine de düzgün arama yapmadıysa, sorun zaten başlı başına budur

    • Böyle durumlarda insanın doğrudan normal bir haber sitesine girip manşetleri kendisinin okuması daha iyi değil mi diye sormak istiyorum

    • AI’ın verdiği bağlantılar olsa bile mutlaka tıklayıp içeriğin gerçekten doğru anlatılıp anlatılmadığını kontrol etmelisiniz

  • LLM evangelistlerinin, bu araçların böylesine gevşek performansını anında rasyonalize ettiklerinde kullanıcıların ne kadar hayal kırıklığına uğradığını fark edip etmediklerini merak ediyorum. Bu teknik bir sınırdan çok adeta “inanç” düzeyinde bir tavır gibi görünüyor. Sanki “yetkinlik” istemek bile aşırı bir talepmiş gibi sunuluyor

    • Bu evangelistlerin önemli bir kısmının, sonunda AI ile yapılmış prototipleri öne sürüp, ilgi sönünce çökecek startup kurucuları (ya da onları takip edip kendini zeki hisseden geliştiriciler) olduğunu düşünüyorum. Teknoloji sektöründe “fake-it-till-you-make-it” kültürünün bu kadar yaygın olması hayal kırıklığı yaratıyor

    • Zaten bir 'post-truth' toplumunda yaşadığımızı düşünüyorum; ne söylendiğinin doğru olup olmaması önemsiz, önemli olan yalnızca o sözün kişiye ya da kişinin desteklediği şeye güç katıp katmadığı

    • Döngüsel bir Ponzi yapısına yatırım yapmış herkes, LLM başarısızlıklarını sorgusuz savunuyor. Anlamsız token dağılımlarının “makine bilişi” olduğu yanılsamasına gerçekten inanmak istiyorlar ya da mükemmel olmasa bile çoğunlukla işe yarar diye gerekçelendiriyorlar. Bu yanılsama topluca trilyonlarca dolarlık değerlemeyi beslemek için kullanılıyor

    • Bu gerçekten yalnızca LLM’lere özgü bir sorun mu? Bence toplum genelinde “yetkinlik” uzun zamandır pek önemsenmiyor. Örneğin 5. sınıf düzeyinde bile okuyamayan öğrencilere diploma verilmesi ya da İngilizcesi yetersiz yerlere call center outsourcing yapılması gibi örneklerde bunu görüyoruz

    • Kısmen katılıyorum ama son dönemde tartışmanın sürekli haber medyasını eleştirmeye ya da başka yönlere kaydırıldığını hissediyorum. Bu araştırma sonucunda da oldukça şüpheli noktalar var. Makale değil, ücretli sipariş usulü bir Ipsos çalışması olduğu için çıtanın neden bu kadar düşük tutulduğunu anlamıyorum. En azından hangi modellerin kullanıldığı, search R@k değerleri, BLEU/ROUGE gibi özet doğruluğu metrikleri ve insan değerlendirme ölçütleri verilmeliydi. Eğer bunlar da yoksa, bu sonuçların alan içinde de dışında da hiçbir değeri yok bence

  • PDF’in 10. sayfasından itibaren somut hata örnekleri var: BBC resmi raporu
    Örnek: ChatGPT, “European Union Enlargement Goals for 2040” adlı var olmayan bir Wikipedia maddesini kaynak göstermiş. AB’de bu isimde bir politika yok. Sadece sahte bir URL değil, AB hedefleri ve politikaları da uydurmuş

    • Aslında bu madde eskiden vardı ama silinme sürecine girdiğine dair kayıt bulunuyor: silme tartışması kaydı. Bunun bile kontrol edilmemesi ya da belirtilmemesi bence oldukça büyük bir eksiklik. Hatta kasıtlı olup olmadığından şüpheleniyorum
  • Toplantıların, e-postaların ya da iletişimin özetini LLM’lere bırakırsanız, kişinin gerçek mesajı alamayacağını her zaman akılda tutmak gerekir

    • Bu bana korkutucu geliyor. Mesele sadece düşünmeyi devretmek değil; onu ikame edebilecek tek aracı da kişinin kendi eliyle bozması anlamına geliyor. Benzer bir deneyim yaşadım: geçmişi net olmayan bir belge düzenleme kaydını AI’a bırakmayı düşündüm ama vaktim olmadığı için vazgeçtim. Yapmış olsaydım çok ikna edici bir kayıt çıkardı ama gerçekte neyin değiştiğini göstermek şöyle dursun, muhtemelen tam ters yönde çarpıtılmış bir içeriği kabul etmiş olacaktım. Bu, bilgi eksikliği değil; onun tersi olan yanlış bilgi, yani anti knowledge üretmek demek

    • Eğer bu doğruysa önemli bir uyarı olurdu ama benim gerçek deneyimim farklı. Her gün satış toplantıları yapıyorum ve çeşitli AI özet araçlarından toplantı dökümleri alıyorum. CRM’de saklanan özetleri kontrol ettiğimde neredeyse her zaman çok doğru olduklarını gördüm. Toplantılara bizzat katıldığım için doğrulayabiliyordum

    • Biz de aylardır toplantılarda MS Copilot kullanıyoruz; kimin ne söylediğini ve kimin ne iş üstlendiğini çok iyi özetliyor. Son derece kullanışlı ve benim deneyimime göre açıklığı da yüksek

  • Kagi News’ın oldukça doğru olduğunu düşünüyorum. Kaynak metni ya da önemli detayları da özetle birlikte veriyor. AI özetleri, o haberi doğrudan okuyup okumamaya karar vermek için faydalı. Yine de önemli gerçekleri mutlaka kendim tekrar kontrol ediyorum

    • Doğrulamanın nereye kadar mümkün olduğu da ayrı bir soru. Sonuçta özetin doğru olup olmadığını anlamak için olay yerine gidip bizzat haber yapmak ya da her alanın makalelerini ve referanslarını okumak gerekebilir; yani bir noktada güven unsuru kaçınılmaz olarak devreye giriyor

    • Ben de benzer bir proje yaptım ve deneyimim oldu; RSS haberlerini özetleme işinde oldukça iyi sonuçlar aldım. Özellikle "reasoning" odaklı modeller kullanıldığında sonuçlar çok daha iyiydi

    • Kagi News, birden çok haber metnini bağlama koyup özetliyor. Bu, özgün gönderideki “LLM’ye web aramasıyla haber sağlama” yaklaşımından farklı bir yapı

    • Böyle bir hizmet de var: rawdiary.com

    • Kagi News’a katılıyorum ama Particle News da iyiydi. Ancak Particle News, The Atlantic’ten yatırım aldıktan sonra o medya kuruluşunun haberlerine “Featured Article” alanı vermeye başladı; önyargıyı ayırt etmeye yarayan grafik işaretler olsa da bu Featured Article’larda uygulanmıyor. Başka yatırımcılar için de benzer durumlar olabilir ama Atlantic ile ilgili promosyon nispeten yeni bir örnek

  • Raporda yalnızca ChatGPT, Copilot, Perplexity ve Gemini’nin ücretsiz/consumer sürümlerinin kullanıldığı açıkça belirtiliyor. Copilot, ChatGPT modelini kullanıyor; Grok ve diğerleri ise zaten teste hiç dahil edilmemiş demek bu

  • DeepSeek V3’ü otomatik kripto haber analizi için kullanıyorum ve en son doğruluk raporunda %98,5 gibi bir sayı elde ettim. Bu yüzden bu haberdeki sonuç biraz şaşırtıcı geliyor
    benim doğruluk raporum

  • Haberde yer alan soruların yarısı politik olarak hassas konular. İlginç ama yapay zekanın daha az kışkırtıcı genel haberlerde nasıl performans göstereceğini değerlendirmek için daha genel amaçlı sorular da gerekirdi diye düşünüyorum. Bazı sorular hızlı yanıttan ziyade derin araştırma moduna daha uygun. Gerçek haberlerde de çoğu zaman cevabın kendisi görüşlerle dolu oluyor