Yapay zeka yanıtları hata içerebilir

(os2museum.com)

2 puan yazan GN⁺ 2025-06-02 | 2 yorum | WhatsApp'ta paylaş

Yapay zeka arama özetleri her zaman doğru değildir
PS/2 Model 280 hakkında farklı bilgiler, tekrar eden sorgulamalarda her seferinde farklı biçimde verildi
Var olmayan model numaralarını bile kulağa inandırıcı gelecek şekilde açıklayan yapay zeka halüsinasyonu sorunu ortaya çıkıyor
Doğru yanıtın çıkma olasılığı çok düşük seviyede
Uzman olmayanların yanlış bilgiyi kolayca gerçek sanma riski yüksektir

Yapay zeka arama özetlerinin güvenilirlik sorunu deneyimi

IBM PS/2 modelini arama denemesi

1992'de piyasaya sürülen belirli bir PS/2 Server sistem modelini bulmak için Google'da arama yapıldı
Arama sonuçlarında çıkan bilgiler aranan makineyle eşleşmedi; asıl modelin ise 486 işlemciler ve Microchannel (MCA) kullanma özellikleri vardı

Tekrarlanan sonuçlar ve yanıtların tutarsızlığı

Aynı sorgu yeniden çalıştırılmasına rağmen yapay zeka özet sonuçları her seferinde farklı çıktı
Örneğin sürekli olarak PS/2 Model 280'in 286 tabanlı bir ISA sistemi olduğu iddiası tekrarlandı
Her bir yanıtta RAM kapasitesi ve teknik özellikler bile değişti; böylece tutarsız veri sunumu görüldü

Var olmayan bir model hakkında halüsinatif açıklama

Birden çok sorgu sonucunda, 286 sistemin 128MB'a kadar genişletilebildiği iddiası gibi teknik olarak imkânsız bilgiler de üretildi
PS/2 Model 280'in IBM PC ürün ailesinin önemli bir gelişimi olduğu yönünde ek açıklamalar da ortaya çıktı
Gerçekte PS/2 Model 280 diye bir model hiç yokken, yapay zeka dayanağı olmayan açıklamaları oldukça inandırıcı biçimde sundu

Doğru yanıtların düşük sıklığı

Ancak birçok sorgu denemesinden sonra ara sıra “Model 280, gerçek PS/2 serisinde mevcut değildir” şeklinde doğru bir yanıt geldi
Doğru yanıtın görünme oranı çok düşüktü ve çoğu durumda yapay zeka temelsiz bilgiler uydurdu
Halüsinasyon içeren yanıtlar bilgi olarak değersizdir ve hatta yanlış bir güven duygusu verir

Yapay zeka arama özetlerine körü körüne güvenmeye karşı uyarı

Yapay zeka tabanlı internet araması, uzman olmayanlara oldukça inandırıcı görünebilir
Uzmanlar hatayı hızla fark edebilir; ancak bilgiyi doğrulama becerisi zayıf kullanıcılar açısından sahte bilgiye kolayca kanmak mümkündür
Yapay zekanın “hata yapabilir” uyarısı asla hafife alınmamalıdır; güvenilir bir doğrulama süreci olmadan yapay zeka yanıtlarına dayanmak tehlikelidir
İkna edici duyulması, bunun gerçekten olgulara dayandığı anlamına gelmez vurgusu yapılıyor
Yapay zeka tabanlı özetler veya arama sonuçları için her zaman şüphe ve doğrulama gerekliliği hatırlatılıyor

2 yorum

ndrgrd 2025-06-03

Bence LLM'e sadece özet çıkarttırmak daha iyi. Verinin kaynağını bulma ve doğrulama süreci mutlaka gerekli.

GN⁺ 2025-06-02

Hacker News görüşü

Google Gemini'nin, arama sonuçları soruya uyuyormuş gibi görünmesi için rastgele cevaplar uydurma eğiliminden bahsediliyor; bağlamı ve doğruluğu önemsemediği eleştiriliyor. Yalnızca sonucu zaten tahmin ediyorsanız hafıza desteği olarak kullanılabilir, aksi halde hiç güvenilemez diyen bir deneyim paylaşılıyor. Google Veo sonuçlarının da çok fazla açığı olduğu, AI çıktılarında mantık ya da akıl yürütme bulunmadığının bariz şekilde ortaya çıktığı söyleniyor. Veo'nun alakasız sonuç üretmesine örnekler ve Tesla FSD'nin garip davranışlar sergilediği bir kaza haberi de paylaşılıyor
AI video gerçekçiliği
Tesla FSD kaza haberi
- Bu kalitedeki sonuçların fark edilmeden "normal" ve "kabul edilebilir" sayılmaya başlaması çok endişe verici bulunuyor; eskiden asla tolere edilmeyecek şeylerin neden şimdi giderek kabul gördüğü sorgulanıyor.
- Otomobille ilgili bir özellik aranırken, eski Google Arama'nın bu tür sorguları gerçekten iyi işlediği; ancak artık sonuçların %90'ının yanlış model yılı, model ve marka bilgilerinin karıştığı AI çıktılarıyla dolduğu anlatılıyor. Biraz işe yarayan tek şeyin bir YouTube videosu olduğu, sayfanın en altında ise eski bir araba forumunda doğru cevabın bulunduğu ve bu yüzden CamaroZ28.com'a teşekkür edildiği söyleniyor.
- Bunun, tüm teknolojiler içinde en afallatıcı gelişmelerden biri olduğu; Google'ın kendi çekirdek işini bu kadar ciddi kusurları olan bir teknoloji yön değişimine bağlamasının anlaşılmaz olduğu ifade ediliyor. Ben Evans gibi isimlerin "daha iyi olacak" vaadinin boş söz olduğu düşünülüyor. Örnek olarak, dün Almanya'da düzenlenen bir anma etkinliği arandığında AI Overview'in çoktan ölmüş bir İtalyan müzisyenin adını alıp konser mekânını o müzisyenin başyapıtıymış gibi uydurduğu bir vaka paylaşılıyor. Bu cevap ChatGPT'ye yapıştırıldığında, AI Overview'in hatasıyla alay eden nazik ama keskin bir yanıt gelmesinin komik bulunduğu anlatılıyor.
- AI'nin yüzeyde tarihte görülmemiş kadar zeki görünmeye çalışırken, iç mantık ya da akıl yürütme açısından bunu taşıyamadığı ve tuhaf bir "uncanny valley" hissi yarattığı söyleniyor.
- Açıkçası LLM'leri arama yerine kullananların bunu nasıl yaptığını anlamadığını söyleyenler var; chatbot'ların hep istenen bilginin bitişiğindeki veriyi verdiği, örneğin kaynak istenince sadece alıntı sunduğu, bu yüzden belki de aramayı kendilerinin yanlış kullandığını sorguladıkları belirtiliyor.
LLM'lerin sınırlarını ve olasılıksal doğasını bilen biri olarak, aile ya da arkadaş çevresinde insanların LLM'lere güvenip uygunsuz işlerde kullandığını görmenin kendisini yalnız bir AI şüphecisi gibi hissettirdiği söyleniyor. İnsanların AI'ye sayı bölme, örneğin hesap bölüşme gibi işleri bile yaptırdığı ve LLM çıktısına koşulsuz güvendiği belirtiliyor.
- Bunun, düşük teknolojili bir sorunu yüksek teknolojiyle çözmeye çalışmanın klasik bir örneği olduğu; basit sayı hesaplarını bile mutlaka makineye yaptırma eğilimiyle alay ediliyor.
- Günlük kullanımda sonuçların çoğu zaman "yeterince" doğru çıkmasının, insanları alışkanlıkla bağımlı hale getiren asıl zor kısım olduğu söyleniyor.
- Basit hesapları LLM'e yaptırmanın aslında epey komik olduğu, isterse değişkenler için Python yazdırsın diye şaka yapılıyor.
- LLM kullanmanın, kapalı alanda sigara içmek gibi, çevreye de zarar veren bir şey olduğuna dair bir benzetme yapılıyor.
- "AI'ye hesap yaptırıp bilgi bulduruyorsun ve sonucu %100 güvenle kabul ediyorsun" denmesine karşılık, aslında bu kadar basit mekanik işlerde bugünün chatbot'larının zaten doğru sonuç vermesi gerekmez mi diye soruluyor. Pek çok işlevi aynı anda halledebildiği için neden duruma göre ayrı ayrı uygulama değiştirmek gerektiği sorgulanıyor; sonuçta en güçlü itici gücün kullanılabilirlik olduğu savunuluyor.
"AI cevaplarında hata olabilir" gibi kısa bir ibarenin ya da ChatGPT altındaki uyarının artık yetersiz kaldığı belirtiliyor. LLM halüsinasyonları konusunda yıllardır uyarı yapılmasına rağmen insanların hâlâ hata yapmaya devam ettiği, bu yüzden LLM sağlayıcılarının kullanıcılara sınırları daha agresif biçimde öğretmesi gerektiği savunuluyor; kullanıcı deneyiminde rahatsızlık yaratsa bile bunun gerekli olduğu düşünülüyor.
- Bu tartışmada yapılabileceklerin ya model sağlayıcılarına sorumluluk yüklemek ya da mevcut sınırlı ön uyarı sistemini sürdürmek olduğu söyleniyor. Zaten AI modelleri ve bulut servislerinde çok katmanlı filtreleme ve sansür bulunduğu, bundan daha fazla sürtünmenin en fazla birkaç popup eklemek olacağı belirtiliyor. Sorumluluk model sağlayıcısına yüklenmeye başlanırsa açık model işinin imkânsız hale geleceği, şirketlerin sadece kendi aralarında lisans anlaşmalarıyla kullanacağı ve kamuya açık API sunmanın mümkün olmayacağı; ancak ileride ortam değişirse kısıtların yavaşça gevşeyebileceği öngörülüyor.
- "Kullanıcı eğitimi daha etkili olmalı" görüşüne karşı, bunun ancak insanların yaşayarak öğreneceği bir mesele olduğu, hiçbir uyarı metninin gerçek zarar yaşatmanın etkisi kadar güçlü olamayacağı söyleniyor.
- LLM'lerin özünde insan bilgi emeğinin yerine geçme iddiasıyla sunulduğu için sağlayıcıların sınırları aktif şekilde vurgulayamayacağı; bunun da Anthropic CEO'su gibi isimlerin kitlesel işsizliğin kaçınılmaz olduğunu defalarca söylemesiyle çeliştiği ifade ediliyor.
- Eskiden Apple Haritalar ve Google Haritalar yanlış yönlendirmeler yüzünden PR krizi yaşarken, bugün yalnızca bir uyarı cümlesi ekleyip sorun yokmuş gibi davranıldığı; yeni teknolojilere fazla hoşgörü gösterilmesinin hayal kırıklığı yarattığı söyleniyor.
- Uyarının sayfanın en üstünde, büyük kırmızı yazıyla görünmesi gerektiği özellikle vurgulanıyor.
Dil modellerinin bilgiyi "bilmek" için değil, "konuşmak" için tasarlandığı açıklanıyor; bu yüzden onlara "knowledge model" değil "language model" deniyor. Zaten üretilmiş sözcüklerin arkasından hangi sözcüğün gelme olasılığı yüksekse onu eklemekten ibaret oldukları, her seferinde farklı sonuç vermelerinin nedeninin de içte bir pseudo-random sayı üretecine dayanan olasılık dağılımı olduğu söyleniyor. Sıcaklık değeri 0 yapılınca rastgeleliğin ortadan kalktığı ve sistemin hep en yüksek olasılıklı kelimeyi seçtiği, ama bu durumda da sonucun çok sıkıcı olduğu belirtiliyor. IBM, PS/2, 80286, 80486 gibi konularda gerçekten bir şey bildiği için değil, sadece sözcük dizilimi yaptığı savunuluyor.
- Sıcaklık 0 olduğunda bile yerel modellerin gayet iyi çalıştığı deneyimi paylaşılıyor; bulut tabanlı arayüzlerde 0'ın engellenmesinin, modelin sonsuz tekrar döngüsüne girdiği hataları halkın görmesini engelleme amacı taşıdığı söyleniyor.
- Dil modelinin "bilgi" sağlamayıp yalnızca söz üretmesi tespitine katılınsa da, Google kullanan birinin oraya sohbet etmek için değil gerçek "bilgi" almak için gittiği; Google'ın güvenilir bilgi sağlamayı sadece "kelime üretimi" ile değiştirmeye çalışmasının temel bir hata olduğu düşünülüyor. Ancak amaç reklam geliri olduğu için bunun pratikte onları pek ilgilendirmeyebileceği de ekleniyor.
Google Arama sayfasında bile "AI cevaplarında hata olabilir" uyarısının "daha fazla göster" düğmesinin altında saklandığı eleştiriliyor. OpenAI ChatGPT ilk çıktığında, alan dışı bir profesöre bugünkü AI'nin "gerçek AI" değil, hesaplamaya dayalı bir tür söz cambazlığına yakın olduğunu anlatma deneyimi paylaşılıyor. Ancak bu "numaranın" ödev kopyalamada şaşırtıcı derecede etkili olduğu; genel olarak kalite ya da telif dert edilmiyorsa sadece ödevde değil birçok işte "hile" için çok kullanışlı bir araç izlenimi verdiği söyleniyor.
- "Sadece dışarıdan kod yazabiliyormuş gibi görünüyor ama aslında yazamıyor" görüşüne şüpheyle yaklaşılıyor; gerçekte kod da yazabildiği, arka planda ne olduğu konusunda insan beyninde de kimsenin tam bilgi sahibi olmadığı, bu tür öz tartışmaların çok anlamlı olmayıp asıl önemli olanın sonuç olduğu savunuluyor.
- Bunun esnek giriş/çıkış arayüzüne sahip bir hafıza desteği / bilgi erişim aracı olarak değerlendirildiği pratik bir bakış açısı da sunuluyor.
Gemini'nin, insanların sık sorduğu soru türlerinde optimize edildiği; buna karşılık daha geleneksel arama niyetlerinde uydurma ve yönlendirici cevaplar verme eğiliminde olduğu söyleniyor. Birçok insanın AI Overview'e bir kâhin gibi güvendiğinin görüldüğü, genel halkın AI deneyiminin esasen bu olduğu ifade ediliyor. "Haber"e duyulan güvenden farklı olarak AI'ye yaş ya da demografi fark etmeksizin herkesin güvenebildiği; özünde insanların temelsiz özgüven taşıyan bilgisayar cevaplarını seviyor olabileceği düşünülüyor.
- Google'ın arama deneyimindeki değişimin özellikle ağır olduğu belirtiliyor. Eskiden sayfanın üstündeki excerpt arayüzünün 10 yıldan uzun süredir kullanıldığı, güvenilir sitelerden alıntı yaptığı, tıklama sayısını azalttığı ve güvenilir bir bilgi kaynağı olduğu hatırlatılıyor. Tıbbi sorularda Mayo Clinic gibi kaynaklardan yapılan alıntıların doğrudan sayfada bulunabildiği ve bunun güven yarattığı söyleniyor. Zamanla bu güven sisteminin SEO tarafından aşındırıldığı, bugün asıl sorunun bunun yerine özünde bambaşka bir sistem olan AI Overview'in geçmiş olması olduğu; canlı olarak doğrulanabilen güvenilir kaynak döneminden çok net bir kopuş yaşandığı vurgulanıyor.
- Sadece LLM kullanmayanların değil, LLM'i profesyonel olarak kullanan bir yöneticinin bile kendi fikrini doğrulayan cevabı alana kadar soruyu değiştirip istediği cevabı aradığı anlatılıyor.
- İnsanların temelsiz bir kesinlik taşıyan cevapları zaten baştan sevdiğine dair temel bir psikolojik gözlem de yapılıyor.
- Artık bir şey arayıp öğrenilebilen internet ortamının kaybolduğu hissedildiği; tüm sonuçların güvenilmez SEO spam çöplüğüne dönüştüğü ve AI Overview ile bunun daha da kötüleşeceği kaygısı dile getiriliyor. "Yazıcı nasıl çalışır" diye arandığında "makara ve halat sistemi" gibi saçma bir cevabın bile yakında sorgusuz kabul edileceği bir döneme girilebileceği korkusu ifade ediliyor; gerçekten de buna benzer saçma, hatta bazen tehlikeli yanlış cevapların tekrar tekrar görüldüğü söyleniyor.
"AI cevaplarında hata olabilir" mesajının, AI tartışmalarında dinleyicilere en çok haykırmak istenen ana fikir olduğu söyleniyor. Tüm AI etik/güvenlik tartışmalarında bu noktanın ve enerji/iklim etkisinin merkezde olması gerektiği; AI çılgınlığı sürerse insanlığa en büyük zararı bu iki unsurun vereceği savunuluyor.
- Sorunun "hata olabilir" değil, "hata kesinlikle olur" olması; fakat insanların bunun farkına varmadan onu her şeyi bilen bir kâhin gibi görmesi eleştiriliyor. Oysa bunun sadece olasılıksal bir model olduğu, yeterince deneme verilirse bir maymunun da Shakespeare yazma ihtimalinin bulunduğu söyleniyor.
Google'ın aramanın özünü tamamen yanlış kavradığı eleştiriliyor; artık cevapların doğruluğu yerine hızlı özetlere ve sponsorlu bağlantılara odaklandığı söyleniyor.
- Hızlı verilen 10 cevabın 6'sının ince biçimde yanlış, 2'sinin açıkça yanlış, 1'inin ise düpedüz tehlikeli olduğu yönünde bir deneyim aktarılıyor. Gerçekten insanı yaralayabilecek ya da hukuki sorun çıkarabilecek cevaplar bulunduğu belirtiliyor.
- Eric Schmidt dönemindeki Google'ın "cevapsız kalmaktansa herhangi bir cevap daha iyidir" yaklaşımının şimdi "yanlış cevap bile hiç cevaptan iyidir" anlayışına evrildiği düşünülüyor.
AI'nin, her konuda temelsiz bir özgüvenle konuşan birine benzediği; bu yüzden ciddiyetle güvenmek için neredeyse hiçbir sebep olmadığı görüşü dile getiriliyor.
- Burada psikolojik etkenlerin kritik olduğu; insanlar birinin güvensizliğini sözsüz sinyallerden fark edebildiği hâlde, AI'de bu sinyallerin bulunmadığı ve makinelerin verdiği cevapların doğası gereği doğru olduğuna dair eski bir güvenin sürdüğü belirtiliyor. Bu yüzden eleştirel yaklaşanların oranının çok düşük olduğu söyleniyor.
- Henüz hiçbir AI şirketinin ürününe "Cliff Clavin" adını verecek kadar cesur olmadığı söylenerek, itibar riski ve başka tür cesaret eksiklikleri üzerine şaka yapılıyor.
- "İnsanlar AI'ye nasıl bu kadar içten güvenebiliyor anlamıyorum" iddiasına karşı, on yıllardır dünyanın bilgisini sunmayı ve doğru cevap vermeyi hedeflediğini söyleyen Google gibi bir şirket bunu artık AI ile sunuyorsa insanların güvenmesinin gayet doğal olduğu karşılığı veriliyor.
Yakın zamanda ChatGPT ve Python koduyla ilgili bir deneyim aktarılıyor: Gunicorn'un logger class'ını belirli URL path'lerinde devre dışı bırakmak için elle üç çözüm hazırlanıp hangisinin daha hızlı olduğunun kıyaslanması chatbota soruluyor. Benchmark koduyla birlikte regex'in en hızlı olduğu sonucu geliyor; ancak doğrudan çalıştırıldığında tuple yönteminin 5 kattan fazla daha hızlı olduğu görülüyor. Bu sonuç chatbota iletilince, "haber verdiğin için teşekkürler, doğru olan tuple yöntemi" diyerek cevabını hemen düzeltiyor. Gerekli benchmark kodunu hızla vererek zaman kazandırsa da, doğru cevaptan emin olunmayan alanlarda chatbot sonuçlarına güvenin azalmasına yol açtığı söyleniyor.