AI sohbet botlarına sahte bir hastalık soruldu… “Gerçek bir hastalık” diye yanıt verdiler
(nature.com)İsveçli bir araştırmacı, tamamen uydurma bir hastalık olan **"Bixonimania"**yı oluşturup AI sohbet botlarının bunu gerçek bir hastalık gibi sunup sunmadığını test etti. Sonuçlar sarsıcıydı. ChatGPT, Google Gemini, Microsoft Copilot ve Perplexity dahil başlıca AI sistemlerinin tamamı bu sahte hastalığı gerçekmiş gibi açıkladı; hatta sahte bir makalenin gerçek bir akademik dergide alıntılanmasına kadar varan bir durum yaşandı.
Deneyin ayrıntıları
Göteborg Üniversitesi'nden tıp araştırmacısı Almira Osmanovic Thunström, büyük dil modellerinin (LLM) yanlış bilgileri alıp güvenilir sağlık bilgisiymiş gibi sunup sunmadığını doğrulamak için bu deneyi tasarladı.
"Bixonimania" adını özellikle seçti; bir göz hastalığına psikiyatride kullanılan "mania" terimini eklemenin, herhangi bir sağlık uzmanına tuhaf gelecek bir kombinasyon olduğunu ve bu yüzden bilerek gülünç bir isim seçtiğini söyledi.
2024'ün Nisan-Mayıs aylarında, AI ile üretilmiş bir fotoğrafı profil olarak kullanan kurgusal araştırmacı "Lazljiv Izgubljenovic" adına iki sahte preprint'i akademik sosyal ağ SciProfiles'a yükledi.
Makalelerin içine sahte olduklarını gösteren ipuçları da çeşitli yerlere gizlenmişti. Teşekkür bölümünde "USS Enterprise gemisindeki laboratuvar", "Starfleet Academy" ve "Yüzüklerin Efendisi Üniversitesi"ne teşekkür ediliyordu; metin içinde ise "bu makalenin tamamı uydurmadır" ifadesi de yer alıyordu.
AI'ların tepkisi
Sahte bilgi yayımlandıktan sadece birkaç gün sonra, başlıca AI sohbet botları Bixonimania'yı gerçek bir hastalık gibi açıklamaya başladı. 13 Nisan 2024'te Microsoft Copilot bunu "ilginç ve nadir bir rahatsızlık" olarak tanımladı; aynı gün Google Gemini ise "mavi ışığa aşırı maruz kalmanın neden olduğu bir hastalık" diyerek göz doktoruna gidilmesini önerdi. Perplexity ise 90 bin kişide 1 görülme sıklığı gibi bir prevalans oranı bile verdi.
Mart 2026'da da durum önemli ölçüde düzelmemişti. Microsoft Copilot, "henüz yaygın kabul gören bir tanı adı değil, ancak mavi ışığa maruz kalmayla ilişkili iyi huylu bir hastalık olarak bildiriliyor" diye yanıt verdi; Perplexity ise bunu "yeni ortaya çıkan bir terim" olarak niteledi.
Daha ciddi sorun: akademik dergilerin kirlenmesi
Bu sahte makale gerçek akademik dergilerde de alıntılandı. Hindistan'daki bir araştırma ekibi, Springer Nature bünyesindeki Cureus dergisinde yayımlanan bir makalede Bixonimania'dan "mavi ışıkla ilişkili yeni bir periorbital hiperpigmentasyon türü" diye söz ederek bunu gerçekmiş gibi alıntıladı. Söz konusu makale, Nature'ın sorusunun ardından 30 Mart 2026'da geri çekildi.
UCL'de sağlık bilgisindeki yanlış bilgi üzerine çalışan araştırmacı Alex Ruani, bu deneyi "yanlış ve dezenformasyonun nasıl işlediğine dair ders kitabı niteliğinde bir örnek" olarak değerlendirdi ve "yalnızca AI değil, sahte araştırmayı alıntılayan insan araştırmacılar da kandı; bu nedenle güvenimizi altın gibi korumamız gerekiyor" uyarısında bulundu.
Bu neden oluyor?
Harvard Tıp Fakültesi'nden AI ve sağlık uzmanı Mahmud Omar'ın araştırmasına göre, LLM'ler sosyal medya gönderilerine kıyasla hastane taburcu kayıtları ya da klinik makaleler gibi profesyonel biçimde yapılandırılmış metinleri işlerken daha fazla yanlış bilgi üretme ve bunu ayrıntılandırma eğilimi gösteriyor. Ona göre, "Metin bir doktorun yazısı gibi göründükçe halüsinasyon oranı yükseliyor."
Şirketlerin açıklamaları
- OpenAI: "Şu anda ChatGPT'yi çalıştıran modelde tıbbi bilginin doğruluğu önemli ölçüde iyileşti ve önceki model tabanlı araştırma sonuçları mevcut kullanıcı deneyiminden farklıdır"
- Google: "Bu sonuçlar ilk modellerin sınırlamalarını yansıtıyor ve hassas tıbbi bilgilerde uzman görüşü alınmasını öneriyoruz"
- Perplexity: "Doğruluk temel güçlü yönlerimizden biri, ancak %100 doğruluk iddiasında bulunmuyoruz"
- Microsoft: resmî bir yanıt yok
Çıkarım
Bu deney, AI sohbet botlarının tıbbi bilgi sağlayıcısı olarak hızla yerleştiği bir ortamda, kötü tasarlanmış tek bir bilginin AI aracılığıyla ne kadar hızlı yayılabileceğini çarpıcı biçimde gösteriyor. AI'ın ürettiği tıbbi bilgileri eleştirel süzgeçten geçirmeden kabul etmek yerine, güvenilir kaynakları doğrudan doğrulama alışkanlığı her zamankinden daha önemli hale geliyor.
Orijinal metin: Nature, 2026.04.07
4 yorum
Bu bana Park Moon-seong'un Slekovich olayını hatırlattı
Kaynağın otoriter ya da güvenilir olup olmadığını değerlendirme süreci vardır diye düşünüyorum ama buna rağmen yine de zayıf görünüyor.
Anthropic'in neden dışarıda bırakıldığını merak ediyorum ''
Yapay zekayı anlarım da, Hindistan’daki araştırma ekibi bunu hiç okumamış mı?