- ChatGPT o1 ve Gemini 2.5 üzerinde halüsinasyon tetikleme yöntemlerini denerken o3 yayınlandı
- o3, o1'den farklı olarak internet araması, görüntü tanıma ve kod çalıştırma gibi özelliklere sahip güçlü bir çok modlu model. Ancak bir insanın muhtemelen vermeyeceği türden yanlış yanıtlar verdiği görüldü
- Temel varsayım: LLM'lerin insanlardan farklı olarak duyu organları yok. Bu nedenle görme ya da yön duygusu gibi bilgilerin gerektiği sorularda zayıf olabilirler
- Halüsinasyon tetikleyen sorular
- Van Gogh'un 'Patates Yiyenler' tablosunu betimlemek
- Kişi kompozisyonunu bile yanlış anlatan o1'e göre daha iyi olsa da ayrıntılı betimlemede hâlâ hatalar var
- Mozart'ın Piyano Sonatı K545'in melodisinin nota adlarını söylemek
- İnternet aramasıyla özgün görseli bulmasına rağmen doğru yanıt veremiyor
- Görsel modülün nota yazısını tanımadığı anlaşılıyor
- Yürüyerek yol tarifi sonucu
- Arama sonuçlarında Naver Harita yer almasına rağmen yanlış yanıt veriyor
- Korece-İngilizce klavye geçiş sorunu (ör.: cotwlvlxl -> ChatGPT)
- Girdi küçükken iyi yanıt verirken, boyut büyüyünce uydurma yanıtlar üretmeye başlıyor
- Sanki problemi çözerken "artık boşver" deyip kaçıyormuş gibi görünüyor
- Geleneksel algoritmalarda böyle bir "boşver anı" yoktur; sadece uzun süre çalışıp sonunda timeout olur
- Sonuç
- Gerçek anlamda duyu organlarına sahip olmamak, LLM'ler için hâlâ geçerli bir zayıflık
- Bir problemi çözememek kusur değil; asıl kusur, yanlış yanıtlar uydurmak
- Geliştiricilerin akıl yürütme yeteneğini güçlendirmeye ve yeni özelliklere odaklanmak yerine, bilmediğinde bilmediğini söyleyebilen bir üstbiliş kazandırması isteniyor
Henüz yorum yok.