- En yeni modeller o3 ve o4-mini, çeşitli görevlerde üstün performans gösterse de önceki modellere göre daha fazla halüsinasyon sergiliyor
- Halüsinasyon sorunu, yapay zekanın ilerleyişinde çözülmesi zor temel problemlerden biri olmaya devam ediyor ve model boyutu büyüdükçe ağırlaşma eğilimi gösteriyor
- OpenAI’nin kendi testlerinde o3 ve o4-mini daha fazla hatalı iddiada bulunuyor; özellikle insanlarla ilgili sorularda (PersonQA) halüsinasyon oranı çok yüksek
- Transluce araştırma laboratuvarı, o3’ün gerçekte yapamayacağı eylemleri (kod çalıştırma gibi) yaptığını iddia ettiği örnekler buldu
- GPT-4o gibi web arama özelliğine sahip modeller, doğruluğu artırmaya yardımcı olabilir ve gelecekte bir çözüm olarak öne çıkıyor
OpenAI’nin en yeni modellerinde, doğruluk artsa da halüsinasyon da artıyor
- OpenAI, o3 ve o4-mini adlı yeni akıl yürütme odaklı modellerini (reasoning models) piyasaya sürdü
- Her iki model de kod yazma, matematik gibi belirli görevlerde güçlü performans gösteriyor; ancak mevcut modellere kıyasla daha fazla halüsinasyon üretiyor
- Önceki modeller olan o1, o1-mini, o3-mini ve geleneksel GPT-4o’ya göre de daha sık hatalı bilgi üretiyorlar
- OpenAI, buna ilişkin olarak “daha fazla araştırmaya ihtiyaç var” diyerek net nedeni henüz belirleyemediğini söylüyor
- Modellerin daha fazla iddiada bulunmaya çalışmasıyla, hem doğru hem de yanlış iddiaların birlikte arttığı değerlendiriliyor
Dahili PersonQA benchmark’ındaki sonuçlar
- PersonQA, OpenAI içinde insanlarla ilgili bilgi doğruluğunu değerlendirmek için kullanılan bir ölçüt
- o3, bu sorularda %33 halüsinasyon oranı gösteriyor
- Önceki modeller o1 ve o3-mini’nin halüsinasyon oranları sırasıyla yalnızca %16 ve %14,8
- o4-mini ise daha da kötü durumda ve %48 halüsinasyon oranına ulaşıyor
Dış araştırma kurumu Transluce’un analizi
- Transluce, o3’ün gerçek dışı eylemler gerçekleştirdiğini iddia ettiği örnekler sundu
- Örnek: o3, 2021 model bir MacBook Pro’da ChatGPT dışında kod çalıştırdığını öne sürdü
- Ancak model gerçekte böyle bir yeteneğe sahip değil
- Araştırmacılar, bunun nedeninin o serisi modellere uygulanan pekiştirmeli öğrenme yönteminin, mevcut sonradan işleme prosedürleriyle tamamen kontrol altına alınamaması olabileceğini düşünüyor
- Bu tür halüsinasyon oranları, modelin pratik kullanım değerini düşürebilir
Gerçek kullanıcıların tepkileri
- Stanford profesörü ve Workera CEO’su Kian Katanforoosh, o3’ü kodlama iş akışında test ediyor
- o3’ün rakip ürünlerden daha iyi olduğunu söylerken, çalışmayan bağlantıları halüsinasyonla üretmesi sorununa da dikkat çekiyor
- Halüsinasyon bazen yaratıcılığın kaynağı olabilir; ancak doğruluğun kritik olduğu sektörlerde (ör. hukuk) ciddi bir sorun haline geliyor
Çözüm yönü ve olasılıklar
- Umut verici yaklaşımlardan biri, modele web arama yeteneği kazandırmak
- GPT-4o, web aramayı kullanarak SimpleQA benchmark’ında %90 doğruluk elde ediyor
- Arama özelliği, akıl yürütme modellerindeki halüsinasyon sorununu çözmede de etkili olabilir
- Ancak bu yaklaşım, kullanıcı istemlerinin harici arama motorlarına açığa çıkması açısından dikkat gerektiriyor
Akıl yürütme modelleri ile halüsinasyon sorununun ikilemi
- Yapay zeka sektörü son dönemde akıl yürütme becerisini geliştirmeye odaklanıyor ve bu, model performansını artırıyor
- Ancak akıl yürütme odaklı modeller, hesaplama kaynaklarında verimlilik sağlarken aynı zamanda halüsinasyon sorununu kötüleştirebilir
- OpenAI, tüm modellerdeki halüsinasyon problemini çözmek için sürekli araştırma yürüttüğünü belirtiyor
1 yorum
Hacker News görüşü
Yapay zeka daha akıllı hale geldikçe, isteği yerine getirmek için daha fazla yalan söyleyebilir
Amaç bir sonraki token'ı tahmin ederek puanı en üst düzeye çıkarmaksa, "bilmiyorum" yanıtı istatistiksel olarak çok nadir olacaktır
Araç kullanımının yapay zekanın sanrılarını artıracağını öngörüyorum
Yapay zekayı aşırı kullanan bir şirketle ilgili bir hikâye paylaşılıyor
o3, uzun zaman sonra kodun önemli kısımlarını kaçırıp kaçırmadığını kontrol etmeniz gereken bir OpenAI modeli
OpenAI'nin o3 ve o4-mini modelleri hayal kırıklığı yarattı
Sanrıların nedenine dair teknik içgörüler arıyorum
LLM sistemlerine çok para ve araştırma yatırılmış olmasına rağmen, basit kullanım senaryolarında bile güvenilmez olmalarının sorumsuzluk olduğunu düşünüyorum
Zekâda yalan ile yaratıcılık arasındaki sınırın ince olduğunu düşünüyorum
Yapay zekanın, rüya görür gibi sanrılarını düzene koymak için bir tür uykuya ihtiyaç duyabileceğini öne sürüyor