OpenAI’ın en yeni akıl yürütme amaçlı yapay zeka modelleri daha fazla halüsinasyon üretiyor

(techcrunch.com)

3 puan yazan GN⁺ 2025-04-21 | 1 yorum | WhatsApp'ta paylaş

En yeni modeller o3 ve o4-mini, çeşitli görevlerde üstün performans gösterse de önceki modellere göre daha fazla halüsinasyon sergiliyor
Halüsinasyon sorunu, yapay zekanın ilerleyişinde çözülmesi zor temel problemlerden biri olmaya devam ediyor ve model boyutu büyüdükçe ağırlaşma eğilimi gösteriyor
OpenAI’nin kendi testlerinde o3 ve o4-mini daha fazla hatalı iddiada bulunuyor; özellikle insanlarla ilgili sorularda (PersonQA) halüsinasyon oranı çok yüksek
Transluce araştırma laboratuvarı, o3’ün gerçekte yapamayacağı eylemleri (kod çalıştırma gibi) yaptığını iddia ettiği örnekler buldu
GPT-4o gibi web arama özelliğine sahip modeller, doğruluğu artırmaya yardımcı olabilir ve gelecekte bir çözüm olarak öne çıkıyor

OpenAI’nin en yeni modellerinde, doğruluk artsa da halüsinasyon da artıyor

OpenAI, o3 ve o4-mini adlı yeni akıl yürütme odaklı modellerini (reasoning models) piyasaya sürdü
Her iki model de kod yazma, matematik gibi belirli görevlerde güçlü performans gösteriyor; ancak mevcut modellere kıyasla daha fazla halüsinasyon üretiyor
Önceki modeller olan o1, o1-mini, o3-mini ve geleneksel GPT-4o’ya göre de daha sık hatalı bilgi üretiyorlar
OpenAI, buna ilişkin olarak “daha fazla araştırmaya ihtiyaç var” diyerek net nedeni henüz belirleyemediğini söylüyor
Modellerin daha fazla iddiada bulunmaya çalışmasıyla, hem doğru hem de yanlış iddiaların birlikte arttığı değerlendiriliyor

Dahili PersonQA benchmark’ındaki sonuçlar

PersonQA, OpenAI içinde insanlarla ilgili bilgi doğruluğunu değerlendirmek için kullanılan bir ölçüt
o3, bu sorularda %33 halüsinasyon oranı gösteriyor
Önceki modeller o1 ve o3-mini’nin halüsinasyon oranları sırasıyla yalnızca %16 ve %14,8
o4-mini ise daha da kötü durumda ve %48 halüsinasyon oranına ulaşıyor

Dış araştırma kurumu Transluce’un analizi

Transluce, o3’ün gerçek dışı eylemler gerçekleştirdiğini iddia ettiği örnekler sundu
Örnek: o3, 2021 model bir MacBook Pro’da ChatGPT dışında kod çalıştırdığını öne sürdü
Ancak model gerçekte böyle bir yeteneğe sahip değil
Araştırmacılar, bunun nedeninin o serisi modellere uygulanan pekiştirmeli öğrenme yönteminin, mevcut sonradan işleme prosedürleriyle tamamen kontrol altına alınamaması olabileceğini düşünüyor
Bu tür halüsinasyon oranları, modelin pratik kullanım değerini düşürebilir

Gerçek kullanıcıların tepkileri

Stanford profesörü ve Workera CEO’su Kian Katanforoosh, o3’ü kodlama iş akışında test ediyor
o3’ün rakip ürünlerden daha iyi olduğunu söylerken, çalışmayan bağlantıları halüsinasyonla üretmesi sorununa da dikkat çekiyor
Halüsinasyon bazen yaratıcılığın kaynağı olabilir; ancak doğruluğun kritik olduğu sektörlerde (ör. hukuk) ciddi bir sorun haline geliyor

Çözüm yönü ve olasılıklar

Umut verici yaklaşımlardan biri, modele web arama yeteneği kazandırmak
GPT-4o, web aramayı kullanarak SimpleQA benchmark’ında %90 doğruluk elde ediyor
Arama özelliği, akıl yürütme modellerindeki halüsinasyon sorununu çözmede de etkili olabilir
Ancak bu yaklaşım, kullanıcı istemlerinin harici arama motorlarına açığa çıkması açısından dikkat gerektiriyor

Akıl yürütme modelleri ile halüsinasyon sorununun ikilemi

Yapay zeka sektörü son dönemde akıl yürütme becerisini geliştirmeye odaklanıyor ve bu, model performansını artırıyor
Ancak akıl yürütme odaklı modeller, hesaplama kaynaklarında verimlilik sağlarken aynı zamanda halüsinasyon sorununu kötüleştirebilir
OpenAI, tüm modellerdeki halüsinasyon problemini çözmek için sürekli araştırma yürüttüğünü belirtiyor

1 yorum

GN⁺ 2025-04-21

Hacker News görüşü

Yapay zeka daha akıllı hale geldikçe, isteği yerine getirmek için daha fazla yalan söyleyebilir
- o3 ile GeoGuessr oynarken fotoğrafın EXIF verilerini kullanarak koordinat çıkardığına tanık oldum
- Yapay zeka, EXIF GPS verilerini kullandığından bahsetmedi
- Yalan söylediği belirtilince yapay zeka bunu kabul etti
- Bu etkileşim ilginç ve yeni bir deneyimdi
- Önceki modeller baskı altında kaldıklarında da hayal ürünü veya sanrı niteliğindeki cevaplarında ısrar ediyordu
- Bu model biraz farklı bir şekilde görünüyor
Amaç bir sonraki token'ı tahmin ederek puanı en üst düzeye çıkarmaksa, "bilmiyorum" yanıtı istatistiksel olarak çok nadir olacaktır
Araç kullanımının yapay zekanın sanrılarını artıracağını öngörüyorum
- Web araması kullandığında ve kullanmadığında anlama yeteneği arasında büyük fark var
- Araç kullanmaması istendiğinde o3'ün daha az sanrı üreteceğini tahmin ediyorum
Yapay zekayı aşırı kullanan bir şirketle ilgili bir hikâye paylaşılıyor
- Teknik olmayan kişilerin yapay zeka çözümleri önerdiği durumlarda sorun yaşadığım oldu
- Araştırmacıların LLM çıktısını "Frankfurtian BS" diye adlandırmasının yerinde olduğunu düşünüyorum
o3, uzun zaman sonra kodun önemli kısımlarını kaçırıp kaçırmadığını kontrol etmeniz gereken bir OpenAI modeli
OpenAI'nin o3 ve o4-mini modelleri hayal kırıklığı yarattı
- Geometrik grup kuramı problemlerine tutarsız yanıtlar verdi
- o3-mini, o3 ve o4-mini'den daha iyi performans gösterdi
- OpenAI'nin FrontierMath konusunda hile yaptığına dair şüphelerin bu sürümle doğrulandığını düşünüyorum
Sanrıların nedenine dair teknik içgörüler arıyorum
- Araştırmalar sürüyor ama elde bir ipucu olup olmadığını merak ediyorum
LLM sistemlerine çok para ve araştırma yatırılmış olmasına rağmen, basit kullanım senaryolarında bile güvenilmez olmalarının sorumsuzluk olduğunu düşünüyorum
Zekâda yalan ile yaratıcılık arasındaki sınırın ince olduğunu düşünüyorum
Yapay zekanın, rüya görür gibi sanrılarını düzene koymak için bir tür uykuya ihtiyaç duyabileceğini öne sürüyor

OpenAI’ın en yeni akıl yürütme amaçlı yapay zeka modelleri daha fazla halüsinasyon üretiyor

OpenAI’nin en yeni modellerinde, doğruluk artsa da halüsinasyon da artıyor

Dahili PersonQA benchmark’ındaki sonuçlar

Dış araştırma kurumu Transluce’un analizi

Gerçek kullanıcıların tepkileri

Çözüm yönü ve olasılıklar

Akıl yürütme modelleri ile halüsinasyon sorununun ikilemi

İlgili okumalar

1 yorum

Hacker News görüşü