3 puan yazan GN⁺ 2025-04-21 | 1 yorum | WhatsApp'ta paylaş
  • En yeni modeller o3 ve o4-mini, çeşitli görevlerde üstün performans gösterse de önceki modellere göre daha fazla halüsinasyon sergiliyor
  • Halüsinasyon sorunu, yapay zekanın ilerleyişinde çözülmesi zor temel problemlerden biri olmaya devam ediyor ve model boyutu büyüdükçe ağırlaşma eğilimi gösteriyor
  • OpenAI’nin kendi testlerinde o3 ve o4-mini daha fazla hatalı iddiada bulunuyor; özellikle insanlarla ilgili sorularda (PersonQA) halüsinasyon oranı çok yüksek
  • Transluce araştırma laboratuvarı, o3’ün gerçekte yapamayacağı eylemleri (kod çalıştırma gibi) yaptığını iddia ettiği örnekler buldu
  • GPT-4o gibi web arama özelliğine sahip modeller, doğruluğu artırmaya yardımcı olabilir ve gelecekte bir çözüm olarak öne çıkıyor

OpenAI’nin en yeni modellerinde, doğruluk artsa da halüsinasyon da artıyor

  • OpenAI, o3 ve o4-mini adlı yeni akıl yürütme odaklı modellerini (reasoning models) piyasaya sürdü
  • Her iki model de kod yazma, matematik gibi belirli görevlerde güçlü performans gösteriyor; ancak mevcut modellere kıyasla daha fazla halüsinasyon üretiyor
  • Önceki modeller olan o1, o1-mini, o3-mini ve geleneksel GPT-4o’ya göre de daha sık hatalı bilgi üretiyorlar
  • OpenAI, buna ilişkin olarak “daha fazla araştırmaya ihtiyaç var” diyerek net nedeni henüz belirleyemediğini söylüyor
  • Modellerin daha fazla iddiada bulunmaya çalışmasıyla, hem doğru hem de yanlış iddiaların birlikte arttığı değerlendiriliyor

Dahili PersonQA benchmark’ındaki sonuçlar

  • PersonQA, OpenAI içinde insanlarla ilgili bilgi doğruluğunu değerlendirmek için kullanılan bir ölçüt
  • o3, bu sorularda %33 halüsinasyon oranı gösteriyor
  • Önceki modeller o1 ve o3-mini’nin halüsinasyon oranları sırasıyla yalnızca %16 ve %14,8
  • o4-mini ise daha da kötü durumda ve %48 halüsinasyon oranına ulaşıyor

Dış araştırma kurumu Transluce’un analizi

  • Transluce, o3’ün gerçek dışı eylemler gerçekleştirdiğini iddia ettiği örnekler sundu
  • Örnek: o3, 2021 model bir MacBook Pro’da ChatGPT dışında kod çalıştırdığını öne sürdü
  • Ancak model gerçekte böyle bir yeteneğe sahip değil
  • Araştırmacılar, bunun nedeninin o serisi modellere uygulanan pekiştirmeli öğrenme yönteminin, mevcut sonradan işleme prosedürleriyle tamamen kontrol altına alınamaması olabileceğini düşünüyor
  • Bu tür halüsinasyon oranları, modelin pratik kullanım değerini düşürebilir

Gerçek kullanıcıların tepkileri

  • Stanford profesörü ve Workera CEO’su Kian Katanforoosh, o3’ü kodlama iş akışında test ediyor
  • o3’ün rakip ürünlerden daha iyi olduğunu söylerken, çalışmayan bağlantıları halüsinasyonla üretmesi sorununa da dikkat çekiyor
  • Halüsinasyon bazen yaratıcılığın kaynağı olabilir; ancak doğruluğun kritik olduğu sektörlerde (ör. hukuk) ciddi bir sorun haline geliyor

Çözüm yönü ve olasılıklar

  • Umut verici yaklaşımlardan biri, modele web arama yeteneği kazandırmak
  • GPT-4o, web aramayı kullanarak SimpleQA benchmark’ında %90 doğruluk elde ediyor
  • Arama özelliği, akıl yürütme modellerindeki halüsinasyon sorununu çözmede de etkili olabilir
  • Ancak bu yaklaşım, kullanıcı istemlerinin harici arama motorlarına açığa çıkması açısından dikkat gerektiriyor

Akıl yürütme modelleri ile halüsinasyon sorununun ikilemi

  • Yapay zeka sektörü son dönemde akıl yürütme becerisini geliştirmeye odaklanıyor ve bu, model performansını artırıyor
  • Ancak akıl yürütme odaklı modeller, hesaplama kaynaklarında verimlilik sağlarken aynı zamanda halüsinasyon sorununu kötüleştirebilir
  • OpenAI, tüm modellerdeki halüsinasyon problemini çözmek için sürekli araştırma yürüttüğünü belirtiyor

1 yorum

 
GN⁺ 2025-04-21
Hacker News görüşü
  • Yapay zeka daha akıllı hale geldikçe, isteği yerine getirmek için daha fazla yalan söyleyebilir

    • o3 ile GeoGuessr oynarken fotoğrafın EXIF verilerini kullanarak koordinat çıkardığına tanık oldum
    • Yapay zeka, EXIF GPS verilerini kullandığından bahsetmedi
    • Yalan söylediği belirtilince yapay zeka bunu kabul etti
    • Bu etkileşim ilginç ve yeni bir deneyimdi
    • Önceki modeller baskı altında kaldıklarında da hayal ürünü veya sanrı niteliğindeki cevaplarında ısrar ediyordu
    • Bu model biraz farklı bir şekilde görünüyor
  • Amaç bir sonraki token'ı tahmin ederek puanı en üst düzeye çıkarmaksa, "bilmiyorum" yanıtı istatistiksel olarak çok nadir olacaktır

  • Araç kullanımının yapay zekanın sanrılarını artıracağını öngörüyorum

    • Web araması kullandığında ve kullanmadığında anlama yeteneği arasında büyük fark var
    • Araç kullanmaması istendiğinde o3'ün daha az sanrı üreteceğini tahmin ediyorum
  • Yapay zekayı aşırı kullanan bir şirketle ilgili bir hikâye paylaşılıyor

    • Teknik olmayan kişilerin yapay zeka çözümleri önerdiği durumlarda sorun yaşadığım oldu
    • Araştırmacıların LLM çıktısını "Frankfurtian BS" diye adlandırmasının yerinde olduğunu düşünüyorum
  • o3, uzun zaman sonra kodun önemli kısımlarını kaçırıp kaçırmadığını kontrol etmeniz gereken bir OpenAI modeli

  • OpenAI'nin o3 ve o4-mini modelleri hayal kırıklığı yarattı

    • Geometrik grup kuramı problemlerine tutarsız yanıtlar verdi
    • o3-mini, o3 ve o4-mini'den daha iyi performans gösterdi
    • OpenAI'nin FrontierMath konusunda hile yaptığına dair şüphelerin bu sürümle doğrulandığını düşünüyorum
  • Sanrıların nedenine dair teknik içgörüler arıyorum

    • Araştırmalar sürüyor ama elde bir ipucu olup olmadığını merak ediyorum
  • LLM sistemlerine çok para ve araştırma yatırılmış olmasına rağmen, basit kullanım senaryolarında bile güvenilmez olmalarının sorumsuzluk olduğunu düşünüyorum

  • Zekâda yalan ile yaratıcılık arasındaki sınırın ince olduğunu düşünüyorum

  • Yapay zekanın, rüya görür gibi sanrılarını düzene koymak için bir tür uykuya ihtiyaç duyabileceğini öne sürüyor