6 puan yazan GN⁺ 2024-11-02 | Henüz yorum yok. | WhatsApp'ta paylaş
  • SimpleQA, dil modellerinin olgusallığını ölçmek için geliştirilen yeni bir benchmark
  • Yapay zekada olgulara dayalı yanıtlar üreten modelleri eğitmek hâlâ çözülmemiş bir problem
  • Günümüz dil modelleri bazen yanlış çıktılar veya kanıtlarla desteklenmeyen yanıtlar üretiyor. Buna "hallucinations" deniyor
  • Daha doğru ve daha az halüsinasyon üreten dil modelleri daha güvenilir olabilir ve daha çeşitli uygulama alanlarında kullanılabilir
  • OpenAI, SimpleQA açık kaynağı aracılığıyla dil modellerinin olgusallığını ölçmeyi amaçlıyor

SimpleQA benchmark'ının özellikleri

  • Olgusallık ölçülmesi zor bir konu olduğu için SimpleQA kısa ve olgu odaklı sorgulara odaklanıyor
  • SimpleQA'nın hedefleri:
    1. Yüksek doğruluk: Birbirinden bağımsız iki AI trainer, sağladıkları kaynaklarla doğru yanıtı destekliyor ve tahmin edilen yanıtların kolay değerlendirilebilmesi için soruları hazırlıyor
    2. Çeşitlilik: Bilim ve teknolojiden TV şovları ve video oyunlarına kadar geniş bir konu yelpazesini kapsıyor
    3. Güncel modeller için zorlu olması: TriviaQA veya NQ gibi önceki benchmark'ların aksine SimpleQA, en yeni modellere daha büyük zorluk çıkarmak için tasarlandı (ör. GPT-4 %40'ın altında puan alıyor)
    4. Araştırmacı dostu UX: Kısa soru ve yanıtlar sayesinde SimpleQA hızlı ve basit çalışıyor. OpenAI API veya diğer güncel model API'leri üzerinden değerlendirme de verimli. 4.326 soruyla, değerlendirme benchmark'ı olarak varyansının da görece düşük olması bekleniyor

SimpleQA veri setinin oluşturulma süreci

  • AI trainer'lar web'de gezinerek kısa ve olgu odaklı sorular ile bunların yanıtlarını oluşturdu
  • Veri setine dahil edilmek için her sorunun katı ölçütleri karşılaması gerekiyor:
    • Değerlendirmesi kolay, tek ve açık bir yanıtı olmalı
    • Sorunun yanıtı zaman içinde değişmemeli
    • Soruların çoğu GPT-4 veya GPT-3.5'te halüsinasyona yol açmalı
  • Veri setinin kalitesini daha da artırmak için bağımsız ikinci bir AI trainer, orijinal yanıtı görmeden her soruya yanıt verdi
  • Yalnızca iki AI trainer'ın yanıtlarının uyuştuğu sorular dahil edildi

SimpleQA veri seti kalite doğrulaması

  • Son doğrulama için veri setinden 1.000 soru rastgele seçildi ve üçüncü bir AI trainer'dan yanıtlaması istendi
  • Üçüncü AI trainer'ın yanıtları, başlangıçta üzerinde uzlaşılan yanıtlarla %94,4 oranında eşleşti. %5,6 oranında ise uyuşmadı
  • Uyuşmayan örneklerin elle incelenmesi sonucunda:
    • %5,6'nın içindeki %2,8'lik kısım, değerlendiricinin false negative üretmesi veya üçüncü trainer'ın insani hatalarından (ör. eksik yanıt, kaynağı yanlış anlama) kaynaklandı
    • Kalan %2,8 ise sorunun kendisindeki gerçek problemlerden (ör. muğlak soru, siteler arasında çelişen yanıtlar) kaynaklandı
  • Buna dayanarak veri setinin içsel hata oranı yaklaşık %3 olarak tahmin ediliyor

SimpleQA'nın soru çeşitliliği

  • Aşağıdaki pasta grafik, SimpleQA benchmark'ının konu çeşitliliğini gösteriyor
  • Pasta grafikte her bölmenin üzerine fareyle gelindiğinde ilgili soruların örnekleri gösteriliyor

SimpleQA ile dil modeli karşılaştırması

  • Soruları değerlendirmek için modelin tahmini yanıtını ve gerçek yanıtı birlikte gören bir ChatGPT sınıflandırıcısı kullanıldı
  • Sınıflandırıcı, tahmini yanıtı "correct", "incorrect" veya "not attempted" olarak değerlendiriyor
  • Aşağıdaki tablo, her derecelendirme için tanımları ve ilgili örnekleri gösteriyor
    • "Correct": Tahmini yanıt gerçek yanıtı tamamen kapsıyor ve gerçek yanıtla çelişmiyor
    • "Incorrect": Tahmini yanıt herhangi bir şekilde gerçek yanıtla çelişiyor (temkinli ifade içeriyor olsa bile)
    • "Not attempted": Gerçek hedef yanıt yanıtta tam olarak sunulmuyor ve gerçek yanıtla da çelişmiyor
  • İdeal olarak model, mümkün olduğunca çok soruyu yanıtlarken (en fazla sayıda correct) aynı anda incorrect yanıt sayısını en aza indirmeli

SimpleQA ile dil modeli calibration ölçümü

  • SimpleQA gibi olgusallık benchmark'ları kullanılarak modelin "bildiğini bilip bilmediği" ölçülebilir
  • Buna calibration denir ve dil modelinden kendi yanıtına olan güven düzeyini doğrudan yüzde olarak belirtmesi istenerek ölçülebilir
  • Ardından modelin ifade ettiği güven düzeyi ile gerçek doğruluk arasındaki korelasyon grafikle gösterilebilir
  • Mükemmel calibration'a sahip bir modelde ifade edilen güven düzeyi ile gerçek doğruluk aynı olur
  • Aşağıdaki görsel bu sonuçları gösteriyor:
    • İfade edilen güven düzeyi ile doğruluk arasındaki pozitif korelasyon, modelin bir ölçüde ne kadar emin olduğunu bildiğine dair olumlu bir işaret
    • o1-preview, o1-mini'den; gpt4 ise gpt4-mini'den daha iyi calibration gösteriyor
    • Ancak performansın y=x çizgisinin belirgin şekilde altında kalması, modelin güven düzeyini sistematik olarak fazla tahmin ettiği anlamına geliyor
    • Dolayısıyla büyük dil modellerinde ifade edilen güven düzeyi açısından calibration'ı iyileştirmek için hâlâ geniş bir alan var

Sonuç

  • SimpleQA, en yeni modellerin olgusallığını değerlendirmek için basit ama zorlu bir benchmark
  • SimpleQA'nın temel sınırlaması kapsamı. SimpleQA, olgusallığı yalnızca doğru, tekil ve doğrulanabilir yanıtı olan kısa, olgu odaklı sorgular gibi sınırlı bir durumda ölçüyor
  • Olgulara dayalı kısa yanıt verme becerisinin, çok sayıda olgu içeren uzun yanıtlar yazma becerisiyle ilişkili olup olmadığı hâlâ araştırılması gereken açık bir soru
  • OpenAI, SimpleQA açık kaynağının daha güvenilir ve daha istikrarlı yapay zeka araştırmalarını teşvik etmesini, araştırmacıların da SimpleQA ile dil modellerinin olgusallığını değerlendirip geri bildirim vermesini umuyor

GN⁺ görüşü

  • SimpleQA, kısa ve olgu temelli sorularla dil modellerinin olgusallığını ölçen ilgi çekici ve gerekli bir benchmark. Sonuçta yapay zekanın güvenilirliğini artırmak için olgulara dayalı yanıt üretme becerisini geliştirmek gerekiyor
  • Ancak SimpleQA yalnızca sınırlı durumlarda olgusallığı ölçtüğü için, gerçek kullanım senaryolarındaki dil modeli olgusallığını tam olarak yansıtamıyor. Gelecek araştırmalarla daha çeşitli durumlarda olgusallık değerlendirmesine ihtiyaç olduğu görülüyor
  • Ayrıca SimpleQA veri setinin kendi doğruluğu yaklaşık %97 olduğundan, dil modellerinin performansının bunun ötesine geçmesi zor görünüyor. Veri setinin kendi kalitesinin de sürekli iyileştirilmesi gerekiyor gibi görünüyor
  • SimpleQA ile benzer amaç taşıyan diğer benchmark'lar arasında TruthfulQA ve HonestQA bulunuyor. Bunlarla karşılaştırmalı analiz yapılarak SimpleQA'nın güçlü ve zayıf yönleri daha net anlaşılabilir
  • Dil modellerinin olgusallığını artırmak için büyük ölçekli ve yüksek kaliteli verilerle ön eğitim yapmak önemli olsa da, çıkarım sırasında dış bilgiden yararlanma veya kendini düzeltme becerilerine sahip olmak da gerekli görünüyor. Bu alandaki araştırmaların daha da canlanması umuluyor

Henüz yorum yok.

Henüz yorum yok.