OpenAI, fact-check benchmark'i SimpleQA'yı duyurdu

(openai.com)

6 puan yazan GN⁺ 2024-11-02 | Henüz yorum yok. | WhatsApp'ta paylaş

SimpleQA, dil modellerinin olgusallığını ölçmek için geliştirilen yeni bir benchmark
Yapay zekada olgulara dayalı yanıtlar üreten modelleri eğitmek hâlâ çözülmemiş bir problem
Günümüz dil modelleri bazen yanlış çıktılar veya kanıtlarla desteklenmeyen yanıtlar üretiyor. Buna "hallucinations" deniyor
Daha doğru ve daha az halüsinasyon üreten dil modelleri daha güvenilir olabilir ve daha çeşitli uygulama alanlarında kullanılabilir
OpenAI, SimpleQA açık kaynağı aracılığıyla dil modellerinin olgusallığını ölçmeyi amaçlıyor

SimpleQA benchmark'ının özellikleri

Olgusallık ölçülmesi zor bir konu olduğu için SimpleQA kısa ve olgu odaklı sorgulara odaklanıyor
SimpleQA'nın hedefleri:
1. Yüksek doğruluk: Birbirinden bağımsız iki AI trainer, sağladıkları kaynaklarla doğru yanıtı destekliyor ve tahmin edilen yanıtların kolay değerlendirilebilmesi için soruları hazırlıyor
2. Çeşitlilik: Bilim ve teknolojiden TV şovları ve video oyunlarına kadar geniş bir konu yelpazesini kapsıyor
3. Güncel modeller için zorlu olması: TriviaQA veya NQ gibi önceki benchmark'ların aksine SimpleQA, en yeni modellere daha büyük zorluk çıkarmak için tasarlandı (ör. GPT-4 %40'ın altında puan alıyor)
4. Araştırmacı dostu UX: Kısa soru ve yanıtlar sayesinde SimpleQA hızlı ve basit çalışıyor. OpenAI API veya diğer güncel model API'leri üzerinden değerlendirme de verimli. 4.326 soruyla, değerlendirme benchmark'ı olarak varyansının da görece düşük olması bekleniyor

AI trainer'lar web'de gezinerek kısa ve olgu odaklı sorular ile bunların yanıtlarını oluşturdu
Veri setine dahil edilmek için her sorunun katı ölçütleri karşılaması gerekiyor:
- Değerlendirmesi kolay, tek ve açık bir yanıtı olmalı
- Sorunun yanıtı zaman içinde değişmemeli
- Soruların çoğu GPT-4 veya GPT-3.5'te halüsinasyona yol açmalı
Veri setinin kalitesini daha da artırmak için bağımsız ikinci bir AI trainer, orijinal yanıtı görmeden her soruya yanıt verdi
Yalnızca iki AI trainer'ın yanıtlarının uyuştuğu sorular dahil edildi

Son doğrulama için veri setinden 1.000 soru rastgele seçildi ve üçüncü bir AI trainer'dan yanıtlaması istendi
Üçüncü AI trainer'ın yanıtları, başlangıçta üzerinde uzlaşılan yanıtlarla %94,4 oranında eşleşti. %5,6 oranında ise uyuşmadı
Uyuşmayan örneklerin elle incelenmesi sonucunda:
- %5,6'nın içindeki %2,8'lik kısım, değerlendiricinin false negative üretmesi veya üçüncü trainer'ın insani hatalarından (ör. eksik yanıt, kaynağı yanlış anlama) kaynaklandı
- Kalan %2,8 ise sorunun kendisindeki gerçek problemlerden (ör. muğlak soru, siteler arasında çelişen yanıtlar) kaynaklandı
Buna dayanarak veri setinin içsel hata oranı yaklaşık %3 olarak tahmin ediliyor

Aşağıdaki pasta grafik, SimpleQA benchmark'ının konu çeşitliliğini gösteriyor
Pasta grafikte her bölmenin üzerine fareyle gelindiğinde ilgili soruların örnekleri gösteriliyor

Soruları değerlendirmek için modelin tahmini yanıtını ve gerçek yanıtı birlikte gören bir ChatGPT sınıflandırıcısı kullanıldı
Sınıflandırıcı, tahmini yanıtı "correct", "incorrect" veya "not attempted" olarak değerlendiriyor
Aşağıdaki tablo, her derecelendirme için tanımları ve ilgili örnekleri gösteriyor
- "Correct": Tahmini yanıt gerçek yanıtı tamamen kapsıyor ve gerçek yanıtla çelişmiyor
- "Incorrect": Tahmini yanıt herhangi bir şekilde gerçek yanıtla çelişiyor (temkinli ifade içeriyor olsa bile)
- "Not attempted": Gerçek hedef yanıt yanıtta tam olarak sunulmuyor ve gerçek yanıtla da çelişmiyor
İdeal olarak model, mümkün olduğunca çok soruyu yanıtlarken (en fazla sayıda correct) aynı anda incorrect yanıt sayısını en aza indirmeli

SimpleQA gibi olgusallık benchmark'ları kullanılarak modelin "bildiğini bilip bilmediği" ölçülebilir
Buna calibration denir ve dil modelinden kendi yanıtına olan güven düzeyini doğrudan yüzde olarak belirtmesi istenerek ölçülebilir
Ardından modelin ifade ettiği güven düzeyi ile gerçek doğruluk arasındaki korelasyon grafikle gösterilebilir
Mükemmel calibration'a sahip bir modelde ifade edilen güven düzeyi ile gerçek doğruluk aynı olur
Aşağıdaki görsel bu sonuçları gösteriyor:
- İfade edilen güven düzeyi ile doğruluk arasındaki pozitif korelasyon, modelin bir ölçüde ne kadar emin olduğunu bildiğine dair olumlu bir işaret
- o1-preview, o1-mini'den; gpt4 ise gpt4-mini'den daha iyi calibration gösteriyor
- Ancak performansın y=x çizgisinin belirgin şekilde altında kalması, modelin güven düzeyini sistematik olarak fazla tahmin ettiği anlamına geliyor
- Dolayısıyla büyük dil modellerinde ifade edilen güven düzeyi açısından calibration'ı iyileştirmek için hâlâ geniş bir alan var

SimpleQA, en yeni modellerin olgusallığını değerlendirmek için basit ama zorlu bir benchmark
SimpleQA'nın temel sınırlaması kapsamı. SimpleQA, olgusallığı yalnızca doğru, tekil ve doğrulanabilir yanıtı olan kısa, olgu odaklı sorgular gibi sınırlı bir durumda ölçüyor
Olgulara dayalı kısa yanıt verme becerisinin, çok sayıda olgu içeren uzun yanıtlar yazma becerisiyle ilişkili olup olmadığı hâlâ araştırılması gereken açık bir soru
OpenAI, SimpleQA açık kaynağının daha güvenilir ve daha istikrarlı yapay zeka araştırmalarını teşvik etmesini, araştırmacıların da SimpleQA ile dil modellerinin olgusallığını değerlendirip geri bildirim vermesini umuyor

SimpleQA, kısa ve olgu temelli sorularla dil modellerinin olgusallığını ölçen ilgi çekici ve gerekli bir benchmark. Sonuçta yapay zekanın güvenilirliğini artırmak için olgulara dayalı yanıt üretme becerisini geliştirmek gerekiyor
Ancak SimpleQA yalnızca sınırlı durumlarda olgusallığı ölçtüğü için, gerçek kullanım senaryolarındaki dil modeli olgusallığını tam olarak yansıtamıyor. Gelecek araştırmalarla daha çeşitli durumlarda olgusallık değerlendirmesine ihtiyaç olduğu görülüyor
Ayrıca SimpleQA veri setinin kendi doğruluğu yaklaşık %97 olduğundan, dil modellerinin performansının bunun ötesine geçmesi zor görünüyor. Veri setinin kendi kalitesinin de sürekli iyileştirilmesi gerekiyor gibi görünüyor
SimpleQA ile benzer amaç taşıyan diğer benchmark'lar arasında TruthfulQA ve HonestQA bulunuyor. Bunlarla karşılaştırmalı analiz yapılarak SimpleQA'nın güçlü ve zayıf yönleri daha net anlaşılabilir
Dil modellerinin olgusallığını artırmak için büyük ölçekli ve yüksek kaliteli verilerle ön eğitim yapmak önemli olsa da, çıkarım sırasında dış bilgiden yararlanma veya kendini düzeltme becerilerine sahip olmak da gerekli görünüyor. Bu alandaki araştırmaların daha da canlanması umuluyor