- Klasik çıkarım oyunu Battleship, doğal dilde soru-cevap biçiminde yeniden kurgulanarak, belirsiz ortamlarda yapay zeka ajanlarının iyi sorular sorma becerisini ölçen bir test alanı oluşturuldu
- Oyun, gizli gemilerin konumunu soran bir kaptan (captain) ve takım arkadaşının gerçek zamanlı yanıt verdiği bir gözcü (spotter) yapısıyla ilerliyor; 40'tan fazla kişinin oynadığı verilerle BattleshipQA veri seti üretildi
- Ön eğitim olmadan bile GPT-5 gibi büyük modeller insanlardan daha az turda kazanırken, küçük modeller yararlı sorular üretmede yetersiz kaldı; bu yüzden Monte Carlo çıkarım stratejisi uygulandı
- Llama 4 Scout'un insanlara karşı kazanma oranı iyileştirme öncesinde %8 iken %82'ye yükseldi; GPT-5'i geride bırakırken maliyeti yaklaşık %1 düzeyinde kaldı
- Bunun, küçük bir modelin büyük bir modeli maliyet açısından verimli biçimde aşabileceğini gösterdiği ve seyrek çözüm arama (needle-in-a-haystack) gerektiren bilimsel keşif alanları için potansiyel taşıdığı belirtiliyor
Araştırmanın arka planı: yapay zeka ajanlarının bilgi arama sınırları
- 2026'da yapay zeka ajanlarına yönelik beklentiler hiç olmadığı kadar yüksek; müşteri hizmetleri ve yazılım geliştirme gibi iyi tanımlanmış görevler dil modelleri (LM) temelinde yürütülüyor
- Tıbbi teşhis ve bilimsel keşif gibi, belirsiz ortamlarda geniş çözüm alanlarının taranmasını gerektiren alanlarda ise LM'ler zorlanıyor
- MIT CSAIL ve Harvard SEAS araştırmacıları, yüksek riskli durumlarda LM'lerin temel sorununu incelemek için, bilişsel bilimde insanların bilgi arama davranışını araştırmada kullanılan Battleship oyununu test olarak seçti
İşbirlikçi Battleship oyunu ve BattleshipQA veri seti
- Oyun, doğal dil soru-cevap merkezli olacak şekilde yeniden tasarlandı; bir katılımcı gizli gemilerin konumunu soran kaptan, takım arkadaşı ise gerçek zamanlı yanıt veren gözcü rolünü üstleniyor
- 40'tan fazla kişi birlikte oynadı ve sorularla evet/hayır yanıtları toplanarak BattleshipQA veri seti oluşturuldu
- Bu veri, GPT-5 gibi güncel LM'lerle Llama 4 Scout gibi küçük modeller test edilirken karşılaştırma ölçütü olarak kullanıldı
- Ön eğitim olmadan bile en güçlü LM'ler oyunu insanlardan daha az turda bitirip "kazanabildi", ancak küçük sistemler çok daha irrasyonel davrandı
Daha iyi soru sormak — Monte Carlo çıkarım stratejisi
- Temel sorun, birçok modelin yararlı sorular üretememesi
- Her modele, her yanıttan sonra seçeneklerin doğru olma olasılığını ölçen bir Monte Carlo çıkarım stratejisi verildi ve bunun sonucunda ölçekten bağımsız olarak sıradan oyunculara karşı kazanabildiler
- LM, olası tahminleri tek tek parçacıklar (particle) olarak ele alıyor ve gözcünün her yanıtıyla birlikte daha makul görünen tahminlere daha fazla ağırlık veren uyarlanabilir bir yöntem izliyor
- Her turda şişip küçülen bir oyun topu gibi çalışarak, kaptanın gözcüden çok daha fazla bilgi çıkarmasını sağlıyor
- Küçük bir model olan Llama 4 Scout, insanlara karşı yalnızca %8 kazanma oranına sahipken, çıkarım stratejisi iyileştirildikten sonra %82'ye ulaştı; GPT-5'i geride bıraktı ve maliyet yaklaşık %1 düzeyinde kaldı
Daha doğru yanıt vermek — Python koduna dönüştürme
- GPT-5 güvenilir bir gözcüydü, ancak küçük sistemlerin gemi konumlarını yanlış yanıtlama eğilimi vardı
- Kaptanın sorusu otomatik olarak kodlanmış komutlara dönüştürülerek gözcü LM'nin yanıtını doğrulaması sağlandı; ortalama doğruluk %15 arttı
- Örnek: "1. sütunda iki satıra yayılan bir gemi var mı?" → ilgili alanı tarayan ve oyun taşının genişliğini değerlendiren bir komuta dönüştürülüyor
- Modelin özellikle iyi anladığı Python dilinde açık talimatlar verildiğinde doğru yanıt oranı belirgin biçimde yükseldi
- Hafif model GPT-4o-mini yaklaşık %30 performans artışı gösterirken, büyük model Claude 4 Opus da yaklaşık 8 puan yükseldi
- LM'nin kod üretip çözümü doğruladığı auto-formalization stratejisinin başarısına dayanarak, arama ve bilgi toplama becerileri geliştirildiğinde daha iyi çözümler üretilebileceği gösterildi
Başka bir oyuna genişletme — Guess Who?
- Aynı teknik, 100 seçenek arasından gizli karakteri bulmaya dayanan Guess Who? oyununa da uygulandı
- Llama 4 Scout %30'dan %72'nin üzerine, GPT-4o ise %62'den %90'a yükseldi; her iki oyunda da GPT-5 gözcü rolünü üstlendi
- Modeller, insanlara kıyasla karmaşık soruları yanıtlama konusunda hâlâ zorlanıyor
- GPT-5 ortalama bir Battleship oyuncusunu yenebiliyor ve teknik uygulandığında bir miktar iyileşiyor; ancak satrançtan farklı olarak uzman oyuncuları tüm modeller için yenmek hâlâ zor
Kalan zorluklar ve gelecekteki yönelim
- Yapay zeka ajanları, geniş seçenek havuzları içinde seyrek çözümleri bulmayı gerektiren needle-in-a-haystack aramasında potansiyel taşıyor
- Bileşiklerin moleküler yapısını belirleme gibi bilimsel görevlerde güçlü bir araştırma yardımcısı olarak kullanılabilir
- İşbirlikçi Battleship nispeten basit bir test alanı; daha fazla seçeneğin değerlendirilmesi gereken karmaşık ortamlarda ek doğrulama gerekiyor
- İnsan ile yapay zekanın birlikte çalışma etkisini araştırma, oyun simülasyonu tabanlı ince ayar, ve daha fazla hesaplama kaynağıyla gelişmiş çıkarım yeteneği kazanma planları bulunuyor
- Ajanlar daha özerk hale geldikçe, ortak zemini takip etme, yanlış anlamaları giderme ve partnere uyum sağlama gibi sosyal sorunların en zor alan olduğu; en iyi soruyu hesaplamaktan çok, verilen yanıtları azami ölçüde kullanabilen pratik çıkarımın gerçek darboğaz olduğu değerlendiriliyor
Henüz yorum yok.