'Battleship' oyununu kullanarak yapay zeka ajanlarına daha iyi soru sormayı öğretmek

(news.mit.edu)

1 puan yazan GN⁺ 2026-06-04 | Henüz yorum yok. | WhatsApp'ta paylaş

Klasik çıkarım oyunu Battleship, doğal dilde soru-cevap biçiminde yeniden kurgulanarak, belirsiz ortamlarda yapay zeka ajanlarının iyi sorular sorma becerisini ölçen bir test alanı oluşturuldu
Oyun, gizli gemilerin konumunu soran bir kaptan (captain) ve takım arkadaşının gerçek zamanlı yanıt verdiği bir gözcü (spotter) yapısıyla ilerliyor; 40'tan fazla kişinin oynadığı verilerle BattleshipQA veri seti üretildi
Ön eğitim olmadan bile GPT-5 gibi büyük modeller insanlardan daha az turda kazanırken, küçük modeller yararlı sorular üretmede yetersiz kaldı; bu yüzden Monte Carlo çıkarım stratejisi uygulandı
Llama 4 Scout'un insanlara karşı kazanma oranı iyileştirme öncesinde %8 iken %82'ye yükseldi; GPT-5'i geride bırakırken maliyeti yaklaşık %1 düzeyinde kaldı
Bunun, küçük bir modelin büyük bir modeli maliyet açısından verimli biçimde aşabileceğini gösterdiği ve seyrek çözüm arama (needle-in-a-haystack) gerektiren bilimsel keşif alanları için potansiyel taşıdığı belirtiliyor

Araştırmanın arka planı: yapay zeka ajanlarının bilgi arama sınırları

2026'da yapay zeka ajanlarına yönelik beklentiler hiç olmadığı kadar yüksek; müşteri hizmetleri ve yazılım geliştirme gibi iyi tanımlanmış görevler dil modelleri (LM) temelinde yürütülüyor
Tıbbi teşhis ve bilimsel keşif gibi, belirsiz ortamlarda geniş çözüm alanlarının taranmasını gerektiren alanlarda ise LM'ler zorlanıyor
MIT CSAIL ve Harvard SEAS araştırmacıları, yüksek riskli durumlarda LM'lerin temel sorununu incelemek için, bilişsel bilimde insanların bilgi arama davranışını araştırmada kullanılan Battleship oyununu test olarak seçti

Oyun, doğal dil soru-cevap merkezli olacak şekilde yeniden tasarlandı; bir katılımcı gizli gemilerin konumunu soran kaptan, takım arkadaşı ise gerçek zamanlı yanıt veren gözcü rolünü üstleniyor
40'tan fazla kişi birlikte oynadı ve sorularla evet/hayır yanıtları toplanarak BattleshipQA veri seti oluşturuldu
Bu veri, GPT-5 gibi güncel LM'lerle Llama 4 Scout gibi küçük modeller test edilirken karşılaştırma ölçütü olarak kullanıldı
Ön eğitim olmadan bile en güçlü LM'ler oyunu insanlardan daha az turda bitirip "kazanabildi", ancak küçük sistemler çok daha irrasyonel davrandı

Temel sorun, birçok modelin yararlı sorular üretememesi
Her modele, her yanıttan sonra seçeneklerin doğru olma olasılığını ölçen bir Monte Carlo çıkarım stratejisi verildi ve bunun sonucunda ölçekten bağımsız olarak sıradan oyunculara karşı kazanabildiler
LM, olası tahminleri tek tek parçacıklar (particle) olarak ele alıyor ve gözcünün her yanıtıyla birlikte daha makul görünen tahminlere daha fazla ağırlık veren uyarlanabilir bir yöntem izliyor
- Her turda şişip küçülen bir oyun topu gibi çalışarak, kaptanın gözcüden çok daha fazla bilgi çıkarmasını sağlıyor
Küçük bir model olan Llama 4 Scout, insanlara karşı yalnızca %8 kazanma oranına sahipken, çıkarım stratejisi iyileştirildikten sonra %82'ye ulaştı; GPT-5'i geride bıraktı ve maliyet yaklaşık %1 düzeyinde kaldı

GPT-5 güvenilir bir gözcüydü, ancak küçük sistemlerin gemi konumlarını yanlış yanıtlama eğilimi vardı
Kaptanın sorusu otomatik olarak kodlanmış komutlara dönüştürülerek gözcü LM'nin yanıtını doğrulaması sağlandı; ortalama doğruluk %15 arttı
- Örnek: "1. sütunda iki satıra yayılan bir gemi var mı?" → ilgili alanı tarayan ve oyun taşının genişliğini değerlendiren bir komuta dönüştürülüyor
Modelin özellikle iyi anladığı Python dilinde açık talimatlar verildiğinde doğru yanıt oranı belirgin biçimde yükseldi
- Hafif model GPT-4o-mini yaklaşık %30 performans artışı gösterirken, büyük model Claude 4 Opus da yaklaşık 8 puan yükseldi
LM'nin kod üretip çözümü doğruladığı auto-formalization stratejisinin başarısına dayanarak, arama ve bilgi toplama becerileri geliştirildiğinde daha iyi çözümler üretilebileceği gösterildi

Aynı teknik, 100 seçenek arasından gizli karakteri bulmaya dayanan Guess Who? oyununa da uygulandı
Llama 4 Scout %30'dan %72'nin üzerine, GPT-4o ise %62'den %90'a yükseldi; her iki oyunda da GPT-5 gözcü rolünü üstlendi
Modeller, insanlara kıyasla karmaşık soruları yanıtlama konusunda hâlâ zorlanıyor
- GPT-5 ortalama bir Battleship oyuncusunu yenebiliyor ve teknik uygulandığında bir miktar iyileşiyor; ancak satrançtan farklı olarak uzman oyuncuları tüm modeller için yenmek hâlâ zor

Yapay zeka ajanları, geniş seçenek havuzları içinde seyrek çözümleri bulmayı gerektiren needle-in-a-haystack aramasında potansiyel taşıyor
- Bileşiklerin moleküler yapısını belirleme gibi bilimsel görevlerde güçlü bir araştırma yardımcısı olarak kullanılabilir
İşbirlikçi Battleship nispeten basit bir test alanı; daha fazla seçeneğin değerlendirilmesi gereken karmaşık ortamlarda ek doğrulama gerekiyor
İnsan ile yapay zekanın birlikte çalışma etkisini araştırma, oyun simülasyonu tabanlı ince ayar, ve daha fazla hesaplama kaynağıyla gelişmiş çıkarım yeteneği kazanma planları bulunuyor
Ajanlar daha özerk hale geldikçe, ortak zemini takip etme, yanlış anlamaları giderme ve partnere uyum sağlama gibi sosyal sorunların en zor alan olduğu; en iyi soruyu hesaplamaktan çok, verilen yanıtları azami ölçüde kullanabilen pratik çıkarımın gerçek darboğaz olduğu değerlendiriliyor