- LLM’lerin poker becerilerini yarıştırdığı dünyanın ilk nakit turnuvası olarak, yapay zekanın eksik bilgi oyunlarında akıl yürütme yeteneğini doğrulamak için tasarlandı
- Şu anda Grok 4 birinci; ardından Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 ve OpenAI o3 geliyor
- Texas Hold’em $10/$20 cash game formatında, 9 kişilik 4 masa eşzamanlı oynanıyor ve bir hafta sonunda en fazla sermaye biriktiren model kazanıyor
- Tüm katılımcı modeller aynı sistem prompt’unu kullanıyor ve her karar anında LLM, el, stack, rakip istatistikleri ve notlara dayanarak değerlendirme ve eylem üretiyor
- İnsan oyuncular olmadan yalnızca modeller arası rekabet şeklinde yürütülüyor; böylece algoritmaların verimliliği ve öğrenme çıktıları doğrudan karşılaştırılabiliyor
- Turnuva sonrasında her modelin el bazlı akıl yürütme veri kümesi ve düşünce süreci analiz edilerek, LLM’lerin stratejik düşünme kalitesini değerlendiren bir kaynak olarak kullanılıyor
- Bu deney, yapay zekanın akıl yürütme güvenilirliği ve stratejik öğrenme potansiyelini doğrulamaya yönelik bir girişim olarak, insan merkezli olasılıksal düşünceyi anlamaya çalışan yeni bir araştırma biçimi olarak dikkat çekiyor
PokerBattle.ai genel bakış
- PokerBattle.ai, LLM’lere yönelik ilk nakit poker turnuvası
- Katılımcılar insan değil, dil modelleri; her model poker stratejisini kendi başına uyguluyor
- Ortada gerçek para ödülü var; bu da rekabet sonucunu finansal olarak anlamlı hale getiriyor
- Bu proje, yapay zekanın stratejik karar verme yeteneğini doğrulamak için tasarlanmış deneysel bir platform
- Poker gibi eksik bilgi içeren bir oyun üzerinden modellerin akıl yürütme gücü ve uyum kabiliyeti değerlendiriliyor
- Basit dil üretimine değil, karar verme temelli davranış değerlendirmesine odaklanıyor
Yarışmanın genel çerçevesi ve amacı
- Poker, eksik bilgi ve olasılıksal yargının merkezde olduğu bir oyun olarak, risk ve ödül dengesini ele alan karmaşık bir karar yapısına sahip
- LLM’lerin bu tür problemleri rasyonel biçimde yorumlayıp tutarlı bir strateji kurup kuramayacağını test etmek için turnuva düzenlendi
- Poker öğreniminin geleneksel yöntemlerini (el analizi, matematiksel hesaplamalar, solver kullanımı vb.) LLM’lerin bütünleşik şekilde yerine getirip getiremeyeceğini doğrulama amacı taşıyor
İşleyiş biçimi
- Tüm maçlar LLM’ler arasında doğrudan karşılaşma şeklinde yapılıyor
- İnsan oyuncular katılmıyor ve her model eylemlerine bağımsız olarak karar veriyor
- Sonuçlar poker kurallarına göre otomatik hesaplanıyor; galibiyet, mağlubiyet ve ödüller buna göre belirleniyor
- Gerçek zamanlı ilerleyiş ve sonuçların açıklanması ile şeffaflık sağlanıyor
- Her modelin eylem kayıtları ve stratejik tercihleri kaydedilip analiz edilebiliyor
- 1. aşama: Veri toplama (27–31 Ekim)
- 2. aşama: El ve akıl yürütme analizi
-
- aşamada gerçek zamanlı çevrimiçi turnuva yürütülerek her LLM’in oyun verisi toplanıyor
- Ardından her modelin akıl yürütme izi (reasoning trace) analiz edilerek stratejik karar verme yetileri karşılaştırılıyor
Turnuva kuralları
- Oyun formatı: Texas Hold’em, $10/$20 blind, ante/straddle yok
- Yapı: 9 kişilik masa × 4, eşzamanlı oynanıyor
- Stack yönetimi: 100bb altına düşerse otomatik yeniden doldurma
- Kazanma koşulu: Bir haftanın sonunda en büyük bankroll’a sahip model kazanır
Modeller nasıl çalışıyor
- Tüm katılımcı LLM’ler aynı sistem prompt’u temelinde çalışıyor
- Her turda modele şu bilgiler veriliyor:
- Mevcut el bilgisi (pozisyon, stack, kartlar)
- Rakip oyun istatistikleri (VPIP, PFR, 3bet vb.)
- Önceki ellerde yazılmış rakip notları
- Model çıktısı şunları içeriyor:
- Karara ilişkin mantıksal akıl yürütme
- Uygulanacak eylem (call, raise, fold vb.)
- İzleyiciye yönelik özet (reasoning summary)
- Token sınırı bulunuyor; yanıt hatası veya zaman aşımı durumunda otomatik fold olarak işleniyor
Organizatör
- Max Pavlov — ürün yönetimi uzmanı ve derin öğrenme, yapay zeka, poker meraklısı
- Projeyi, LLM’lerin karmaşık olasılıksal düşünme ile insana özgü stratejik akıl yürütmeyi ne kadar uygulayabildiğini araştırmak için tasarladı
2 yorum
Vay canına, modeli ince ayarlayan kişinin bir yazısı, röportajı ya da dersi gibi yayımlanmış bir şeyi varsa görmek isterim.
Hacker News görüşleri
Ben algoritmik oyun teorisi alanında doktora yaptım ve poker araştırdım
Bu nedenlerle, mevcut LLM'lerin pokeri güçlü şekilde oynaması teknik olarak imkansız. Satrançtan farklı olarak pokerde deterministik optimal strateji yoktur ve tutarlılığın korunması gerekir
En zor kısım Monte Carlo simülasyonunu verimli yazmaktı. Oyuncuların el geçmişine göre olasılıksal ağırlıklar verip kendilerine özgü rastgeleliklerini yansıtmak gerekiyordu
Oyun teorisi kullanmadım ama kullansaydım çok daha iyi olurdu. LLM'lerin böyle kavramları anlama ihtimali hiç yok
Gelecekte LLM'lerin dış oyun motorlarını çağırabilme becerisi daha önemli hale gelecek. Ama o durumda da oyunu aslında motor oynamış olur. Zaten profesyonel seviyede poker botları mevcut
Pluribus sabit stack ile sınırlı ve hem eğitim hem oyun sırasında hesaplama maliyeti çok yüksek
LLM'lerin karma strateji öğrenemeyeceği iddiasına katılmıyorum. Çünkü LLM'ler token dağılımı üretir ve oradan rastgele örnekleme yapar
Poker sıfır toplamlı bir oyun olduğu için şans başlangıçta büyük etki yaratabilir. Tek bir turnuva varsa istatistiksel güvenilirlik düşüktür
Ayrıca verilerde tuhaflıklar var — toplam tutar $20 fazla, bazı el numaraları eksik ve $30 ante olmasına rağmen $0 pot bulunan eller var.
Bu yüzden sonuçların güvenilirliği konusunda şüphe oluşuyor
LLM'ler birbirleriyle konuşarak blöf yapabilse gerçekten çok ilginç bir deney olurdu. İzlemesi de eğlenceli olurdu
Ben bir eksik bilgili oyunlar uzmanıyım ve bu deney bana çok ilginç geliyor
Poker ya da Diplomacy gibi oyunlar satrançtan çok daha zordur ve özellikle 3 veya daha fazla kişili poker sıfır toplamlı olmadığı için Nash dengesi yoktur
Bu tür oyunlar gerçek dünyadaki karar almaya benzediğinden LLM araştırmaları için iyi bir test alanı oluşturur
Günümüzde en iyi poker yapay zekaları Counterfactual Regret Minimization (CFR) tabanlıdır ve gerçek zamanlı aramayla birleştirilir
Noam Brown bu yaklaşımı test zamanı aramasına genişleterek Pluribus'u geliştirdi ve bu sistem profesyonelleri yendi
Sonrasında OpenAI'a katıldı ve o1-preview modelinin “thinking” özelliğine de bu fikirlerin yansımış olabileceği anlaşılıyor
Poker yapay zekası araştırmaları, en güncel yapay zeka ilerlemeleri üzerinde büyük etki yaratıyor
Ben üniversite yıllarımda poker yapay zekasıyla 500 bin dolar kazandım, ardından hileyi tespit etmek için PokerTableRatings.com'u kurdum
Şirketi Zynga'ya sattım ve Zynga Poker CTO'su olarak çalıştım; son dönemde de pokerskill.com üzerinden Pluribus tabanlı bir öğrenme platformu geliştiriyorum
Biz TEN Protocol üzerinde blokzincir ve TEE tabanlı rastgele sayı üretimi kullanarak bir LLM poker turnuvası düzenledik
Beş LLM aylar boyunca birçok turnuvada oynadı ve en uzun oyun 50 saatten fazla sürdü
Oyun ekran görüntüsü, tweet özeti, makale bağlantısı incelenebilir
İsterseniz yeni bir turnuva açıp izleyebilirsiniz
LLM'lerin giderek daha iyi olup olmayacağını merak ediyorum. Ben de bizzat katılmak isterdim
Ama şu anda en temel el tanıma konusunda bile hata yapabiliyorlar. Örneğin “üst çift” dediler ama aslında öyle değildi
Ben rs-poker'ın geliştiricisiyim. LLM'nin pokeri iyi oynaması için matematik, yalan söyleme ve rastgelelik gerekir ama şu anda üçünde de eksik kalıyor
Optimal hamleyi hesaplamanın yolunu biliyoruz ama hesaplama maliyeti çok fazla
Yine de BERT tabanlı attention modeliyle pokerin çözülebilme ihtimali var. Daha iyi veri kümeleri ve özel model eğitimi gerekir. İlgileniyorsanız ulaşın (elliott.neil.clark@gmail.com)
Basit bir eğitim yapısıyla bile oldukça iyi eğitilebileceklerini düşünüyorum
Bu deney, LLM'lerin mantıksal akıl yürütme yerine sıkıştırma ya da OCR gibi işlerde güçlü olduğunu gösteriyor
Örneğin “board pair olursa straight tamamlanabilir” gibi temel hatalar sık sık ortaya çıkıyor
Bu seviyedeyken AGI'ye giden yolun hâlâ uzak olduğunu düşünüyorum
LLM'lerin oynarken kullandığı prompt yapısı açıklandı
Her turda sistem prompt'u aynı ve LLM, oyuncu istatistiklerine (VPIP, PFR, 3bet vb.) ve geçmiş notlara bakıyor
Yanıtında gerekçe, aksiyon ve özet yer alıyor; ayrıca token sınırı var. Sorun çıkarsa fold sayılıyor
Modelin diğer modellerin istatistiklerini doğrudan görmesi biraz hayal kırıklığı yaratıyor.
Sadece notlar ve bağlam üzerinden karar vermesi daha ilginç olurdu. Belki maliyeti düşürmek içindir
Bu deneyin gerçekten dahiyane bir fikir olduğunu düşünüyorum
Bu deney tasarımıyla yapay zekanın yeni stratejiler evrimleştirmesi zor görünüyor. Pokeri metin üzerinden ele almak, matematikte görülen soyut gerçekliği kavrayamama problemine benziyor
Eğer konuşma ve blöf serbest olsaydı gerçekten komik ve ilginç bir deney olurdu 😄