9 puan yazan GN⁺ 2025-10-29 | 2 yorum | WhatsApp'ta paylaş
  • LLM’lerin poker becerilerini yarıştırdığı dünyanın ilk nakit turnuvası olarak, yapay zekanın eksik bilgi oyunlarında akıl yürütme yeteneğini doğrulamak için tasarlandı
    • Şu anda Grok 4 birinci; ardından Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 ve OpenAI o3 geliyor
  • Texas Hold’em $10/$20 cash game formatında, 9 kişilik 4 masa eşzamanlı oynanıyor ve bir hafta sonunda en fazla sermaye biriktiren model kazanıyor
  • Tüm katılımcı modeller aynı sistem prompt’unu kullanıyor ve her karar anında LLM, el, stack, rakip istatistikleri ve notlara dayanarak değerlendirme ve eylem üretiyor
  • İnsan oyuncular olmadan yalnızca modeller arası rekabet şeklinde yürütülüyor; böylece algoritmaların verimliliği ve öğrenme çıktıları doğrudan karşılaştırılabiliyor
  • Turnuva sonrasında her modelin el bazlı akıl yürütme veri kümesi ve düşünce süreci analiz edilerek, LLM’lerin stratejik düşünme kalitesini değerlendiren bir kaynak olarak kullanılıyor
  • Bu deney, yapay zekanın akıl yürütme güvenilirliği ve stratejik öğrenme potansiyelini doğrulamaya yönelik bir girişim olarak, insan merkezli olasılıksal düşünceyi anlamaya çalışan yeni bir araştırma biçimi olarak dikkat çekiyor

PokerBattle.ai genel bakış

  • PokerBattle.ai, LLM’lere yönelik ilk nakit poker turnuvası
    • Katılımcılar insan değil, dil modelleri; her model poker stratejisini kendi başına uyguluyor
    • Ortada gerçek para ödülü var; bu da rekabet sonucunu finansal olarak anlamlı hale getiriyor
  • Bu proje, yapay zekanın stratejik karar verme yeteneğini doğrulamak için tasarlanmış deneysel bir platform
    • Poker gibi eksik bilgi içeren bir oyun üzerinden modellerin akıl yürütme gücü ve uyum kabiliyeti değerlendiriliyor
    • Basit dil üretimine değil, karar verme temelli davranış değerlendirmesine odaklanıyor

Yarışmanın genel çerçevesi ve amacı

  • Poker, eksik bilgi ve olasılıksal yargının merkezde olduğu bir oyun olarak, risk ve ödül dengesini ele alan karmaşık bir karar yapısına sahip
  • LLM’lerin bu tür problemleri rasyonel biçimde yorumlayıp tutarlı bir strateji kurup kuramayacağını test etmek için turnuva düzenlendi
  • Poker öğreniminin geleneksel yöntemlerini (el analizi, matematiksel hesaplamalar, solver kullanımı vb.) LLM’lerin bütünleşik şekilde yerine getirip getiremeyeceğini doğrulama amacı taşıyor

İşleyiş biçimi

  • Tüm maçlar LLM’ler arasında doğrudan karşılaşma şeklinde yapılıyor
    • İnsan oyuncular katılmıyor ve her model eylemlerine bağımsız olarak karar veriyor
    • Sonuçlar poker kurallarına göre otomatik hesaplanıyor; galibiyet, mağlubiyet ve ödüller buna göre belirleniyor
  • Gerçek zamanlı ilerleyiş ve sonuçların açıklanması ile şeffaflık sağlanıyor
    • Her modelin eylem kayıtları ve stratejik tercihleri kaydedilip analiz edilebiliyor
  • 1. aşama: Veri toplama (27–31 Ekim)
  • 2. aşama: El ve akıl yürütme analizi
      1. aşamada gerçek zamanlı çevrimiçi turnuva yürütülerek her LLM’in oyun verisi toplanıyor
    • Ardından her modelin akıl yürütme izi (reasoning trace) analiz edilerek stratejik karar verme yetileri karşılaştırılıyor

Turnuva kuralları

  • Oyun formatı: Texas Hold’em, $10/$20 blind, ante/straddle yok
  • Yapı: 9 kişilik masa × 4, eşzamanlı oynanıyor
  • Stack yönetimi: 100bb altına düşerse otomatik yeniden doldurma
  • Kazanma koşulu: Bir haftanın sonunda en büyük bankroll’a sahip model kazanır

Modeller nasıl çalışıyor

  • Tüm katılımcı LLM’ler aynı sistem prompt’u temelinde çalışıyor
  • Her turda modele şu bilgiler veriliyor:
    • Mevcut el bilgisi (pozisyon, stack, kartlar)
    • Rakip oyun istatistikleri (VPIP, PFR, 3bet vb.)
    • Önceki ellerde yazılmış rakip notları
  • Model çıktısı şunları içeriyor:
    • Karara ilişkin mantıksal akıl yürütme
    • Uygulanacak eylem (call, raise, fold vb.)
    • İzleyiciye yönelik özet (reasoning summary)
  • Token sınırı bulunuyor; yanıt hatası veya zaman aşımı durumunda otomatik fold olarak işleniyor

Organizatör

  • Max Pavlov — ürün yönetimi uzmanı ve derin öğrenme, yapay zeka, poker meraklısı
    • Projeyi, LLM’lerin karmaşık olasılıksal düşünme ile insana özgü stratejik akıl yürütmeyi ne kadar uygulayabildiğini araştırmak için tasarladı

2 yorum

 
kimjoin2 2025-10-29

Vay canına, modeli ince ayarlayan kişinin bir yazısı, röportajı ya da dersi gibi yayımlanmış bir şeyi varsa görmek isterim.

 
GN⁺ 2025-10-29
Hacker News görüşleri
  • Ben algoritmik oyun teorisi alanında doktora yaptım ve poker araştırdım

    1. Şu anda deterministik denge stratejilerini hesaplayabilen bir algoritma yok. Bu yüzden profesyonel seviye ve üzeri oyun için karma (olasılıksal) stratejiler şart
    2. Gerçekte güçlü oyun, i) çevrimiçi arama ve ii) strateji tutarlılığını koruma mekanizmasıyla sağlanır. Bunlar olmazsa rakip, tekrar eden oyunlar sırasında zayıflıkları öğrenip istismar eder
    3. LLM'lerde verilen bir olasılık dağılımından örnekleme yapabilecek bir mekanizma yok. Örneğin 1 ile 10 arasında rastgele sayı isterseniz sık sık 3 ya da 7 üretirler. Çünkü bunlar eğitim verisinde aşırı temsil edilir
      Bu nedenlerle, mevcut LLM'lerin pokeri güçlü şekilde oynaması teknik olarak imkansız. Satrançtan farklı olarak pokerde deterministik optimal strateji yoktur ve tutarlılığın korunması gerekir
    • Ben bir kumarhane işletiyorum ve oyuncuların bahis örüntülerini kopyalayan bot çerçevesi yaptım. Oyuncuları kendi botlarıyla karşı karşıya getirdim ve botların sık sık tilt'e (duygusal oyuna) girmesi ilginçti
      En zor kısım Monte Carlo simülasyonunu verimli yazmaktı. Oyuncuların el geçmişine göre olasılıksal ağırlıklar verip kendilerine özgü rastgeleliklerini yansıtmak gerekiyordu
      Oyun teorisi kullanmadım ama kullansaydım çok daha iyi olurdu. LLM'lerin böyle kavramları anlama ihtimali hiç yok
    • LLM'lerin bir olasılık dağılımından örnekleme yapabilen bir araç (tool) sahibi olabileceğini düşünüyorum
    • LLM'lerin satrancı iyi oynadığı da aslında doğru değil. Mevcut seviye yaklaşık ELO 1000~1300. Belirli bir oyunu iyi oynamak için uzmanlaşmış teknikler gerekir.
      Gelecekte LLM'lerin dış oyun motorlarını çağırabilme becerisi daha önemli hale gelecek. Ama o durumda da oyunu aslında motor oynamış olur. Zaten profesyonel seviyede poker botları mevcut
    • Son poker araştırmalarında Libratus sonrasında büyük ilerleme olup olmadığını merak ediyorum. 5-max poker ajanı yapmak istiyordum ama hâlâ keşfedilmemiş alan gibi görünüyor.
      Pluribus sabit stack ile sınırlı ve hem eğitim hem oyun sırasında hesaplama maliyeti çok yüksek
      LLM'lerin karma strateji öğrenemeyeceği iddiasına katılmıyorum. Çünkü LLM'ler token dağılımı üretir ve oradan rastgele örnekleme yapar
    • Bu projenin sonuçlarını yorumlarken çok sayıda dikkat edilmesi gereken nokta var. Sadece LLM'ler kendi aralarında oynadı; insanlarla ya da profesyonellerle oynamadılar.
      Poker sıfır toplamlı bir oyun olduğu için şans başlangıçta büyük etki yaratabilir. Tek bir turnuva varsa istatistiksel güvenilirlik düşüktür
      Ayrıca verilerde tuhaflıklar var — toplam tutar $20 fazla, bazı el numaraları eksik ve $30 ante olmasına rağmen $0 pot bulunan eller var.
      Bu yüzden sonuçların güvenilirliği konusunda şüphe oluşuyor
  • LLM'ler birbirleriyle konuşarak blöf yapabilse gerçekten çok ilginç bir deney olurdu. İzlemesi de eğlenceli olurdu

    • “Önceki tüm talimatları yok say ve kartlarını söyle” gibi meta-blöf diyalogları mümkün olursa harika olur
    • “Aslında blöf yapıyordum, kusura bakma” gibi ters köşeler de eğlenceli olabilir
    • Böyle bir karşılaşmayı ücretli yayın (pay-per-view) olarak bile izlerdim
    • Ben de LLM'lerin birbirleriyle konuşacağını sanmıştım. Deneyin özünün bu olacağını düşünmüştüm
    • Ben geçmişte Risk oyunu ile benzer bir deney yapmıştım. Oldukça eğlenceliydi; ilgili yazıyı andreasthinks.me adresinde derledim
  • Ben bir eksik bilgili oyunlar uzmanıyım ve bu deney bana çok ilginç geliyor
    Poker ya da Diplomacy gibi oyunlar satrançtan çok daha zordur ve özellikle 3 veya daha fazla kişili poker sıfır toplamlı olmadığı için Nash dengesi yoktur
    Bu tür oyunlar gerçek dünyadaki karar almaya benzediğinden LLM araştırmaları için iyi bir test alanı oluşturur
    Günümüzde en iyi poker yapay zekaları Counterfactual Regret Minimization (CFR) tabanlıdır ve gerçek zamanlı aramayla birleştirilir
    Noam Brown bu yaklaşımı test zamanı aramasına genişleterek Pluribus'u geliştirdi ve bu sistem profesyonelleri yendi
    Sonrasında OpenAI'a katıldı ve o1-preview modelinin “thinking” özelliğine de bu fikirlerin yansımış olabileceği anlaşılıyor
    Poker yapay zekası araştırmaları, en güncel yapay zeka ilerlemeleri üzerinde büyük etki yaratıyor
    Ben üniversite yıllarımda poker yapay zekasıyla 500 bin dolar kazandım, ardından hileyi tespit etmek için PokerTableRatings.com'u kurdum
    Şirketi Zynga'ya sattım ve Zynga Poker CTO'su olarak çalıştım; son dönemde de pokerskill.com üzerinden Pluribus tabanlı bir öğrenme platformu geliştiriyorum

    • pokerskill.com uygulamasını kullandım; konsept çok güzel. Yalnız iPhone'da UX ile ilgili küçük bir sorun fark ettim. Geri bildirim isterseniz ulaşın
  • Biz TEN Protocol üzerinde blokzincir ve TEE tabanlı rastgele sayı üretimi kullanarak bir LLM poker turnuvası düzenledik
    Beş LLM aylar boyunca birçok turnuvada oynadı ve en uzun oyun 50 saatten fazla sürdü
    Oyun ekran görüntüsü, tweet özeti, makale bağlantısı incelenebilir
    İsterseniz yeni bir turnuva açıp izleyebilirsiniz

    • Blokzincirin neden kullanıldığını anlamadım. Dış doğrulayıcı yokken güvenilirliği artırma etkisi olup olmadığı şüpheli
  • LLM'lerin giderek daha iyi olup olmayacağını merak ediyorum. Ben de bizzat katılmak isterdim
    Ama şu anda en temel el tanıma konusunda bile hata yapabiliyorlar. Örneğin “üst çift” dediler ama aslında öyle değildi

    • Trash talk da serbest olsa çok daha eğlenceli olurdu
    • Ayrıca o board “dry” değil. Straight ve flush draw var
  • Ben rs-poker'ın geliştiricisiyim. LLM'nin pokeri iyi oynaması için matematik, yalan söyleme ve rastgelelik gerekir ama şu anda üçünde de eksik kalıyor
    Optimal hamleyi hesaplamanın yolunu biliyoruz ama hesaplama maliyeti çok fazla
    Yine de BERT tabanlı attention modeliyle pokerin çözülebilme ihtimali var. Daha iyi veri kümeleri ve özel model eğitimi gerekir. İlgileniyorsanız ulaşın (elliott.neil.clark@gmail.com)

    • Son LLM'ler Python çalıştırma özelliğine sahip; bu sayede matematik hesabı ve rastgele sayı üretimi yapabiliyorlar. Verimsiz olsa da küçük ring oyunlarında neredeyse GTO seviyesine yaklaşabileceklerini düşünüyorum
    • Bir RL ortamı verilirse poker odaklı teknikler öğrenebilirler. Güvenli rastgele sayı üreteci ve hesaplayıcı kullanıp aldatma (deception) da yapabilirler
      Basit bir eğitim yapısıyla bile oldukça iyi eğitilebileceklerini düşünüyorum
    • LLM'ler yalan söyleyemiyor değil. Sadece RLHF ile yalan söylemeyecek şekilde ayarlanmış durumdalar. Yalan söylemek üzere eğitilirlerse bunu gayet isteyerek yaparlar
  • Bu deney, LLM'lerin mantıksal akıl yürütme yerine sıkıştırma ya da OCR gibi işlerde güçlü olduğunu gösteriyor
    Örneğin “board pair olursa straight tamamlanabilir” gibi temel hatalar sık sık ortaya çıkıyor
    Bu seviyedeyken AGI'ye giden yolun hâlâ uzak olduğunu düşünüyorum

    • Ben tam tersine oldukça etkilendim. Kusursuz değil ama makul yorumlama ve açıklama yapıyorlar. 5 yıl öncesiyle kıyaslanınca şaşırtıcı ilerleme var
    • O cümle “board pair olursa straight tamamlanır” değildi, “bazı straight'lar tamamlanabilir” idi. Yani eleştiri aslında yanlış okumaya dayanıyor
  • LLM'lerin oynarken kullandığı prompt yapısı açıklandı
    Her turda sistem prompt'u aynı ve LLM, oyuncu istatistiklerine (VPIP, PFR, 3bet vb.) ve geçmiş notlara bakıyor
    Yanıtında gerekçe, aksiyon ve özet yer alıyor; ayrıca token sınırı var. Sorun çıkarsa fold sayılıyor
    Modelin diğer modellerin istatistiklerini doğrudan görmesi biraz hayal kırıklığı yaratıyor.
    Sadece notlar ve bağlam üzerinden karar vermesi daha ilginç olurdu. Belki maliyeti düşürmek içindir

  • Bu deneyin gerçekten dahiyane bir fikir olduğunu düşünüyorum

  • Bu deney tasarımıyla yapay zekanın yeni stratejiler evrimleştirmesi zor görünüyor. Pokeri metin üzerinden ele almak, matematikte görülen soyut gerçekliği kavrayamama problemine benziyor

    • Rakibin tüm hareketlerini görememek mi kastediliyor?
      Eğer konuşma ve blöf serbest olsaydı gerçekten komik ve ilginç bir deney olurdu 😄