LLM satrançtaki anomaliye kısmi açıklama olasılığı
(dynomight.net)-
Son dönemde büyük dil modellerinin (LLM) satrancı iyi oynayamadığına dair bir gizem vardı. Ancak
gpt-3.5-turbo-instruct, istisnai biçimde amatör seviyede satrancı iyi oynuyor. Bu model diğer yeni modellere göre daha eski ve daha küçük. -
Birkaç teori öne sürülüyor:
- Teori 1: Yeterince büyük temel modeller satrancı iyi oynuyor, ancak sohbet modeline yönelik talimat ayarlamasında durum böyle değil.
- Teori 2:
gpt-3.5-turbo-instructdaha fazla satranç verisiyle eğitilmiş olabilir. - Teori 3: Belirli bir LLM mimarisinde özel bir şey var.
- Teori 4: Veri türleri arasında bir "rekabet" var; bu yüzden LLM'nin satrancı iyi oynaması için çok sayıda satranç oyunu verisine ihtiyaç var.
- Teori 5: OpenAI'nin hile yaptığı iddiası.
- Teori 6: LLM'lerin aslında satranç oynayamadığı iddiası.
-
OpenAI'nin hile yaptığı iddiasına inanmak zor.
gpt-3.5-turbo-instruct, bir satranç motorundan farklı şekilde hamle seçiyor ve uzman ölçütlerine göre olağanüstü değil. -
LLM'ler satranç oynayabiliyor.
gpt-3.5-turbo-instructneredeyse hiç kuralsız hamle önermiyor ve yeni tahta durumlarında da iyi oynuyor. -
gpt-3.5-turbo-instructbir "completion" modeli; metin alıp yeni metin üretiyor.gpt-4o-minivegpt-4oise sistem istemi ve kullanıcı istemi kullanan "chat" modelleri. -
Çeşitli deneyler, istem ayarlama, örnek ekleme ve ince ayarın model performansını etkileyebildiğini gösteriyor.
-
Örnek eklemek performansı büyük ölçüde etkiledi ve ince ayar da yardımcı oldu. Ancak yasal hamleler sunmak performansı düşürdü.
-
gpt-4o"completion" moduna benzer şekilde çalışmaya yönlendirildiğinde performansı artıyor. Bu dagpt-4-basemodelinin satrancı iyi oynama ihtimaline işaret ediyor. -
Sonuç olarak, OpenAI'nin temel modelleri muhtemelen daha fazla satranç verisi öğrenmiş olabilir ve sohbet modelleri completion modellerine göre daha düşük performans gösterebilir.
-
En iyi istemi, örnekleri ve ince ayarı bulmak zor ve maliyetli bir iş.
1 yorum
Hacker News görüşü
Yazar, yasa dışı hamlelerin sıklığına dair veri sunmadığı için anlamlı bir sonuca varmak zor
gpt-3.5-turbo-instruct, oyun sonlarında da neredeyse hiç yasa dışı hamle önermiyorSatrancı anlayıp anlamadığını test etmenin bir yolu, 1000 rastgele yasal pozisyonda bir sonraki hamleyi yaptırmak
Herkesin yanlış olduğu söylenemez
LLM'ler sanki bir büyü yapıyormuş gibi hissettiriyor
Kod örnekleriyle eğitmenin "akıl yürütmeyi" geliştirdiği iddia ediliyor
gpt-3.5-turbo-instruct'ın satranç notasyonunu tanıyıp harici bir satranç motoru çağırdığı özel bir durum olabilirLLM'ye oyunu kazanması açıkça söylenmemiş olsa da sonuç ölçülmüş
İnce ayar yardımcı oluyor ve örnekler ince ayarın yerini alabiliyor
İstem üzerinde düşünmeden LLM ile satranç oynamak eğlenceli olabilir