-
LLM'lerde ve satrançta tuhaf durumlar
- LLM'lerin (büyük dil modelleri) satrançta iyi olup olamayacağına dair tartışmalar vardı. LLM'ler dil tahmini için tasarlanmış olsa da, satranç oyunlarını tahmin etme becerisi gösteriyor.
- LLM'lerin bir satranç oyununu sonuna kadar oynayabilmesi ilgi çekiciydi. Bu, LLM'lerin başka durumlarda nasıl çalıştığına dair de bir ipucu olabilir.
-
Yaptıklarım
- LLM'lere satranç oynatmak için belirli istemler kullandım. Örneğin, "Siz bir satranç büyükustasısınız. Bir sonraki hamleyi seçin." gibi taleplerde bulundum.
llama-3.2-3b modeliyle 50 oyun oynattım, ancak sonuçlar iyi değildi. Daha büyük modeller olan llama-3.1-70b ve llama-3.1-70b-instruct da denendi, ama sonuç hâlâ iyi değildi.
gpt-3.5-turbo-instruct modeli çok iyi performans gösterdi. Ancak diğer modellerin tümü kötü sonuçlar verdi.
-
Tartışma
- Birçok kişi LLM kullanarak satranç denedi, ancak modellerin çoğu iyi sonuç veremedi.
gpt-3.5-turbo-instruct modelinin neden diğer modellerden daha iyi satranç oynadığına dair çeşitli teoriler var.
- Ek talimat ince ayarının model performansını düşürebileceğine dair bir teori bulunuyor.
-
Olası teoriler
- Teori 1: Temel model yeterli ölçekte satranç oynayabiliyor olabilir, ancak talimat ince ayarı bunu bozuyor.
- Teori 2:
gpt-3.5-instruct daha fazla satranç oyunu ile eğitilmiş olabilir.
- Teori 3: Farklı transformer mimarileri arasında etkili farklar olabilir.
- Teori 4: Veri türleri arasında bir "rekabet" olabilir.
-
Ayrıntılar
- Deneyler, satranç oyunları için standart cebirsel notasyon kullanılarak yürütüldü.
- OpenAI modellerinde tam dilbilgisi desteği olmadığından, geçerli bir hamle üretilene kadar en fazla 10 kez deneme yapıldı.
-
Token anormalliği
- İstemde boşluk bulunması model performansını büyük ölçüde düşürüyor. Bu, tokenizer kaynaklı bir sorun gibi görünüyor.
- Doğru yaklaşım "token healing" kullanmak, ancak bunu kolayca uygulamanın bir yolunu bulamadım.
1 yorum
Hacker News görüşleri
OpenAI'nin satrancı önemli bir ölçüt olarak alıp gpt-3.5-turbo-instruct için özel bir işlem yaptığı, ancak bunu sonraki modellere eklemediği ihtimali gözden kaçmış gibi görünüyor
Tüm açık modelleri Q5_K_M quantization ile çalıştırdım, ancak bunun yalnızca tüm parametrelerin kayıplı sıkıştırması olduğunu ve önemli olmadığını düşünüyorum
Eğitimli insanların LLM'lerin satrançta iyi olmasını neden beklediğini anlamıyorum
İyi sonuçların tekrarlanabilir olup olmadığını merak ediyorum
Gerçekten zeki modeller istiyorsak tokenization'ı durdurmamız gerekebilir diye düşünüyorum
gpt-3.5-turbo-instruct'un satrançta daha üstün olduğuna dair deney sonuçları buldum
Eğer satranç öğrenmek sıra öğrenmekse sorun çıkabilir
Problem arama alanında hesaplamayı artırmayı deneyebiliriz
GPT-3.5-instruct'un satranç oynamak için geleneksel bir satranç motoru çağırabildiğine dair bir teori var
Farklı insan deneyimlerinde farklı türde beceri ve zeka olduğunu biliyoruz