1 puan yazan GN⁺ 2024-11-15 | 1 yorum | WhatsApp'ta paylaş
  • LLM'lerde ve satrançta tuhaf durumlar

    • LLM'lerin (büyük dil modelleri) satrançta iyi olup olamayacağına dair tartışmalar vardı. LLM'ler dil tahmini için tasarlanmış olsa da, satranç oyunlarını tahmin etme becerisi gösteriyor.
    • LLM'lerin bir satranç oyununu sonuna kadar oynayabilmesi ilgi çekiciydi. Bu, LLM'lerin başka durumlarda nasıl çalıştığına dair de bir ipucu olabilir.
  • Yaptıklarım

    • LLM'lere satranç oynatmak için belirli istemler kullandım. Örneğin, "Siz bir satranç büyükustasısınız. Bir sonraki hamleyi seçin." gibi taleplerde bulundum.
    • llama-3.2-3b modeliyle 50 oyun oynattım, ancak sonuçlar iyi değildi. Daha büyük modeller olan llama-3.1-70b ve llama-3.1-70b-instruct da denendi, ama sonuç hâlâ iyi değildi.
    • gpt-3.5-turbo-instruct modeli çok iyi performans gösterdi. Ancak diğer modellerin tümü kötü sonuçlar verdi.
  • Tartışma

    • Birçok kişi LLM kullanarak satranç denedi, ancak modellerin çoğu iyi sonuç veremedi.
    • gpt-3.5-turbo-instruct modelinin neden diğer modellerden daha iyi satranç oynadığına dair çeşitli teoriler var.
    • Ek talimat ince ayarının model performansını düşürebileceğine dair bir teori bulunuyor.
  • Olası teoriler

    • Teori 1: Temel model yeterli ölçekte satranç oynayabiliyor olabilir, ancak talimat ince ayarı bunu bozuyor.
    • Teori 2: gpt-3.5-instruct daha fazla satranç oyunu ile eğitilmiş olabilir.
    • Teori 3: Farklı transformer mimarileri arasında etkili farklar olabilir.
    • Teori 4: Veri türleri arasında bir "rekabet" olabilir.
  • Ayrıntılar

    • Deneyler, satranç oyunları için standart cebirsel notasyon kullanılarak yürütüldü.
    • OpenAI modellerinde tam dilbilgisi desteği olmadığından, geçerli bir hamle üretilene kadar en fazla 10 kez deneme yapıldı.
  • Token anormalliği

    • İstemde boşluk bulunması model performansını büyük ölçüde düşürüyor. Bu, tokenizer kaynaklı bir sorun gibi görünüyor.
    • Doğru yaklaşım "token healing" kullanmak, ancak bunu kolayca uygulamanın bir yolunu bulamadım.

1 yorum

 
GN⁺ 2024-11-15
Hacker News görüşleri
  • OpenAI'nin satrancı önemli bir ölçüt olarak alıp gpt-3.5-turbo-instruct için özel bir işlem yaptığı, ancak bunu sonraki modellere eklemediği ihtimali gözden kaçmış gibi görünüyor

    • Bunun nedeni satrancın sürekli medya ilgisi üretmemesi olabilir
  • Tüm açık modelleri Q5_K_M quantization ile çalıştırdım, ancak bunun yalnızca tüm parametrelerin kayıplı sıkıştırması olduğunu ve önemli olmadığını düşünüyorum

  • Eğitimli insanların LLM'lerin satrançta iyi olmasını neden beklediğini anlamıyorum

    • Satranç gerçek akıl yürütme ve deterministik hesaplama gerektirir
  • İyi sonuçların tekrarlanabilir olup olmadığını merak ediyorum

    • Geçmişte iyi sonuçlar aldım ama sonra yeniden üretemedim
    • Venture capital ekonomisi, "aldatmaca" olarak görülen teknolojileri meşrulaştırma baskısı anlamına geliyor
  • Gerçekten zeki modeller istiyorsak tokenization'ı durdurmamız gerekebilir diye düşünüyorum

    • Bilgi akışının yapısını sınırlayarak modelin görüşünü ve algısını kısıtlıyoruz
  • gpt-3.5-turbo-instruct'un satrançta daha üstün olduğuna dair deney sonuçları buldum

  • Eğer satranç öğrenmek sıra öğrenmekse sorun çıkabilir

    • Modern satranç motorları en azından tüm oyunculara karşı beraberlik alabilir
  • Problem arama alanında hesaplamayı artırmayı deneyebiliriz

    • Acemi bir satranç oyuncusunun uygulayabileceği adım adım talimatlar vererek çeşitli parametreler ayarlanabilir
  • GPT-3.5-instruct'un satranç oynamak için geleneksel bir satranç motoru çağırabildiğine dair bir teori var

  • Farklı insan deneyimlerinde farklı türde beceri ve zeka olduğunu biliyoruz

    • Modelin satrançta iyi olması, tesadüfen uygun bir 'bağlantısallığa' sahip olmasından kaynaklanıyor olabilir