1 puan yazan GN⁺ 2024-11-23 | 1 yorum | WhatsApp'ta paylaş
  • Son dönemde büyük dil modellerinin (LLM) satrancı iyi oynayamadığına dair bir gizem vardı. Ancak gpt-3.5-turbo-instruct, istisnai biçimde amatör seviyede satrancı iyi oynuyor. Bu model diğer yeni modellere göre daha eski ve daha küçük.

  • Birkaç teori öne sürülüyor:

    • Teori 1: Yeterince büyük temel modeller satrancı iyi oynuyor, ancak sohbet modeline yönelik talimat ayarlamasında durum böyle değil.
    • Teori 2: gpt-3.5-turbo-instruct daha fazla satranç verisiyle eğitilmiş olabilir.
    • Teori 3: Belirli bir LLM mimarisinde özel bir şey var.
    • Teori 4: Veri türleri arasında bir "rekabet" var; bu yüzden LLM'nin satrancı iyi oynaması için çok sayıda satranç oyunu verisine ihtiyaç var.
    • Teori 5: OpenAI'nin hile yaptığı iddiası.
    • Teori 6: LLM'lerin aslında satranç oynayamadığı iddiası.
  • OpenAI'nin hile yaptığı iddiasına inanmak zor. gpt-3.5-turbo-instruct, bir satranç motorundan farklı şekilde hamle seçiyor ve uzman ölçütlerine göre olağanüstü değil.

  • LLM'ler satranç oynayabiliyor. gpt-3.5-turbo-instruct neredeyse hiç kuralsız hamle önermiyor ve yeni tahta durumlarında da iyi oynuyor.

  • gpt-3.5-turbo-instruct bir "completion" modeli; metin alıp yeni metin üretiyor. gpt-4o-mini ve gpt-4o ise sistem istemi ve kullanıcı istemi kullanan "chat" modelleri.

  • Çeşitli deneyler, istem ayarlama, örnek ekleme ve ince ayarın model performansını etkileyebildiğini gösteriyor.

  • Örnek eklemek performansı büyük ölçüde etkiledi ve ince ayar da yardımcı oldu. Ancak yasal hamleler sunmak performansı düşürdü.

  • gpt-4o "completion" moduna benzer şekilde çalışmaya yönlendirildiğinde performansı artıyor. Bu da gpt-4-base modelinin satrancı iyi oynama ihtimaline işaret ediyor.

  • Sonuç olarak, OpenAI'nin temel modelleri muhtemelen daha fazla satranç verisi öğrenmiş olabilir ve sohbet modelleri completion modellerine göre daha düşük performans gösterebilir.

  • En iyi istemi, örnekleri ve ince ayarı bulmak zor ve maliyetli bir iş.

1 yorum

 
GN⁺ 2024-11-23
Hacker News görüşü
  • Yazar, yasa dışı hamlelerin sıklığına dair veri sunmadığı için anlamlı bir sonuca varmak zor

    • Örneğin bu, LLM'nin uzman düzeyinde bir doktor olduğunu iddia edip hatalı tıbbi tavsiyeler hariç veri sunmaya benziyor
  • gpt-3.5-turbo-instruct, oyun sonlarında da neredeyse hiç yasa dışı hamle önermiyor

    • Bu modelin satrancı "anladığı" ve "mantıksal akıl yürütme" yapabildiği iddia ediliyor
    • "İleri seviye amatör" satranç oyuncularının nadiren yasa dışı hamle yapması nedeniyle bu konuda şüphe dile getiriliyor
  • Satrancı anlayıp anlamadığını test etmenin bir yolu, 1000 rastgele yasal pozisyonda bir sonraki hamleyi yaptırmak

    • ChessPositionRanking projesiyle üretilen pozisyonlarda yasa dışı hamle önerip önermediği kontrol ediliyor
    • Bu tür pozisyonlar bir sonraki hamlenin yasallığını test etmek için faydalı, ancak kaliteyi ayırt etmek için daha az kullanışlı
  • Herkesin yanlış olduğu söylenemez

    • Yayımlanmış benchmark'ların eğitim sırasında özellikle hedeflenmiş olduğunu varsaymak gerekir
    • OpenAI'nin eğitim verisine satranç oyunları dahil etmesi doğaldır
  • LLM'ler sanki bir büyü yapıyormuş gibi hissettiriyor

    • Teknolojik yeniliğin sürmesi umuluyor; LLM'ler etkileyici olsa da bazen bir bilim kurgu filmi gibi geliyor
  • Kod örnekleriyle eğitmenin "akıl yürütmeyi" geliştirdiği iddia ediliyor

    • "Dilden dünya modeline" yaklaşımına dair makale işe yarıyorsa, satranç bunun en küçük örneği olmalı
  • gpt-3.5-turbo-instruct'ın satranç notasyonunu tanıyıp harici bir satranç motoru çağırdığı özel bir durum olabilir

    • Belirli bir modelin satranç notasyonunu algıladığında başka bir LLM'ye geçecek şekilde eğitilmiş olabileceği öne sürülüyor
  • LLM'ye oyunu kazanması açıkça söylenmemiş olsa da sonuç ölçülmüş

    • Bunun "Sen bir satranç büyükustasısın" isteminin içinde örtük olarak bulunup bulunmadığı sorgulanıyor
  • İnce ayar yardımcı oluyor ve örnekler ince ayarın yerini alabiliyor

    • Örnek vermenin ince ayarla eşdeğer etki yaratabilmesi ilgi çekici bulunuyor
  • İstem üzerinde düşünmeden LLM ile satranç oynamak eğlenceli olabilir

    • Bu, LLM'nin nasıl "düşündüğünü" hissetmenin yeni bir yolu olabilir