1 puan yazan GN⁺ 2024-06-16 | 1 yorum | WhatsApp'ta paylaş

Leela Chess Zero'nun sınırları

  • Leela Chess Zero, kendi kendine oynadığı maçlarla milyarlarca kez eğitim görerek dünya şampiyonu oldu
  • Ancak Stockfish'e karşı ezici biçimde yenildi
  • Daha büyük ağlar eğitilse bile Stockfish'i yenemedi
  • Stockfish, Leela'dan çok daha küçük bir model kullanmasına rağmen daha iyi arama yeteneği sayesinde kazandı

Stockfish'in zaferi üzerine daha fazla düşünce

  • Leela, aramada yeterince iyi olmadığı için dünya şampiyonluğunu kaybetti
  • LLM'lere arama yeteneği eklemek artık çok yakın, ancak yeterince ilgi görmüyor
  • GPT-4 gibi foundation modellerin arama yeteneği yok
  • Aramayı mümkün kılmak için daha büyük modellere ihtiyaç olduğu varsayımı baskın, ancak buna karşı örnekler var
  • DeepMind'ın araştırmasına göre satranç algoritmalarında arama davranışı doğal olarak ortaya çıkıyor
  • Verimli arama algoritmaları varken, büyük modellerde verimsiz bir öncül aramanın tesadüfen ortaya çıkmasını beklemeye gerek yok
  • Günümüz modelleri aramayı mümkün kılacak kadar büyük ve hatta gereksiz derecede büyük olabilir

Arama, hedef alana hesaplama kaynaklarının tahsis edilmesini mümkün kılar

  • Bir ilaç şirketinin yapay zekayı kullanarak yeni ilaç araştırmak istediğini varsayalım
  • Yapay zeka aramasının mümkün olduğu bir dünyada iki seçenek vardır
    1. 2030'a kadar bekleyip OpenAI'ın 4 büyüklük mertebesi daha büyük bir model çıkarmasını beklemek veya
    2. Bugün hemen 4 büyüklük mertebesi daha fazla çıkarım hesaplama kaynağı kullanmak
  • İlaç şirketi ikinci seçeneği tercih edecektir
  • Arama sayesinde 2030'daki ASI düzeyi yeteneklerden bugünden yararlanmak mümkün olur

Arama tabanlı yapay zeka gelişim senaryosu

  • Mevcut modellerde aramanın çalıştığı keşfedilir
  • Hükümetler veya büyük araştırma kurumları, aramanın yapay zeka araştırmalarına ya da yurt dışı istihbarat toplamaya hemen uygulanabileceğini fark eder
  • Çıkarım hesaplama kaynakları sınırlı olduğu için bu kullanım hükümetler veya büyük araştırma kurumları tarafından güvenlik ya da yapay zeka araştırmasıyla sınırlı kalır
  • Arama öncülüğündeki yapay zeka gelişimi, daha verimli arama algoritmalarının ve model mimarilerinin keşfine yol açar
  • Arama daha fazla eğitim verisi gerektirmez; böylece 'veri duvarı' sorunu hafifler
  • Zeka patlaması 2030'da değil, gelecek yıldan itibaren başlar

Aramanın yapay zekanın kendi araştırmasına uygulanma olasılığı

  • Yapay zeka kendisini araştırabilecek kadar geliştiğinde, çok hızlı bir ilerleme dinamiği beklenir
  • Bir ilaç şirketi GPT-8'i beklemeden yeni ilaç araştırabildiği gibi, yapay zeka laboratuvarları da daha büyük modelleri beklemeden yapay zekayı araştırabilir hale gelir
  • İnsan yapay zeka araştırmacılarının yerini alabilmesi için daha fazla kısıtın kaldırılması gerekebilir
  • Ancak GPT-8 düzeyinde zekaya sahip basit bir chatbot bile yapay zeka gelişimini hızlandırmak için yeterli olabilir

1 yorum

 
GN⁺ 2024-06-16
Hacker News görüşü

Hacker News yorum özeti

  • Aramanın etkinliği, değer fonksiyonunun kalitesiyle yakından ilişkilidir: Mevcut değer fonksiyonları belirli alanlara çok güçlü biçimde özelleşmiştir ve yeni alanlara genellenebilen değer fonksiyonları oluşturulabildiğine dair kanıtlar yetersizdir.
  • Yann LeCun'un araştırması: Yann LeCun, AGI oluşturmak için aramanın rolünü araştırıyor ve JEPA aracılığıyla sağlam bir dünya modeli kurmaya çalışıyor.
  • Dil modellerinin sınırları: Mevcut LLM'lerin yeterince zengin bir dünya modelini simüle edip edemeyeceği sorgulanıyor; videonun önemli olmasının nedeni ise insanların görüntü dizilerinden yararlı dünya modelleri çıkarabilmesidir.
  • Yazının muğlaklığı: Gönderi ilgi çekici bir önermeyle başlıyor, ancak LLM bağlamında aramayı tanımlamıyor ve "Pfizer bugün GPT-8 yeteneklerini kullanabilir" iddiasını açıklamıyor.
  • Satranç motorlarında arama: Satranç motorlarında arama, nesnel bir fonksiyon olduğu için mümkündür; LLM'lerde buna karşılık gelen bir metriğin olup olmadığı ise belirsizdir.
  • Aramanın gerekliliği: Arama neredeyse kesin olarak gereklidir ve düşük maliyetli kümelerin yüksek maliyetli kümeleri yenebileceği bir yol bulmak önemlidir.
  • Satranç ile diğer oyunlar arasındaki fark: Satrançta budama unsuru daha az olduğu için geniş kapsamlı bir yaklaşım mümkündür, ancak gerçek dünyadaki durumlarda budama unsuru çok daha büyüktür.
  • Aramanın genellenmesi: Arama, "üret ve test et" ile reddetme örneklemesinin genellenmiş hâlidir; hız ise aday üretimi ve test süresine bağlıdır.
  • Web sitesi sorunu: Belirli bir web sitesi, varsayılan tarayıcı işlevlerini engelleyerek rahatsızlığa yol açıyor.
  • Leela Chess Zero'nun oyun ağacı: Leela, satranç oyununu bir oyun ağacı olarak modelleyip arama algoritmaları kullanıyor.
  • LLM'lerde arama olasılığı: LLM'lerin arayabileceği olasılık uzayının ne olduğu net değildir.
  • LLM'lerin sınırları: LLM'ler cheesecake yapamadığı ya da değerlendiremediği için AGI'ye dair beklentileri düşürmek gerekir.
  • Bilgi kuramsal sorun: LLM eğitimi için aşırı miktarda veri gerekmesi, genelleme eksikliğinin ve içsel dünya modellemesindeki yetersizliğin sorun olduğunu gösteriyor.