AI araması: Daha acı bir ders

(yellow-apartment-148.notion.site)

1 puan yazan GN⁺ 2024-06-16 | 1 yorum | WhatsApp'ta paylaş

Temel modellere daha uzun çıkarım süresi kullanan arama(search) yeteneği eklenirse, daha büyük bir modelin çıkmasını beklemekten farklı bir AI ilerleme yolu açılabilir
Leela Chess Zero, öz-oyun ve derin öğrenmeyle Stockfish'i yendi, ancak Stockfish daha küçük bir sinir ağını güçlü bir arama pipeline'ı ile birleştirerek yeniden üstünlüğü ele geçirdi
Buradaki arama, eğitim compute'u değil çıkarım compute'unu daha fazla kullanarak problem çözme performansını artırma yeteneğidir; yalnızca satranç tarzı MCTS ya da AlphaBeta anlamına gelmez
Arama, compute'un yalnızca gerekli alanlara yoğunlaştırılmasını sağlayarak Pfizer gibi şirketlere OpenAI'nin daha büyük modellerini beklemek yerine çıkarım maliyetini doğrudan ödeme seçeneği sunabilir
Arama önce AI araştırmasına uygulanırsa, daha verimli arama algoritmaları ve model mimarileri bulmak için kullanılabilir; bu da kendini geliştiren AI'ın beklenenden daha yakın olabileceği anlamına gelir

Leela ve Stockfish'in gösterdiği “daha acı ders”

Leela Chess Zero, yalnızca kuralları bilerek başlayan ve milyarlarca kez öz-oyun ile eğitilmiş bir satranç motorudur
- İnsanların satranç bilgisini doğrudan hardcode etmek yerine, kendi kendine öğrendiği bir yaklaşımla insan satrancının yerleşik doğrularını sarsan hamleler yaptı
- Uzun vadeli fedalar ve yaratıcı hamleler sergiledi ve dünya şampiyonasını kazandı
Leela'nın gücü derin öğrenmeydi ve The Bitter Lesson'ın anlattığı büyük ölçekli hesaplama ve öğrenmenin gücünü iyi gösteriyordu
- Bu, insanın tasarladığı bilgiden ziyade kendi kendine öğrenilmiş temsillerin daha güçlü hale gelebileceği yönündeki akımla örtüşüyor
Leela ekibi 2018'de, daha büyük ağların daha küçük ağlardan tutarlı biçimde daha güçlü olduğunu gözlemledi
- Daha büyük ağlar, açık bir arama olmadan bile birkaç hamle sonrasını görüyormuş gibi duran ortaya çıkan özellikler sergiliyordu
2020'de Leela ekibi, daha büyük ağları eğitmek için kurumsal bağışçılardan ve tanıdıkların GTX 1070 gibi kartlarından compute topladı; dünya şampiyonası öncesinde en büyük modeli hazırladı ama yenildi

Stockfish'in geri dönüşü: küçük model ve güçlü arama

Stockfish, 2010'larda baskın satranç programıydı ve 2019'da insanların oyun bilgisini matematiksel tekniklerle koda işlediği eski tarz bir AI'a daha yakındı
Leela, derin öğrenme ve tabula rasa yaklaşımıyla 2019'da Stockfish'i yendi, ancak Stockfish daha sonra Leela'nın derin öğrenme tekniklerini alıp çok daha küçük bir modeli eğitti
- Bu model, en üst düzey Leela modelinden yüzlerce kat daha küçüktü
- Stockfish bu küçük modeli mevcut arama pipeline'ına yerleştirdi ve kısa sürede Leela'yı ezici biçimde geçti
Bu zafer, daha büyük modelleri kovalayan ölçekleme yasalarına ters gibi görünüyor
- Çünkü model daha küçüktü ama arama algoritması daha verimliydi, donanımı daha iyi kullanıyordu ve daha uzağı görebiliyordu
“Daha acı ders”, gösterişli derin öğrenme çağında bile AI aramasının gücünü küçümsememek gerektiğini söylüyor

Temel model aramasının tanımı ve mevcut sınırlar

GPT-4 gibi temel modellerde, bu yazının kastettiği anlamda arama eksik
- GPT-4'ten bir problem üzerine bir ay düşünmesini isteyip daha iyi bir yanıt beklemek şu anda mümkün değil
- “adım adım düşün” istemi performansı artırabilir, ancak getiriler hızla azalır
Temel model araması, eğitim compute'u değil çıkarım compute'unu daha fazla kullanarak problemleri daha iyi çözme yeteneğidir
- Yalnızca satranç tarzı MCTS veya AlphaBeta aramasını kastetmez
- İnsanların içe dönük düşünmesi ve işbirliği de bu tanımın içine girer
AI araştırmacıları, ekonomistler ve CEO'lar; temel modellere arama kazandırmanın ne kadar yakın ve ne kadar önemli olduğunu olduğundan az değerlendiriyor olabilir
Aramanın önemli olmasının üç temel nedeni var
- Uygulama için mutlaka daha büyük model ölçeği gerekmeyebilir
- Compute yalnızca ihtiyaç duyulan yere yoğunlaştırılabilir
- AI araştırmasının otomasyonunu hızlandırabilir

Ölçek, aramanın önkoşulu olmayabilir

Yaygın varsayım, LLM aramasını mümkün kılmak için daha büyük modellere ihtiyaç olduğu yönünde
- Sholto Douglas, uzun süreli düşünmeyi ele alabilmek için LLM güvenilirliğinde daha fazla “dokuz” gerektiğini söylüyor
- Leopold Aschenbrenner ise ön eğitimin, arama için gerekli malzemeyi zaten barındırıyor olabileceğini ve biraz daha fazla ölçekleme ile ek token gerektiğini savunuyor
Ancak satranç örneği, ölçeğin aramanın önkoşulu olduğu fikrini sarsıyor
- DeepMind, aramasız satranç algoritması çalışmasında, geleceğe bakar gibi davranışların dışarıdan scaffolding olmadan doğal biçimde ortaya çıktığını inceliyor
- Satrançta zaten arama algoritmaları bulunduğu için, büyük modellerde verimsiz ileri bakma yeteneğinin tesadüfen ortaya çıkmasını beklemek için zayıf bir gerekçe olduğu savunuluyor
Scaling Scaling Laws with Board Games, eğitim sırasında compute 10 kat arttığında test sırasında compute'un yaklaşık 15 kat azaltılabildiğini gösterdi
- Bu sonuç, tek nöronlu modellere kadar inildiğinde bile gözlemleniyor
- Bu, Stockfish'in Leela'yı üç basamak daha küçük bir modelle yenmesiyle bağlantılı
Mevcut modeller, aramayı mümkün kılacak kadar zaten yeterince büyük olabilir; hatta belki gerekenden bile büyük olabilir

Aramanın ekonomisi ve AI araştırmasının otomasyonu olasılığı

Arama, eğitim zamanındaki compute ile çıkarım zamanındaki compute arasında takası mümkün kılar ve maliyetin yalnızca belirli alanlara harcanmasını sağlar
Pfizer örneği, aramanın alana özgü compute harcamasına nasıl dönüşebileceğini gösteriyor
- Pfizer yeni bir ilaç araştırmak için, OpenAI'nin 2030'da dört basamak daha büyük bir model çıkarmasını bekleyebilir
- Ya da bugün, dört basamak daha fazla çıkarım compute'u kullanarak benzer yeteneği elde etmeye çalışabilir
Pfizer'in GPT-4'e yılda 100 bin dolar harcadığını varsayarsak, 2030'daki ASI düzeyine yaklaşmak için AI bütçesini dört basamak artırıp yıllık 1 milyar dolara çıkarması gerekir
- Pfizer'in Ar-Ge bütçesi zaten 12 milyar dolar düzeyinde
- Aynı yetenekte bir modeli eğitmenin OpenAI'ye trilyonlarca dolara mal olabileceği öne sürülüyor
Leopold Aschenbrenner'in 2030 ASI yolu; büyük kümeler, gelir artışı, büyük kurumsal krediler, devletin daha büyük kümeler kurması ve sonunda modelin AI araştırmasını kendi başına yapabilecek kadar büyümesi akışına dayanıyor
- Aramanın olmadığı bir dünyada bu yol kulağa makul geliyor
Aramanın çalıştığı bir dünyada ise başka bir yol mümkün
- Mevcut modeller üzerinde arama çalışır
- Büyük laboratuvarlar ve devletler aramayı hemen AI araştırmasına ya da yurtdışı istihbarata uygular
- Çıkarım compute'u sınırlı olduğu için, devletler veya büyük laboratuvarlar kullanımını güvenlik ya da AI araştırmasıyla sınırlar
- Arama tabanlı AI ilerlemesi, daha verimli arama algoritmaları ve model mimarileri bulur
- Arama daha fazla eğitim verisi gerektirmediği için veri engeli sorunu zayıflar
- Bu da zekâ patlamasının 2030'da değil, gelecek yıl başlayabileceği beklentisine yol açar
AI araştırmasında arama kullanılırsa, yeni ilaç keşfinden farklı olarak sonuçlar doğrudan daha iyi AI üretmeye yeniden katkı sağlayabilir
- İlk aramayla güçlendirilmiş modellerde araç kullanma veya test çalıştırma gibi insansı ajans özellikleri olmayabilir
- Buna rağmen, insanüstü “armchair theorists” gibi davranarak algoritmik ilerlemeyi yönlendirebilecekleri düşünülüyor
- GPT-4, 1 trilyon token ve 15 milyon dolar harcayarak eğitim maliyetini %3 düşüren veya arama verimliliğini %10 artıran bir algoritma bulursa, bu maliyetin karşılanabileceği hesabı yapılıyor
Bu öngörü iki varsayıma dayanıyor
- RL sistemlerinde görülenlere benzer performans artışlarını mümkün kılan temel model arama algoritmaları vardır
- Arama, mevcut sermayeyi modele ölçek eklemekten daha verimli biçimde zekâya dönüştürür
2020'lerdeki ölçekleme yasalarının aksine, aramanın performansı ve ekonomisi hakkında hâlâ güçlü kanıtlar yok; oyun pekiştirmeli öğrenme deneyimlerinden yapılan dışa vurumlar sürüyor

1 yorum

GN⁺ 2024-06-16

Hacker News yorumları

Aramanın etkisi, değer fonksiyonunun kalitesiyle birlikte gider. Ancak mevcut değer fonksiyonları alanlara fazlasıyla özgü; yeni alanlara iyi genellenen değer fonksiyonları oluşturabileceğimize dair kanıtın zayıf olduğunu ya da hiç olmadığını düşünüyorum.
Bu yazı aslında “satranç için iyi bir değer fonksiyonu var”dan “AI araştırması için aramayı mümkün kılacak iyi bir değer fonksiyonu oluşturabiliriz”e kavramsal bir sıçrama yapıyor.
Elbette böyle olursa harika, kutsal kâse gibi bir şey olur; ama gerçekten mümkün mü, şüpheliyim. Üstelik LLM çalıştırmaya çıkarım zamanı maliyeti 1000 kat ya da 10000 kat eklenirse maliyet akıl almaz seviyelere çıkar.
- Genelleştirilmiş bir değer fonksiyonu, yani LLM benchmark’ları bir ölçüde var bence. Sorun, çıkarım anında ağaç araması yapacak kadar ucuz bir yaklaşımın olmaması.
  Satrançta taş üstünlüğü, kazanmaya oldukça iyi bir yaklaşımdır ve hesaplaması da çok kolay olduğu için işe yarar.
- “Genel amaçlı AI” alanında bir atılım geleceğine inanıp inanmadığını merak ediyorum. Az önce söylediğin nokta, “yakında oraya varacağız” diyen AI araştırmacılarına neden kuşkuyla yaklaştığımı iyi ifade ediyor gibi geliyor.
  Zaten genel amaçlı AI’ın tam olarak ne olduğu da iyi tanımlanmış görünmüyor.
- Bazı alanlarda öz değerlendirme tek başına yeterli olabilir. O zaman AI, kendi ölçütlerine göre daha yüksek puan alan yanıtı bulmak için birçok deneme yapar ve tekrar tekrar kendini değerlendirir.
- İyi bir değer fonksiyonu için gereken tek şey, ilgili görevin yüksek kaliteli simülasyonudur.
  Bazı alanlarda bu daha iyi çalışır. Örneğin matematikte teorem kanıtlayıcılar başarı olup olmadığını kesin biçimde söyler.
  Yan etki olarak Lean’e insan araştırmacılara yardımcı olacak arama benzeri özellikler eklenebilir; bu da matematikte AI ilerlemesine katkı sağlayabilir.
- Stockfish, verilen bir pozisyonda yasal hamle sayısı sınırlı olduğu ve kaybeden dallar erken ve güçlü biçimde budanabildiği hâlde 40 hamle ileriyi görürken muhtemelen milyonlarca pozisyonu değerlendirir.
  Tek bir en iyi yanıtı seçmek için LLM’in devam cümlelerinden milyonlarcasını değerlendirmenin maliyetini hayal etmek bile zor.
  LLM’de ağaç aramasının daha mantıklı olduğu nokta, kelime düzeyindeki alternatifler değil, daha iri taneli “şöyle düşünürsem ne olur” yollarını keşfeden akıl yürütme olabilir. Yine de üretim, değerlendirme ve budama maliyetleri kolayca katlanılamaz hâle gelebilir; ayrıca bu tür önyargılı bir yaklaşım acı ders ile uyumlu olmaktan çok, ona doğrudan ters düşüyor gibi de görünüyor.
Bu, genel olarak çözmesi gerçekten zor bir problem; Yann LeCun gibi zeki araştırmacılar da AGI yapımında aramanın rolünün ne olduğunu bulmaya çalışıyor.
Yann’ın mevcut bahsi, sağlam bir dünya modeli oluşturmak için temsil öğreniminde Joint Embedding Predictive Architectures, yani JEPA kullanmak ve ajanın farklı eylemler deneyerek teoriyi test etmesini sağlamak yönünde görünüyor.
Bu makale [0] onun olası vizyonunu iyi özetliyor; ancak elbette bu, basitçe arama + transformer’dan çok daha zor bir iş.
Dilin, dünyayı yeterince iyi temsil ettiği; böylece bir ajanın onun üzerinde etkili biçimde arama yapıp yeni ve yararlı fikirler üretebileceği varsayımı var. Bu açık bir soru gibi geliyor. LLM’ler ne biliyor? Gerçekten bir şey biliyorlar mı? Bunu araştırmacıların çözmesi gerekiyor.
Mevcut LLM’ler yeterince zengin bir dünya modelini simüle edebiliyorsa arama gerçekten yararlı hâle gelebilir; ama sadece taklit ediyorlarsa güvenilmez inançlar üzerinde arama yapmaktan ibaret olur.
Bu yüzden video önemli. Çünkü insanların görüntü dizilerinden yararlı dünya modelleri çıkarabildiğine dair kanıt sunuyor.
Dil ve satrançta eylem uzayı fiilen ayrık olduğundan, kayıp hesaplamak için tüm girdiyi yeniden oluşturan üretken model eğitimi mümkün. Videoya geçildiğinde ise transformer’ların sürekli dağılımlar üzerinde ölçeklenmesi gerekir; bu nedenle yararlı bir öngörücü dünya modeli oluşturmak çok daha zorlaşır.
[0]: https://arxiv.org/abs/2306.02572
- AGI’nin mümkün olduğu fikrinin, insan beynini bilgisayar olarak gören derin ve yaygın bir hayalden çıktığını düşünüyorum. Ama insan beyni bilgisayar değildir.
  Ne kadar karmaşık bir program yazarsanız yazın, hâlâ bir Turing makinesidir; insan ise temelde böyle değildir.
  https://aeon.co/essays/your-brain-does-not-process-informati...
  İnsan zekâsına dair bilgi işleme metaforu artık hem gündelik hayatta hem bilimde insan düşüncesine hâkim. Ama sonuçta bu da gerçekten anlamadığımız bir şeyi anlamak için yarattığımız başka bir metafor; bir gün başka bir metaforla ya da gerçek bilgiyle yer değiştirecek.
  Aynı konserde Beethoven’ın 5. Senfonisi’ni dinlesek bile benim beynimde gerçekleşen değişimlerle başka birinin beyninde gerçekleşen değişimler neredeyse kesinlikle tamamen farklıdır. Çünkü değişimler, her birimizin benzersiz deneyimleriyle şekillenmiş sinirsel yapılar üzerinde gerçekleşir.
  Bu yüzden iki kişi aynı hikâyeyi dinlese bile onu birebir aynı şekilde tekrar etmez; zaman geçtikçe bu tekrarlar daha da farklılaşır. Hikâyenin bir “kopyası” oluşturulmaz; hikâyeyi dinleyen her birey bir ölçüde değişir.
- “Gerçekten bir şey biliyorlar mı?” sorusuna cevabım evet. Ancak tamamen yanlış şeyleri de bildiklerini düşünüyorlar.
  LLM’lerde gözlemlediğim en büyük özellik, mantık ve matematik konusunda iyi olmamaları. “Bilmiyorum” demenin daha iyi olacağı durumlarda bile açıkça yanlış bilgileri özgüvenle sunuyorlar. Bunun kasıtlı tasarlanmış olma ihtimalinin çok düşük olduğunu düşünüyorum.
Yazı ilginç bir varsayımla başlıyor, ancak LLM bağlamında aramanın ne olduğunu tanımlamıyor; “Pfizer daha fazla çıkarım hesaplamasıyla bugünün GPT-8 yeteneklerine yaklaşabilir” ifadesini de açıklamıyor, bu yüzden eksik kalıyor.
Yapay zeka alanında çalışan biri olmama rağmen takip etmekte zorlandım. Orijinal yazının ne demek istediğini daha fazla açıklayabilecek birine ihtiyaç var.
Satranç motorlarındaki arama, yani birkaç hamle sonrasını görme yöntemi, sonuçları sıralayabilecek bir amaç fonksiyonu olduğu için mümkün görünüyor. Hangi olası hamlenin “daha iyi” olduğunu değerlendiren bir metrik var ve bu genelde pekiştirmeli öğrenmenin kendine özgü bir niteliğine daha yakın. LLM’lerde de böyle bir metrik olup olmadığı konusunda şüpheliyim.
- Bu nokta beni de oldukça kafa karıştırıyor.
  Tahminimce, modelin en üstteki tahmini token’larının her biri için birkaç token ileriye çalıştırıp hangi dalın eğitim verisine kıyasla en iyi performansı gösterdiğini izlemek, sonra da bu bilgiyi eğitimde kullanmak kastediliyor olabilir.
  Ama aramanın çıkarım anındaki verimliliği artırması gerekir; bu yöntem bunu yapmıyor.
- Muhtemelen kastedilen bu ve bence böyle bir metrik yok. İnsanlar adversarial değerlendirme deneyecektir, ama sonunda ortalama tahmine yakınsayacak gibi görünüyor.
  Ayrıca LLM çıkarımı ucuz değil. Çıkarım maliyeti ile eğitim maliyeti arasındaki ödünleşim uygulamaya göre çok değişir. Çıkarım maliyetini 100 kat ya da 1000 kat kabul etmek karşılığında eğitim maliyetini 10 kat azaltmanın mantıklı olduğu alanlar olabilir.
Charlie Steiner bunu 5 yıl önce Less Wrong’da zaten belirtmişti.
GPT-3’ü bir tıp ders kitapları külliyatıyla eğitip Alzheimer tedavisini söylemesini isterseniz, tedaviyi söylemez; insanların Alzheimer tedavisi hakkında bugüne kadar söylediklerini söyler.
Mantıksal bir kâhinden ziyade, eğitim verisindeki ilişkilere dayanarak kulağa makul gelen hikâyeler anlatan sezgisel bir kâhin olacağı anlamında.
Alzheimer tedavisinin zor olması, bu tasarımda eksik olan bir şey bulunduğu ve bunun arama olduğu anlamına geliyor. Bu, bir sinir ağının tedaviyi doğrudan çıktılayamayacağı anlamına gelmez; ama eğitilmiş modelin içinde zaten bir “Alzheimer tedavisi” boyutu olması gerekiyor gibi görünür.
Tedaviyi henüz bilmiyorsak gerçekçi yöntem, birden fazla mantıksal adımdan geçerek mantıksal uzayda yavaşça ilerlemek, olasılıkları giderek daraltmak ve sonunda koşullara uyan şeyi bulmaktır. Yani bir arama problemini çözmektir.
Yapay zeka Alzheimer tedavisini söyleyebiliyorsa, muhtemelen ya açıkça tedaviyi arıyordur ya da iç durumu örtük biçimde arama yapıyordur.
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- Bunu GPT ile sınırlamadan genelleştirirsek şöyle söylenebilir mi merak ediyorum:
  “Bir mantık makinesini bir tıp ders kitapları külliyatıyla eğitip Alzheimer tedavisini söylemesini isterseniz, tedaviyi değil, o ders kitaplarının Alzheimer tedavisi hakkında söylediklerini söyleyecektir.”
  Muhtemelen öyle değildir. GPT, okuduğunu geri söylemek ve yeniden birleştirmekle büyük ölçüde sınırlı görünüyor; ama daha iyi mantığa sahip başka bir algoritma fiilen meta-araştırma yapabilir. Yani bugüne kadarki tüm Alzheimer deney sonuçlarını alıp, çözüm uzayını insanların ulaştığından daha dar bir alana indirebilir.
  İnsanlar ilgili sonuçların tümünü aynı anda zihinde tutacak kapasiteye sahip olmayabilir; bilgisayarlar ise bunu yapabilir.
  GPT’ye “adım adım düşün” dediğinizde performansı iyileşiyor, dolayısıyla gerekli mantığın bir biçimine kesinlikle sahip. “İşte veri, bunu dönüştür” türü işleri de iyi yapıyor.
  Sınır, mantığın kalitesinde ve bu dönüşümü gerçekleştirebileceği pencerenin boyutunda. Yine de eğitimden ezberlediği veri, giriş token penceresinden çok daha büyük olabileceği için bu kısmi bir dolaylı yol olabilir.
  İki yeteneğe de sahipse ölçeklenmesinin imkânsız olduğunu söylemek zor. GPT’nin evrimleşmiş bir biçiminin mevcut veriler içinde Alzheimer tedavisini bulma ihtimalini dışlayabilir miyiz bilmiyorum; bu işe daha uygun bir sistem için AGI bile gerekmeyebilir.
  Elbette çözüm için gereken bileşenlerin verinin içinde bulunması gerekir. Ama alıntı, veride tüm bilgiler mevcut olsa ve yalnızca tamamlanmış çözüm eksik olsa bile, tedaviyi tanımlama ihtimalini baştan dışlıyor gibi.
Arama neredeyse kesinlikle gerekli; trilyon dolarlık kümelerden söz edenlerin artık akıllı telefonlarda bile çalışan insanüstü satranç motorlarını yapan kişilerle konuşması gerekiyor.
Çünkü biri milyon dolarlık bir kümeyle, ya da 500 bin adet milyon dolarlık kümeyle, trilyon dolarlık bir kümeyi yenmenin yolunu bulabilir.
Satrançla ilgili vardığım sonuç, satrancın dallanma katsayısının genişlik öncelikli yaklaşımı imkânsız kılacak kadar büyümediği. Medyan dallanma katsayısı, yani yasal hamle sayısı, en fazla yaklaşık 40 ve genellikle 30 civarında kalıyor.
Gerçek oyun pozisyonlarında gördüğüm en yüksek hamle sayısı 147’ydi, ama o noktada hamlelerin neredeyse tamamı mattı.
Go motorlarını insanüstü seviyeye getirmenin uzun süre zor olmasının nedeni, dallanma katsayısının satrançtan çok daha yüksek olmasıydı.
MCTS daha az kapsamlı olduğu için tam aramanın zayıflıkları bulup istismar edebilmesi mantıklı. Sorun, genişlik öncelikli yaklaşımın daha büyük oyunlara ve durumlara uygulanıp uygulanamayacağı; bence yanıt açıkça hayır.
Gerçek dünya durumlarının dallanma katsayısı, satrançtan farklı olarak birkaç büyüklük mertebesi daha yüksek.
Ancak satrançtan farklı olarak gerçek dünyada küçük kararların çoğu pek önemli değildir. New York’tan LA’e giderken araba kullanmak mı, uçağa binmek mi, yürümek mi çok önemlidir. Ama kapıdan çıkarken önce sol ayağınızı mı yoksa sağ ayağınızı mı attığınız, gözünüzü şimdi mi yoksa 2 saniye sonra mı kırptığınız çoğu zaman önemli değildir.
- LLM’nin dallanma katsayısının, bir sonraki olası token sayısı bazında yaklaşık 50 bin olduğunu düşünüyorum
Yazı, geleceği öngörme konusunda epey soyut ve aşırı kendinden emin görünüyor ama denemeye değer gibi
“Arama”, “üret ve test et” ile ret örneklemesinin genelleştirilmiş hâli. Klasik yapay zeka bu
Dot-com döneminden önce yapay zekaya giriş dersi aldığımda Prolog ile arama programı yazmayı öğrenmiştim
Hız; tek bir aday üretmenin ne kadar sürdüğüne, onu test etmenin ne kadar sürdüğüne ve kaç aday denemeniz gerektiğine bağlı. Bunlar yavaşsa toplam süreç de yavaş
İnsan döngüdeyken ret örneklemesine örnek, bir görüntü üreticisi kullanırken hoşunuza giden görüntü çıkana kadar farklı prompt’lar denemeye devam etmektir. Ama yeni görüntü üretmek uzun sürdüğü için döngü yavaş
Görüntü üretimi Google Görseller araması kadar hızlı çalışsaydı gerçekten anlamlı bir şeye dönüşebilirdi
Teorem kanıtlama ve program fuzzing’i otomatik, hızlı ve iyi bir değerlendirme fonksiyonuna sahip olduğu için LLM ile aramayı birleştirmek için uygun görünüyor
Google’ın istediğiniz LLM’e bağlayabileceğiniz bir fuzzer [1] yayımladığını sanıyorum; kullanan var mı merak ediyorum
[1] https://github.com/google/oss-fuzz-gen
- Teorem kanıtlama ya da planlama alanlarında bilinen arama prosedürleri ve “değerlendirme fonksiyonları” zaten teorik olarak optimum sınırlara yakın
  Bu yüzden gereken şey yeni bir değerlendirme ya da arama prosedürü değil; en başta denemeye değeceğini garanti edecek yeni matematik
  Teorem kanıtlamayı örnek alırsak, SLD-Resolution, tümevarımsal çıkarım için sağlam ve tam bir otomatik teorem kanıtlama prosedürüdür. Alan açısından verimli bir uygulamada derinlik öncelikli arama kullanılabilir ama sol özyinelemede döngüye girebilir; zaman açısından verimli bir uygulamada ise memoization ile genişlik öncelikli arama kullanılabilir ama alan karmaşıklığı üstel büyür
  Burada “değerlendirme fonksiyonu” uygulanmaz. Çünkü Resolution’ın kendisi, biçimsel mantık cümlelerinin doğruluğunu ya da doğruluk değerinin kesinliğini değerlendiren bir fonksiyon türüdür
  Ayrıca bu sağlam ve tamdır; açık mantık için yarı-karar verilebilirdir. Church-Turing’i ihlal etmediğiniz sürece en iyisi budur
  Sezgisel aramayla verimlilik iyileştirilebilir. Örneğin pratik SLD-Resolution’ın önemli bir parçası olan kapsama ilişkisinin NP-zorluğunu aşmak için böyle denemeler yapıldı ve burada daha geniş anlamda sezgisel maliyet fonksiyonları devreye girer
  Ama iki sorun var: a) sezgisel arama kullanmak tamlıktan feragat etmek demektir, b) planlamada ise planlama problemini gevşeterek sezgisel fonksiyon türetmeye yönelik oldukça sağlam yöntemler zaten var
  Çıkarılacak ders şu: sağlamlık, tamlık, verimlilik üçlüsünden yalnızca ikisini seçebilirsiniz. LLM gibi istatistiksel makine öğrenmesi yaklaşımları, mevcut tekniklerden yalnızca farklı bir ikiliyi seçebilir
  Temelde, arama tabanlı yapay zekanın toplam performans sınırlarında artık yalnızca marjinal kazanımların elde edilebildiği noktadayız. Birisi daha iyi matematik ortaya koyana kadar da orada kalacağız
- Ünlü matematikçi ve bilgisayar destekli teorem kanıtlamanın güçlü savunucularından Terence Tao, makine öğrenmesinin teorem kanıtlayıcılar alanında yeni bir yol açacağını düşünüyor
Leela ve mevcut Stockfish’in aradığı oyun uzayını anladığımı düşünüyorum. Ama yazarın LLM’in hangi olasılık uzayını aradığını düşündüğünü bilmiyorum
1. Yazılmış kelimeler mi, 2) matematik/pekiştirmeli öğrenme/malzeme bilimi modelleri mi, 3) satrançtaki oyun uzayı gibi daha küçük ve biçimselleştirilmiş uzaylar mı, bunların hepsi mi, yoksa başka bir şey mi belirsiz. Bir yerde açıklığa kavuşturdu da ben mi kaçırdım bilmiyorum
- Daha iyi arama algoritmaları bulmak için arama algoritmasının kendisinin arama yapmasını istiyor gibi. Yani öz-iyileştirme. O zaman daha dar alan kısıtlarının bir kısmı ortadan kalkabilir
LLM’ler kanser tedavisi keşfetmeden önce, daha ele alınabilir bir problem olan “Tanrısal cheesecake”i keşfetmelerini öneriyorum
Adil 100 şefin şimdiye kadar yedikleri en lezzetli şey olduğuna karar vereceği kadar lezzetli bir cheesecake
LLM’in yapması gereken, çok daha kombinatoryal olarak sınırlı “cheesecake uzayı”nı akıllıca arayıp olabildiğince lezzetli bir cheesecake tarifi bulmak
Ama LLM cheesecake pişiremez; pişirse bile tadını değerlendiremez
Yapay zeka “Tanrısal cheesecake” problemini çözene kadar AGI konusunda hepimizin biraz sakinleşmesi iyi olur
- Bu kurabiyeler çok lezzetliydi ama tanrısal seviyede değildi. Biraz yatırım ve daha modern tekniklerle oldukça iyi tarifler üretilebileceğini, hatta belki herhangi bir insandan daha iyi yapılabileceğini düşünüyorum
  Yapay zekanın çok rekabetçi bir pastacılık yarışmasını kazanacak bir tarif üretebileceğini düşünüyorum. Ama jürinin 100 üyesinin tamamını ikna etmek kimse için mümkün değil
  https://static.googleusercontent.com/media/research.google.c...
- Yanıt “anlamlı bir cevap vermek için 2 hafta ve 5000 dolar gerekiyor” olursa buna nasıl bakılacağını merak ediyorum
- Yalnızca bilgisayar üzerinde çalışan bir LLM’in sınırları içinde bile, LLM gerçekten harika bir kısa öykü ya da iyi bir reklam metni yazabiliyorsa bu dünyayı değiştirecek bir şeydir
- TikTok bu problemin dijital versiyonu
- LLM destekli bir programla cheesecake tarifleri üzerinde deneme yanılma yapılıp bunlar bir jüriye değerlendirtilirse tarihin en iyi cheesecake’inin ortaya çıkmayacağını düşünen var mı, merak ediyorum
  Pişirme kısmı robotik olduğu için karşılaştırma biraz daha az adil, ama zaten bir ölçüde mümkün
Yazarın fark etmediği en büyük sorun, bunun için gereken compute miktarının ne kadar büyük olduğu.
Bu yazı, maymuna zaman verirsen Shakespeare yazar sözünün aynısı. Elbette doğru, ama arama uzayı başa çıkılamayacak kadar büyük; bir yerlerde cevap olsa bile o kaosun içinde bulunamaz.
Bir yılı aşkın süredir tam zamanlı olarak budama ve evrimsel LLM sistemleri geliştiriyorum.
Çeşitli “arama” veya “keşif” algoritmaları yaptım. Sorun şu: Birkaç aşamadan sonra, başlangıçta biyoloji araştırması yapma ya da yürütme görevi verilen ajan, savaş gemilerinden bahsetmeye başlıyor. Bu, önceki gerçek bir çalışmadan örnek.
Arama fonksiyonunun gerçekten çalıştığı neredeyse tek durum tek aşama. Çok aşamalı ajanlarda olasılıklar çok hızlı biçimde sonsuza doğru patlıyor.
Tek aşamanın da sorunları var. Örneğin bir kodlama problemini çözmesini isteyen zero-shot bir soruyu 1000 kez çalıştırmak daha iyi bir çözüm bulmaya yardımcı olabilir; ama bu, sınırlı bir arama uzayı olduğu için mümkün. Bu sınırlama iyi bir şey.
Yakın zamanda birkaç LLM modelinde, tek bir giriş prompt’unu yalnızca girdi ayarlarını değiştirerek 10 bin kez çıkarım yaptırdığımız bir test gerçekleştirdik. Tekil prompt’ların sonsuz sayıda yanıt olasılığı yok. Sınırlılar. Bu yüzden bugün LLM olarak işlev görebiliyorlar.
Ajanların iyi çalışmaması bu sorunun bir örneği. Tek aşamalı arama uzayı bile devasa; fakat ajan her adım attığında üstel olarak büyüyor.
Bu sorunu çözmek için araçlar ve sistemler geliştiriyorum, ancak büyük ölçekli arama, “AI modelinin boyutunu 100 kat büyütürsek çözülür” demek kadar uzak görünüyor.
Özerklik, zeka ya da akıl yürütme ile aynı şey değildir.
“Leela Chess Zero, yalnızca kuralları bilerek başladığı için zero diye adlandırıldı” ifadesi yaygın ama yanlış.
Leela ve türevlerinde performans için vazgeçilmez olan başka bir satranç-özel bilgisi daha var: satranç oyununu bir oyun ağacı olarak temsil eden oyun dünya modeli. Bu yapı, her oyuncunun sırası geldiğinde bir ply’ye ayrılıyor.
Bu oyun ağacını minimax veya Monte Carlo Tree Search gibi rekabetçi arama algoritmaları tarıyor. Anladığım kadarıyla Leela MCTS’i seçiyor.
Oyunu bir oyun ağacı olarak daha doğru modelleme yaklaşımı yalnızca satranca değil, birçok oyuna uygulanabilir. Ancak satranç motorlarında kullanılan belirli oyun ağacı, satranca benzeyen iki oyunculu, sıfır toplamlı, tam bilgili masa oyunlarına uygun bir biçimdir.
Farklı oyun türleri farklı modeller ve farklı arama algoritmaları gerektirir. Örneğin Poker ve Libratus’a [1] bakılabilir.
Bu tür oyun ağaçları, yani oyun dünya modeli, hedef üstün performanssa bugün için ortadan kaldırılamaz. Yazı, aramasız algoritmalardan söz ediyor ve onların temel sınırına, yani “neden?” sorusuna kısaca değiniyor.
Acı ders konusundaki itiraz noktası da bu. Çünkü neyin alan bilgisi, yani teori olarak “model” sayılacağı keyfi biçimde seçiliyor.
Rodney Brooks’un [2] ve başkalarının da söylediği gibi, evrişimli sinir ağları konum değişmezliği kurmak için evrişim katmanları kullandıkları için görüntü sınıflandırmasına hakim oldu. Bu, insanların icat ettiği bir makine görüsü modelidir.
Oyun ağacının insanların icat ettiği bir oyun modeli olması gibi; AI ve makine öğrenmesinde bugüne kadar yapılanların çoğu da böyledir. İnsanlar dünyanın, ortamın, alanın ve sürecin modelini kurar; bilgisayar bu modelle hesaplama yapar ve kimi zaman satrançta, Go’da olduğu gibi insanı aşar ya da en azından elle yapılmış çözümlerle yakalanamayacak sonuçlar üretir.
Çıkarılması gereken ders başka. İnsan modeli + makine hesaplaması, son 80 yılda AI’ın tüm zor problemlerini çözdü. Ve biz, bundan biraz olsun farklı bir şeyi nasıl yapacağımızı hiç bilmiyoruz.
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- Yalnızca gözlemden dünya modeli oluşturan bir algoritma henüz görmedim. İpuçları gördüm, ama insan seviyesinde değil.
  Bir gün gelecek. İlginç bir çağda yaşıyoruz.

AI araması: Daha acı bir ders

Leela ve Stockfish'in gösterdiği “daha acı ders”

Stockfish'in geri dönüşü: küçük model ve güçlü arama

Temel model aramasının tanımı ve mevcut sınırlar

Ölçek, aramanın önkoşulu olmayabilir

Aramanın ekonomisi ve AI araştırmasının otomasyonu olasılığı

İlgili okumalar

1 yorum

Hacker News yorumları