Yapay zeka otonom öz-düzeltmesinin yapısal çelişkileri ve deterministik mimari üzerine teknik beyaz kitap

(drive.google.com)

11 puan yazan longnightbebe 11 일 전 | 5 yorum | WhatsApp'ta paylaş

İnternette dolaşırken ilginç bir PDF belgeye rastladım. Okuyunca içeriği bana kişisel olarak epey sarsıcı geldiği için paylaşmak istedim.

Görünüşe göre bugünlerde yapay zeka sahnesinde herkesin öne çıkardığı çoklu ajan yaklaşımını eleştiriyor; yapay zekaya otonomi verilmemesi, onun doğrudan bir rendering component gibi kullanılması gerektiğini söylüyor gibi.

Belgenin başlığı da geçici adla yazılmış ve sonlara doğru birtakım doğrulama verilerinden (PoC) söz edildiğini görünce, bunun bir deep tech şirketi ya da araştırma laboratuvarı tarafından yatırım amaçlı hazırlanmış dahili bir beyaz kitabın sızmış hali olabileceğini düşündüm.

Açıkçası ne anlatmak istediğini yüzde 100 anladığımı söyleyemem ama şu anda büyük teknoloji şirketlerinin gittiği yönün yanlış olduğunu açıkça hedef alan tonu epey ilginç geldiği için paylaşıyorum.

Resmî bir haber olmadığı için bağlantıyı kendi Google Drive'ıma yükleyip paylaşıyorum.

5 yorum

jeeeyul 11 일 전

Büyük dil modellerinde (LLM) 'yaratıcılık' ile 'halüsinasyonun (Hallucination)' sonuçta aynı olasılıksal bir sonraki token tahmini (Next-token prediction) mekanizmasının ürünü olduğu, yapay zeka ile çalışan mühendisler için gizli bir gerçek bile olmayan son derece temel bir önkabuldür; ancak bu whitepaper, bunu sanki büyük bir sırrı ifşa ediyormuş gibi abartıyor.

Çoklu ajanların 'otonom düzeltmesini' yalnızca aynı bağlam içindeki 'totolojik tekrar (Homogeneous Iteration)' ile sınırlayıp eleştiren mantık biraz hayal kırıklığı yaratıyor.

Gerçek geliştirme ortamlarında akıllı ajanları IDE içine entegre edip ileri düzey prompt engineering uyguladığınızda, modelin bu olasılıksal doğası 'aşılamaz ölümcül bir kusur'dan ziyade, sistem tasarlanırken sabit kabul edilmesi gereken bir 'temel koşul'dan ibarettir. Modelin bağlamın dışına çıkabileceği zaten baştan kabul edilir; sahadaki yaklaşım, açıkça ayrılmış bağlamlar sunmak veya farklı ölçeklerde bağlamlar üzerinden fiili kontrol kabiliyeti sağlamaktır.

Ancak bu whitepaper, herkesin bildiği bu bariz gerçeği 'kategorik hata', 'olasılıksal dolambaç' gibi gösterişli akademik terimlerle paketleyerek kaygı yaratıyor. Amacı da açık görünüyor. Çünkü ancak LLM'nin otonomisini bütünüyle değersizleştirdiğinde, kendilerinin önerdiği 'insan tarafından doğrudan tasarlanan deterministik kontrol ağı (SERA sistemi)'nın değerini azamiye çıkarabilir.

Sonuçta bu metin, teknik denge duygusuna sahip bir whitepaper olmaktan çok, halüsinasyon riskinden çekinen kurumsal ortamlardaki karar vericileri hedef alarak "kontrol edilemeyen ajanlar yerine bizim hard-coded deterministik pipeline'ımızı benimseyin" diye ikna etmeye çalışan yanlı bir satış konuşmasına (Sales Pitch) daha yakın duruyor.

mammal 10 일 전

Sadece argümanları sıralayan, iddialar için belirleyici kanıt ve doğrudan deney içermeyen, besin değeri olmayan bir yazı gibi duruyor.

Yann LeCun’un “GPT-5000’e gidilse bile model, masanın üstüne bir nesne koyup masayı itersen nesnenin de birlikte itileceğini öğrenemeyecektir” ya da “otoregresif modeller, dizi uzadıkça hata birikimi nedeniyle kaçınılmaz olarak çöker” sözlerinin sıkıcı bir uzantısı gibi...

Açık konuşmak gerekirse, beyaz kâğıdın sonunda adı geçen şirket için viral amaçlı yüklenmiş bir içerik olup olmadığından şüpheleniyorum.

mammal 10 일 전

> Bu çöküşün temelinde, Transformer mimarisinin kalbinde yer alan softmax normalizationın matematiksel sınırları bulunur. Attention mekanizması altında, tüm token’ların dikkat ağırlıklarının toplamı zorunlu olarak 1 olmalıdır; yani sıfır toplamlı bir dağılımı izler. Bu nedenle giriş dizisinin uzunluğu N geometrik olarak büyüdükçe, belirli bir kritik token’a atanabilecek bilgilendirici ağırlık kaçınılmaz olarak 1/N’e yakınsar ve aritmetik olarak seyrelir. Bu da basit bir hesaplama verimsizliğinin ötesinde, modelin işlemesi gereken noise floorun hızla yükseldiği anlamına gelir.

Bu artık şaka gibi bir şey..

yhpat1 11 일 전

Bence bu, eskiden beri süregelen Neuro-Symbolic söyleminden ibaret gibi görünüyor. Bir zamanlar "deterministik" olana bugünkünden daha fazla anlam yüklendiği bir dönem vardı. Ancak olasılıksal modellerin performansı, deterministik düzeye yakınsayacak kadar arttıkça tartışma alanının büyük kısmı ortadan kalktı. Sonuçta bizim her zaman istediğimiz şey deterministik bir şey değil, "kabul edilebilir" bir belirsizlikti. Bu açıdan bakıldığında, en azından akademiden ziyade "sektör" perspektifinde determinizme bu kadar büyük bir anlam yüklemeye gerek olmadığını düşünüyorum. En azından mevcut üretici modellerdeki belirsizliğin durağanlaştığı noktada entegrasyon ilerlese bile bunun için hiç de geç kalınmış sayılmaz.

brainer 11 일 전

Zor yazılmış ama sonuçta söylenmek istenen şey, insana da uygulanabilecek bir içerik.
Aptal A'nın yazdığı bir yazıyı yine Aptal A'nın tekrar görmesi, onu daha iyi bir yazı yapar mı; mesele bu.

Elbette az sayıda durumda daha iyi olma ihtimali de vardır; bütün soruları sallayıp üniversite sınavından tam puan alma olasılığı da vardır. Ama çoğu durumda olan şey, Aptal A'nın N denemedeki ortalama seviyesine geri dönmekten ibaret.

(Chapter 2ye ise tamamen katılamıyorum.)

Yine de keşke insanların, makalede de söylendiği gibi what-ever Scaling Law denen şeyin sonsuza dek sürecek bir yasa değil, geçici bir artış yasası olduğunu biraz anlaması mümkün olsa.
OpenAI makalesine düzgün bakmış olsalardı zaten böyle şeyler söylemezlerdi.

Aslında böyle 100 makaledense, çıkıp sadece "olur" diyen birinin bunun gerçekten olduğunu kanıtlamasıyla iş biter.

Sorun, sadece "olur" şeklinde bir simya yapıyor olmaları.

Yapay zeka otonom öz-düzeltmesinin yapısal çelişkileri ve deterministik mimari üzerine teknik beyaz kitap

İlgili okumalar

5 yorum