"Attention is all you need" makalesinin ortak yazarı, artık Transformer'lardan "bıktığını" söyledi

(venturebeat.com)

11 puan yazan GN⁺ 2025-10-25 | 1 yorum | WhatsApp'ta paylaş

Transformer mimarisini birlikte geliştiren ve bu ismi bizzat veren Llion Jones, “yapay zeka araştırmaları aşırı daraldı” diyerek Transformer merkezli paradigmayı terk edeceğini söyledi
ChatGPT, Claude gibi başlıca yapay zeka sistemlerinin temel teknolojisi olan Transformer'ların, ironik biçimde bir sonraki nesil yeniliği engellediğine dair öz eleştirel bir değerlendirme sundu
Güvenli konuların seçildiğini ve yaratıcılığın kaybolduğunu, “exploration(keşif) yerine exploitation(kullanım) ağırlıklı bir durum” yaşandığını söyleyerek, yapay zeka endüstrisinin daha büyük yenilikleri kaçırıyor olabileceği konusunda uyardı
Transformer makalesinin ortaya çıktığı dönemde özgür bir deney ortamı olduğunu, ancak bugün yüksek maaşların bile araştırma özgürlüğünü garanti etmediğini eleştirdi
Sakana AI'da özgür keşif odaklı bir araştırma kültürünü yeniden kurmak istediğini ve “bir sonraki Transformer düzeyindeki yeniliğin hemen yanı başımızda olabileceğini” vurguladı

Transformer'ın yaratıcısından öz eleştiri ve yeni bir ilan

2017 tarihli "Attention Is All You Need" makalesinin ortak yazarı ve Transformer adını doğrudan ortaya atan Llion Jones, San Francisco'daki TED AI konferansında yapay zeka araştırmalarındaki tekdüzelik sorununu sert biçimde eleştirdi
100 binden fazla atıf almış tarihi makalenin yazarının, kendi yarattığı şey için kamuoyu önünde “artık midem bulanıyor” demesi sıra dışı bir çıkış oldu
Kendisi şu anda Tokyo merkezli Sakana AI'ın CTO'su ve kurucu ortaklarından biri
- “Yapay zeka araştırmaları tek bir yapıya hapsolmuş durumda” diyerek Transformer araştırmalarına daha az zaman ayırdığını ve yeni yapıları keşfettiğini söyledi
- “Yapay zeka alanında her zamankinden daha fazla yetenek ve para var, ama araştırmalar tam tersine daralıyor” diye vurguladı
- Bunun nedenleri olarak yatırımcıların getiri baskısını ve aşırı rekabeti göstererek, araştırmacıların yaratıcılığı kaybettiği ve “makale yetiştirme” ortamında kaldığı açıklamasını yaptı

Kaynaklar arttı ama yaratıcılık azaldı paradoksu

Günümüzde yapay zeka araştırmacıları, aynı konu üzerinde çalışan 3-4 grubun aynı anda ilerlediğini varsaymak ve başka bir ekibin kendilerinden önce davranıp davranmadığını sürekli kontrol etmek zorunda
Akademide araştırmacılar, riskli ama yenilikçi projeler yerine güvenle yayımlanabilecek konuları seçmeye daha fazla yöneliyor
- Rekabet baskısı nedeniyle makaleler aceleyle gönderilirken bilimsel titizlik zarar görüyor ve yaratıcılık azalıyor
- Araştırmacılar "exploitation(kullanım)"a fazla ağırlık verip "exploration(keşif)"i ihmal ediyor
Yapay zeka algoritmalarındaki keşif-kullanım dengesi kavramıyla bakıldığında, mevcut yapay zeka endüstrisi aşırı kullanım nedeniyle sıradan bir yerel optimuma sıkışmış ve daha iyi alternatifleri kaçırıyor olabilir
Transformer'ların ortaya çıkmasından hemen önce araştırmacılar tekrarlayan sinir ağlarını (RNN) kademeli olarak iyileştirmeye saplanmıştı; bugün de yalnızca tek bir mimarinin varyasyonlarına odaklanarak yaklaşan yeniliği kaçırma riski bulunuyor

“Transformer öncesi dönemin araştırmacıları bir sonraki yeniliğin yakında geleceğini bilseydi, o kadar zamanı boşa harcamazlardı”

Transformer'ın doğuşu: özgürlüğün yarattığı yenilik

Jones, Transformer araştırmasının doğduğu dönemi hatırlarken bunun yukarıdan hiçbir baskının olmadığı özgür bir atmosferde başladığını anlattı
- “Öğle yemeği tartışmalarında ya da beyaz tahtadaki karalamalarda doğan bir fikirdi” dedi
Araştırma ekibinin net bir fikri yoktu, ancak yeterli zaman ve özgürlük verilmişti; belirli bir proje ya da performans metriği konusunda yönetimden hiçbir baskı yoktu
- Belirli sayıda makale yayımlama zorunluluğu ya da metrik iyileştirme baskısı yoktu
- Deney ve deneme-yanılma yoluyla özerk keşif mümkündü
Bugün yıllık 1 milyon doların üzerinde maaşla işe alınan araştırmacıların bile cesur fikirleri denemektense değerlerini kanıtlama baskısı hissedebileceğini söyledi

“Değerli insanlar olduklarını kanıtlamak için güvenli araştırmaları seçiyorlar”

Sakana AI'ın deneyi: özgürlük yüksek ücreti yeniyor

Jones, Sakana AI'da Transformer öncesi özgür araştırma ortamını yeniden kurmaya çalışıyor
- Doğadan ilham alan araştırmaları takip ediyor
- Makale yayımlama ya da rakiplerle doğrudan yarışma konusunda asgari baskı uyguluyor
Mühendis Brian Cheung'un şu tavsiyesini paylaştı: "Yalnızca sen yapmazsan gerçekleşmeyecek araştırmaları yap"
Somut örnek olarak "continuous thought machine" projesini tanıttı
- Beyindeki senkronizasyon mekanizmasını sinir ağlarına entegre etmeyi amaçlayan bir çalışma
- Bu fikri öneren kişinin önceki işinde ya da akademide şüpheyle karşılanacağını ve zaman kaybı uyarısı alacağını söyledi
- Sakana'da ise 1 haftalık keşif süresi verildi ve bu çalışma sonunda NeurIPS'in ana konferansında dikkat çeken bir başarı örneğine dönüştü
Keşif odaklı bir ortamın kendisinin yetenek kazanımı için güçlü bir araç olabileceğini savundu
- Yetenekli ve hırslı insanlar doğal olarak böyle ortamları arıyor

Transformer başarısının paradoksu: yeniliği engelleyen olgunluk

Transformer'ların başarısının “çok güçlü olduğu için yeni yenilikleri engellediğini” söyledi
“Mevcut teknoloji ne kadar mükemmelse, daha iyisini arama motivasyonu o kadar azalır” değerlendirmesini yaptı
Ancak Transformer araştırmasının kendisini tümden reddetmediğini, “hala somut değer üretilebileceğini” de ekledi
Buna rağmen “bugünkü devasa kaynakları ve yeteneği düşünürsek, çok daha geniş bir keşif yapabiliriz” diye vurguladı
Vardığı sonuç iş birliği ve açık keşfin önemiydi
- “Rekabet değil, iş birliğiyle keşif düğmesini yükseltmeliyiz. Ancak o zaman gerçek ilerleme mümkün olur” dedi

Yapay zeka endüstrisinin ‘keşif sorunu’nun ima ettikleri

Jones'un uyarısı, yapay zekanın ölçeklenme sınırları ve yeni yapıları keşfetme gereği tartışılırken büyük yankı uyandırıyor
Sektörde zaten yalnızca Transformer ölçeklemesinin sınıra dayandığı görüşü giderek yayılıyor
Önde gelen araştırmacılar, mevcut paradigmanın temel sınırlarını kamuoyu önünde tartışmaya başladı
- Daha gelişmiş yapay zeka sistemleri için yalnızca ölçeğin değil, mimari yeniliğin de gerekli olduğu görüşü yayılıyor
Her yıl onlarca milyar doların yapay zeka geliştirmeye harcandığı, laboratuvarlar arasındaki sert rekabetin gizlilikçiliği ve hızlı yayın döngülerini güçlendirdiği bugünün ortamında, Jones'un anlattığı özgür keşif odaklı araştırmalar giderek azalıyor
Jones'un içeriden bakışının özel bir ağırlık taşımasının nedeni
- Bugün alana hakim olan teknolojiyi bizzat yaratmış biri olarak yenilikçi keşif için gereken koşulları iyi biliyor
- Kendi ününü yaratan Transformer'lardan bilinçli biçimde uzaklaşma kararı, mesajına inandırıcılık katıyor
Bir sonraki Transformer düzeyindeki yeniliğin, keşfetme özgürlüğüne sahip araştırmacılar tarafından bulunabileceği ya da binlerce araştırmacı artımlı iyileştirme yarışına girerken keşfedilmeden kalabileceği kritik bir dönemeçteyiz
Sonuç olarak Jones, Transformer'lar üzerinde en uzun süre çalışan kişilerden biri olarak, artık bir sonraki aşamaya geçme zamanının geldiğini herkesten daha iyi biliyor

“Transformer düzeyinde bir atılım belki de zaten hemen yanımızda, ama rekabetin gölgesinde kalıyor”

1 yorum

GN⁺ 2025-10-25

Hacker News görüşleri

Bana göre transformer, yakın tarihin en üretken icatlarından biriydi
2017'de ilk ortaya çıkışından bu yana geçen 8 yılda birçok alanı tamamen değiştirdi, hatta Nobel ödülü kazanılmasına bile kısmen katkı sağladı
Özünde önemli olan fikrin olasılıksal grafik model (probabilistic graphical model) olduğunu düşünüyorum. Olasılığı diziler, ağaçlar ve grafiklerle birleştiren yaklaşımın gelecekte de yüksek araştırma değeri taşıyacağını düşünüyorum
- Açık konuşmak gerekirse, mimarinin kendisinden büyük bir atılım çıkacağını sanmıyorum
  transformer zaten son derece güçlü bir evrensel yaklaştırıcı (universal approximator). Ufak iyileştirmeler mümkün olabilir ama bundan daha “evrensel” bir şey bulmak pratikte zor
  Asıl yeniden düşünmemiz gerekenler auto-regressive task, cross entropy loss ve gradient descent olabilir
- Hangi alanların tamamen değiştiğini merak ediyorum
  Benim alanımda da etkisi oldu ama dürüst olmak gerekirse bu etki neredeyse tamamen olumsuz oldu
- Eskiden olasılıksal grafik modelleri çok kullanmış biri olarak, transformer çağında benim deneyimimin yeniden değer kazanmasını umuyorum
  Ama henüz buna dair bir işaret görmüyorum. Yine de umut var
- Benim de kişisel olarak kafamda bir olasılıksal hipergraf modeli var
  Henüz makaleye dökmedim ama bu fikre doğru yakınsayan hareketleri birçok yerde görüyorum
  Keşke bir günde daha fazla zaman olsa
- Katılıyorum. Nedensel çıkarım (causal inference) ve sembolik akıl yürütme (symbolic reasoning), bence transformer sonrasının asıl görevi
Sakana AI'ın kurucu ortaklarından ve CTO'su olan Jones'un transformer'dan elini çekip “bir sonraki büyük şeyi” aradığını söylemesi, açıkçası bana yatırım toplama amaçlı PR gibi geliyor
- “Attention is all he needs” sözü tam oturuyor
- Yine de yeni bir şey yapmak istiyorsa paraya ihtiyacı var, yani ikisi de doğru olabilir
- Bilim insanları zaten doğaları gereği yeni ve yaratıcı şeylerin peşinde koşar
- Her halükarda onun sözlerine biz attention göstermiş olduk
- Ama gerçekten, şu anda tam olarak ne satmaya çalıştıklarını merak ediyorum
Şaka yollu söylemek gerekirse, 2024'te tekillik (singularity) geleceğini sanmıştım ama “gelir elde etme” ile “kendini geliştirme” arasındaki zaman farkı yüzünden durmuş gibi hissediyorum
transformer modellerinden elde edilecek tüm para sıkılıp çıkarılana kadar en az 20 yıl daha burada kalacak gibiyiz
- Şu anda donanım ve enerji altyapısı muazzam biçimde genişliyor
  Bu sadece transformer'a özel olmadığı için, tam tersine bu altyapıdan en iyi şekilde yararlanacak yeni mimarileri arama teşviki yaratacaktır
- Belki de özyineli kendini geliştirme (recursive self-improvement) zaten başlamıştır
  Sadece insanların fark edebileceği kadar hızlı değildir
Çoğu insan için “AI” sonuçta gözle görülen bir yazılım ürünü
Ama bunun içindeki çekirdek model yalnızca küçük bir parça; geri kalanı ise binlerce düşük ücretli çalışanın insan geri bildirimi ile ürünü cilalamasından ibaret
Gerçekte işin %90'ı ürün geliştirme, %10'u ise ML araştırması
Makalelerin çoğu doktora derecesi almak için yapılan kariyer odaklı araştırmalar ve gerçek anlamda deneysel araştırma yapanların sayısı az
transformer GPU'lara o kadar iyi uyacak şekilde tasarlandı ki, yeni bir model yapmak için artık donanım üreticilerini bile ikna etmeniz gerekiyor
Sonuçta donanım ve yazılımın eşzamanlı evrimi gerekiyor
Köklü değişimlerin on yıllar ölçeğinde yaşanacağını düşünüyorum
- Ama bu meseleye tersinden bakmak olur
  Paralelleştirilebilir algoritmalar özünde daha üstün olduğu için GPU'lar buna uyacak şekilde gelişti
  RNN'ler sıralı oldukları için paralelleştirmesi zordu, transformer ise bu darboğazı ortadan kaldırdı
transformer tabanlı olmayan araştırmaların hâlâ canlı olduğunu düşünüyorum
Sadece para sohbet botu tarzı CRM işlerine aktığı için daha az görünür haldeler
Çözümün yeni bir mimari olduğunu düşünmüyorum. Asıl önemli olan veri verimliliğini artırmanın yolları
Ilya Sutskever de “tüm internete ihtiyaç duymayan bir öğrenme yöntemi”ni vurgulamıştı
- Makalenin söylediği şey “yeni mimari çözümdür” değil, keşif ile kullanım arasındaki dengenin bozulduğu
- Yeni mimari tartışması aslında AGI için yapılıyor
  İnsan gibi öğrenmek istiyorsak, internetteki veriyi olduğu gibi yedirmekten farklı bir yaklaşım gerekli
- 2017 öncesindeki araştırmacıların çoğu artık transformer'a odaklanmış durumda
  Araştırmacı sayısı arttı ama transformer dışı araştırmaların oranı muhtemelen azaldı
Son kısımdaki em dash (—) sayısı o kadar fazlaydı ki, bu yazıyı transformer yazmış olmalı diye şaka yapıldı
- Bir sonraki AI modası belki de “disrupters” olur
transformer bütün ilgiyi ve fonu emdi
Araştırmacılar da transformer endüstrisinin içine çekilmiş durumda
Büyük bir sınıra çarpana kadar bunun süreceğini düşünüyorum
Umarım enerji tüketimi gerçek sınıra dönüşür ve araştırmanın yönünü değiştirir
- Gerçekten de enerji yakında darboğaz olabilir
  xAI veri merkezlerinin yanına elektrik sağlamak için gaz türbinleri kurdu ama bu, bölge sakinlerinin sağlığıyla ilgili sorunlar yarattı
  Böyle yöntemlerin yakında düzenlemeye tabi tutulacağını düşünüyorum
İnsanlar yeni model mimarisi inovasyonuna fazla takıntılı olma eğiliminde
Sonuçta model, yalnızca veriyi sıkıştırılmış biçimde temsil eden bir araç
Daha verimli sıkıştırma yapılsa bile yeteneklerde büyük bir fark yaratmayabilir
Asıl önemli olan eğitim verimliliğini artırmak. Bugünlerde pekiştirmeli öğrenme (RL) bunun bir örneği
- Ama eğitim verimliliği sonuçta mimariyle bağlantılı
  Yeni yapıları keşfetmek aşırı bir takıntı değil, keşif ile kullanım arasındaki dengeyi kurma işi
transformer merkezli endüstriyel yapının, GPU/NPU'ların hesaplama açısından sunduğu elverişlilik yüzünden oluşmuş olabileceğini düşünüyorum
Daha iyi AI teknolojileri mevcut olabilir ama mevcut donanımla hesaplama maliyetleri fazla yüksek olabilir
Beynimiz 500 watt harcamıyor; belki de ipucu budur

"Attention is all you need" makalesinin ortak yazarı, artık Transformer'lardan "bıktığını" söyledi

Transformer'ın yaratıcısından öz eleştiri ve yeni bir ilan

Kaynaklar arttı ama yaratıcılık azaldı paradoksu

Transformer'ın doğuşu: özgürlüğün yarattığı yenilik

Sakana AI'ın deneyi: özgürlük yüksek ücreti yeniyor

Transformer başarısının paradoksu: yeniliği engelleyen olgunluk

Yapay zeka endüstrisinin ‘keşif sorunu’nun ima ettikleri

İlgili okumalar

1 yorum

Hacker News görüşleri