11 puan yazan GN⁺ 2025-10-25 | 1 yorum | WhatsApp'ta paylaş
  • Transformer mimarisini birlikte geliştiren ve bu ismi bizzat veren Llion Jones, “yapay zeka araştırmaları aşırı daraldı” diyerek Transformer merkezli paradigmayı terk edeceğini söyledi
  • ChatGPT, Claude gibi başlıca yapay zeka sistemlerinin temel teknolojisi olan Transformer'ların, ironik biçimde bir sonraki nesil yeniliği engellediğine dair öz eleştirel bir değerlendirme sundu
  • Güvenli konuların seçildiğini ve yaratıcılığın kaybolduğunu, “exploration(keşif) yerine exploitation(kullanım) ağırlıklı bir durum” yaşandığını söyleyerek, yapay zeka endüstrisinin daha büyük yenilikleri kaçırıyor olabileceği konusunda uyardı
  • Transformer makalesinin ortaya çıktığı dönemde özgür bir deney ortamı olduğunu, ancak bugün yüksek maaşların bile araştırma özgürlüğünü garanti etmediğini eleştirdi
  • Sakana AI'da özgür keşif odaklı bir araştırma kültürünü yeniden kurmak istediğini ve “bir sonraki Transformer düzeyindeki yeniliğin hemen yanı başımızda olabileceğini” vurguladı

Transformer'ın yaratıcısından öz eleştiri ve yeni bir ilan

  • 2017 tarihli "Attention Is All You Need" makalesinin ortak yazarı ve Transformer adını doğrudan ortaya atan Llion Jones, San Francisco'daki TED AI konferansında yapay zeka araştırmalarındaki tekdüzelik sorununu sert biçimde eleştirdi
  • 100 binden fazla atıf almış tarihi makalenin yazarının, kendi yarattığı şey için kamuoyu önünde “artık midem bulanıyor” demesi sıra dışı bir çıkış oldu
  • Kendisi şu anda Tokyo merkezli Sakana AI'ın CTO'su ve kurucu ortaklarından biri
    • “Yapay zeka araştırmaları tek bir yapıya hapsolmuş durumda” diyerek Transformer araştırmalarına daha az zaman ayırdığını ve yeni yapıları keşfettiğini söyledi
    • “Yapay zeka alanında her zamankinden daha fazla yetenek ve para var, ama araştırmalar tam tersine daralıyor” diye vurguladı
    • Bunun nedenleri olarak yatırımcıların getiri baskısını ve aşırı rekabeti göstererek, araştırmacıların yaratıcılığı kaybettiği ve “makale yetiştirme” ortamında kaldığı açıklamasını yaptı

Kaynaklar arttı ama yaratıcılık azaldı paradoksu

  • Günümüzde yapay zeka araştırmacıları, aynı konu üzerinde çalışan 3-4 grubun aynı anda ilerlediğini varsaymak ve başka bir ekibin kendilerinden önce davranıp davranmadığını sürekli kontrol etmek zorunda
  • Akademide araştırmacılar, riskli ama yenilikçi projeler yerine güvenle yayımlanabilecek konuları seçmeye daha fazla yöneliyor
    • Rekabet baskısı nedeniyle makaleler aceleyle gönderilirken bilimsel titizlik zarar görüyor ve yaratıcılık azalıyor
    • Araştırmacılar "exploitation(kullanım)"a fazla ağırlık verip "exploration(keşif)"i ihmal ediyor
  • Yapay zeka algoritmalarındaki keşif-kullanım dengesi kavramıyla bakıldığında, mevcut yapay zeka endüstrisi aşırı kullanım nedeniyle sıradan bir yerel optimuma sıkışmış ve daha iyi alternatifleri kaçırıyor olabilir
  • Transformer'ların ortaya çıkmasından hemen önce araştırmacılar tekrarlayan sinir ağlarını (RNN) kademeli olarak iyileştirmeye saplanmıştı; bugün de yalnızca tek bir mimarinin varyasyonlarına odaklanarak yaklaşan yeniliği kaçırma riski bulunuyor

“Transformer öncesi dönemin araştırmacıları bir sonraki yeniliğin yakında geleceğini bilseydi, o kadar zamanı boşa harcamazlardı”

Transformer'ın doğuşu: özgürlüğün yarattığı yenilik

  • Jones, Transformer araştırmasının doğduğu dönemi hatırlarken bunun yukarıdan hiçbir baskının olmadığı özgür bir atmosferde başladığını anlattı
    • “Öğle yemeği tartışmalarında ya da beyaz tahtadaki karalamalarda doğan bir fikirdi” dedi
  • Araştırma ekibinin net bir fikri yoktu, ancak yeterli zaman ve özgürlük verilmişti; belirli bir proje ya da performans metriği konusunda yönetimden hiçbir baskı yoktu
    • Belirli sayıda makale yayımlama zorunluluğu ya da metrik iyileştirme baskısı yoktu
    • Deney ve deneme-yanılma yoluyla özerk keşif mümkündü
  • Bugün yıllık 1 milyon doların üzerinde maaşla işe alınan araştırmacıların bile cesur fikirleri denemektense değerlerini kanıtlama baskısı hissedebileceğini söyledi

“Değerli insanlar olduklarını kanıtlamak için güvenli araştırmaları seçiyorlar”

Sakana AI'ın deneyi: özgürlük yüksek ücreti yeniyor

  • Jones, Sakana AI'da Transformer öncesi özgür araştırma ortamını yeniden kurmaya çalışıyor
    • Doğadan ilham alan araştırmaları takip ediyor
    • Makale yayımlama ya da rakiplerle doğrudan yarışma konusunda asgari baskı uyguluyor
  • Mühendis Brian Cheung'un şu tavsiyesini paylaştı: "Yalnızca sen yapmazsan gerçekleşmeyecek araştırmaları yap"
  • Somut örnek olarak "continuous thought machine" projesini tanıttı
    • Beyindeki senkronizasyon mekanizmasını sinir ağlarına entegre etmeyi amaçlayan bir çalışma
    • Bu fikri öneren kişinin önceki işinde ya da akademide şüpheyle karşılanacağını ve zaman kaybı uyarısı alacağını söyledi
    • Sakana'da ise 1 haftalık keşif süresi verildi ve bu çalışma sonunda NeurIPS'in ana konferansında dikkat çeken bir başarı örneğine dönüştü
  • Keşif odaklı bir ortamın kendisinin yetenek kazanımı için güçlü bir araç olabileceğini savundu
    • Yetenekli ve hırslı insanlar doğal olarak böyle ortamları arıyor

Transformer başarısının paradoksu: yeniliği engelleyen olgunluk

  • Transformer'ların başarısının “çok güçlü olduğu için yeni yenilikleri engellediğini” söyledi
  • “Mevcut teknoloji ne kadar mükemmelse, daha iyisini arama motivasyonu o kadar azalır” değerlendirmesini yaptı
  • Ancak Transformer araştırmasının kendisini tümden reddetmediğini, “hala somut değer üretilebileceğini” de ekledi
  • Buna rağmen “bugünkü devasa kaynakları ve yeteneği düşünürsek, çok daha geniş bir keşif yapabiliriz” diye vurguladı
  • Vardığı sonuç iş birliği ve açık keşfin önemiydi
    • “Rekabet değil, iş birliğiyle keşif düğmesini yükseltmeliyiz. Ancak o zaman gerçek ilerleme mümkün olur” dedi

Yapay zeka endüstrisinin ‘keşif sorunu’nun ima ettikleri

  • Jones'un uyarısı, yapay zekanın ölçeklenme sınırları ve yeni yapıları keşfetme gereği tartışılırken büyük yankı uyandırıyor
  • Sektörde zaten yalnızca Transformer ölçeklemesinin sınıra dayandığı görüşü giderek yayılıyor
  • Önde gelen araştırmacılar, mevcut paradigmanın temel sınırlarını kamuoyu önünde tartışmaya başladı
    • Daha gelişmiş yapay zeka sistemleri için yalnızca ölçeğin değil, mimari yeniliğin de gerekli olduğu görüşü yayılıyor
  • Her yıl onlarca milyar doların yapay zeka geliştirmeye harcandığı, laboratuvarlar arasındaki sert rekabetin gizlilikçiliği ve hızlı yayın döngülerini güçlendirdiği bugünün ortamında, Jones'un anlattığı özgür keşif odaklı araştırmalar giderek azalıyor
  • Jones'un içeriden bakışının özel bir ağırlık taşımasının nedeni
    • Bugün alana hakim olan teknolojiyi bizzat yaratmış biri olarak yenilikçi keşif için gereken koşulları iyi biliyor
    • Kendi ününü yaratan Transformer'lardan bilinçli biçimde uzaklaşma kararı, mesajına inandırıcılık katıyor
  • Bir sonraki Transformer düzeyindeki yeniliğin, keşfetme özgürlüğüne sahip araştırmacılar tarafından bulunabileceği ya da binlerce araştırmacı artımlı iyileştirme yarışına girerken keşfedilmeden kalabileceği kritik bir dönemeçteyiz
  • Sonuç olarak Jones, Transformer'lar üzerinde en uzun süre çalışan kişilerden biri olarak, artık bir sonraki aşamaya geçme zamanının geldiğini herkesten daha iyi biliyor

“Transformer düzeyinde bir atılım belki de zaten hemen yanımızda, ama rekabetin gölgesinde kalıyor”

1 yorum

 
GN⁺ 2025-10-25
Hacker News görüşleri
  • Bana göre transformer, yakın tarihin en üretken icatlarından biriydi
    2017'de ilk ortaya çıkışından bu yana geçen 8 yılda birçok alanı tamamen değiştirdi, hatta Nobel ödülü kazanılmasına bile kısmen katkı sağladı
    Özünde önemli olan fikrin olasılıksal grafik model (probabilistic graphical model) olduğunu düşünüyorum. Olasılığı diziler, ağaçlar ve grafiklerle birleştiren yaklaşımın gelecekte de yüksek araştırma değeri taşıyacağını düşünüyorum

    • Açık konuşmak gerekirse, mimarinin kendisinden büyük bir atılım çıkacağını sanmıyorum
      transformer zaten son derece güçlü bir evrensel yaklaştırıcı (universal approximator). Ufak iyileştirmeler mümkün olabilir ama bundan daha “evrensel” bir şey bulmak pratikte zor
      Asıl yeniden düşünmemiz gerekenler auto-regressive task, cross entropy loss ve gradient descent olabilir
    • Hangi alanların tamamen değiştiğini merak ediyorum
      Benim alanımda da etkisi oldu ama dürüst olmak gerekirse bu etki neredeyse tamamen olumsuz oldu
    • Eskiden olasılıksal grafik modelleri çok kullanmış biri olarak, transformer çağında benim deneyimimin yeniden değer kazanmasını umuyorum
      Ama henüz buna dair bir işaret görmüyorum. Yine de umut var
    • Benim de kişisel olarak kafamda bir olasılıksal hipergraf modeli var
      Henüz makaleye dökmedim ama bu fikre doğru yakınsayan hareketleri birçok yerde görüyorum
      Keşke bir günde daha fazla zaman olsa
    • Katılıyorum. Nedensel çıkarım (causal inference) ve sembolik akıl yürütme (symbolic reasoning), bence transformer sonrasının asıl görevi
  • Sakana AI'ın kurucu ortaklarından ve CTO'su olan Jones'un transformer'dan elini çekip “bir sonraki büyük şeyi” aradığını söylemesi, açıkçası bana yatırım toplama amaçlı PR gibi geliyor

    • “Attention is all he needs” sözü tam oturuyor
    • Yine de yeni bir şey yapmak istiyorsa paraya ihtiyacı var, yani ikisi de doğru olabilir
    • Bilim insanları zaten doğaları gereği yeni ve yaratıcı şeylerin peşinde koşar
    • Her halükarda onun sözlerine biz attention göstermiş olduk
    • Ama gerçekten, şu anda tam olarak ne satmaya çalıştıklarını merak ediyorum
  • Şaka yollu söylemek gerekirse, 2024'te tekillik (singularity) geleceğini sanmıştım ama “gelir elde etme” ile “kendini geliştirme” arasındaki zaman farkı yüzünden durmuş gibi hissediyorum
    transformer modellerinden elde edilecek tüm para sıkılıp çıkarılana kadar en az 20 yıl daha burada kalacak gibiyiz

    • Şu anda donanım ve enerji altyapısı muazzam biçimde genişliyor
      Bu sadece transformer'a özel olmadığı için, tam tersine bu altyapıdan en iyi şekilde yararlanacak yeni mimarileri arama teşviki yaratacaktır
    • Belki de özyineli kendini geliştirme (recursive self-improvement) zaten başlamıştır
      Sadece insanların fark edebileceği kadar hızlı değildir
  • Çoğu insan için “AI” sonuçta gözle görülen bir yazılım ürünü
    Ama bunun içindeki çekirdek model yalnızca küçük bir parça; geri kalanı ise binlerce düşük ücretli çalışanın insan geri bildirimi ile ürünü cilalamasından ibaret
    Gerçekte işin %90'ı ürün geliştirme, %10'u ise ML araştırması
    Makalelerin çoğu doktora derecesi almak için yapılan kariyer odaklı araştırmalar ve gerçek anlamda deneysel araştırma yapanların sayısı az

  • transformer GPU'lara o kadar iyi uyacak şekilde tasarlandı ki, yeni bir model yapmak için artık donanım üreticilerini bile ikna etmeniz gerekiyor
    Sonuçta donanım ve yazılımın eşzamanlı evrimi gerekiyor
    Köklü değişimlerin on yıllar ölçeğinde yaşanacağını düşünüyorum

    • Ama bu meseleye tersinden bakmak olur
      Paralelleştirilebilir algoritmalar özünde daha üstün olduğu için GPU'lar buna uyacak şekilde gelişti
      RNN'ler sıralı oldukları için paralelleştirmesi zordu, transformer ise bu darboğazı ortadan kaldırdı
  • transformer tabanlı olmayan araştırmaların hâlâ canlı olduğunu düşünüyorum
    Sadece para sohbet botu tarzı CRM işlerine aktığı için daha az görünür haldeler
    Çözümün yeni bir mimari olduğunu düşünmüyorum. Asıl önemli olan veri verimliliğini artırmanın yolları
    Ilya Sutskever de “tüm internete ihtiyaç duymayan bir öğrenme yöntemi”ni vurgulamıştı

    • Makalenin söylediği şey “yeni mimari çözümdür” değil, keşif ile kullanım arasındaki dengenin bozulduğu
    • Yeni mimari tartışması aslında AGI için yapılıyor
      İnsan gibi öğrenmek istiyorsak, internetteki veriyi olduğu gibi yedirmekten farklı bir yaklaşım gerekli
    • 2017 öncesindeki araştırmacıların çoğu artık transformer'a odaklanmış durumda
      Araştırmacı sayısı arttı ama transformer dışı araştırmaların oranı muhtemelen azaldı
  • Son kısımdaki em dash (—) sayısı o kadar fazlaydı ki, bu yazıyı transformer yazmış olmalı diye şaka yapıldı

    • Bir sonraki AI modası belki de “disrupters” olur
  • transformer bütün ilgiyi ve fonu emdi
    Araştırmacılar da transformer endüstrisinin içine çekilmiş durumda
    Büyük bir sınıra çarpana kadar bunun süreceğini düşünüyorum
    Umarım enerji tüketimi gerçek sınıra dönüşür ve araştırmanın yönünü değiştirir

    • Gerçekten de enerji yakında darboğaz olabilir
      xAI veri merkezlerinin yanına elektrik sağlamak için gaz türbinleri kurdu ama bu, bölge sakinlerinin sağlığıyla ilgili sorunlar yarattı
      Böyle yöntemlerin yakında düzenlemeye tabi tutulacağını düşünüyorum
  • İnsanlar yeni model mimarisi inovasyonuna fazla takıntılı olma eğiliminde
    Sonuçta model, yalnızca veriyi sıkıştırılmış biçimde temsil eden bir araç
    Daha verimli sıkıştırma yapılsa bile yeteneklerde büyük bir fark yaratmayabilir
    Asıl önemli olan eğitim verimliliğini artırmak. Bugünlerde pekiştirmeli öğrenme (RL) bunun bir örneği

    • Ama eğitim verimliliği sonuçta mimariyle bağlantılı
      Yeni yapıları keşfetmek aşırı bir takıntı değil, keşif ile kullanım arasındaki dengeyi kurma işi
  • transformer merkezli endüstriyel yapının, GPU/NPU'ların hesaplama açısından sunduğu elverişlilik yüzünden oluşmuş olabileceğini düşünüyorum
    Daha iyi AI teknolojileri mevcut olabilir ama mevcut donanımla hesaplama maliyetleri fazla yüksek olabilir
    Beynimiz 500 watt harcamıyor; belki de ipucu budur