1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Artificial Analysis Intelligence Index'e göre açık ağırlıklı LLM'lerin, kapalı LLM'lerin geçmiş performansını yakalaması için gereken süre 2024 yazından bu yana istikrarlı biçimde kısalıyor
  • Bu tekil metriğe bir eğilim çizgisi uygulandığında farkın 3 Aralık 2026'da 0 aya ineceği, yani açık modellerin metrik bazında en öndeki kapalı modellerle aynı noktaya geleceği öngörülüyor
  • Aynı analiz 18 benchmark'ın tamamına genişletildiğinde ortalama fark neredeyse dümdüz kalıyor ve tüm dönem boyunca 5 ayın altında seyrediyor
  • İyileşmenin büyük kısmı esas olarak kodlama benchmark'larında görüldü; kodlama metriklerindeki fark 15 aydan 1-2 aya indi
  • LLM kalite değerlendirmesi ölçüm kriterine göre ciddi biçimde değişiyor; bu yüzden hem açık modellerin yakında yetişeceği hem de yaklaşık 5 ay geride kalmayı sürdüreceği yorumu aynı anda mümkün

Tekil metriğin gösterdiği hızlı yakınsama

  • Fark, açık ağırlıklı LLM'lerin benchmark sınırına göre, kapalı LLM'lerin geçmişte hangi noktada aynı performansı gösterdiğine bakılarak hesaplanıyor
  • Kullanılan ana metrik, bir modelin genel yeteneğini değerlendirmeyi amaçlayan Artificial Analysis'in Artificial Analysis Intelligence Index metriği
  • Bu ölçütte 2024 yazı civarından itibaren açık ağırlıklı LLM'lerle kapalı LLM'ler arasındaki fark azalmaya başladı ve daralma eğilimi sonrasında da sürdü
  • Eğilim çizgisi geleceğe uzatıldığında farkın 3 Aralık 2026'da 0 aya ineceği görülüyor
    • Yazının kaleme alındığı tarihe göre bu, yaklaşık 6 ay sonra anlamına geliyor

18 benchmark'ın gösterdiği farklı sonuç

  • Aynı analiz Artificial Analysis'in 18 benchmark'ının tamamına uygulandığında, tekil metrikten farklı bir tablo ortaya çıkıyor
  • Her ay için 18 veri kümesindeki farklar box plot olarak gösteriliyor ve tüm veri kümelerindeki ortalama fark için bir eğilim çizgisi hesaplanıyor
  • Ortalama farkın eğilim çizgisi neredeyse tamamen yatay ve tüm dönem boyunca 5 aydan düşük bir seviyeye yakın
  • Model iyileşmesinin önemli bir bölümü kodlama metriklerinde gerçekleşiyor
    • Kodlama endeksi, 15 ay geride olma seviyesinden 1-2 ay geride olma seviyesine düştü
    • Diğer veri kümelerinin çoğunda ise zamanla farkın hafifçe açıldığı görülüyor
  • Ölçüm kriterine göre LLM kalitesine ilişkin değerlendirme büyük ölçüde değişiyor
    • Bir kritere göre Noel civarında açık kaynak singularity öngörülebilir
    • Başka bir kritere göre ise açık kaynak LLM'ler kapalı LLM'lerin sürekli yaklaşık 5 ay gerisinde ve bu fark daha da büyüyebilir

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • Açık ağırlıklı modellerin geleceğindeki en büyük sorun, bugünkü açık ağırlıklı modellerin DeepSeek gibi özel kuruluşların iyi niyetine dayanarak ortaya çıkmış olması
    Musluk her an kapanabilir ve bir biçimde topluluk mülkiyetinde donanım ortaya çıkana kadar açık ağırlıklı modellerin durma riski devam edecek

    • Yine de açık modellerin en büyük avantajı, bir kez yayımlanan performansın geri alınamaması
      Bundan sonra hiç yeni model çıkmasa bile, halihazırda ulaşılan yetenekler kalır. Buna karşılık API tabanlı modellerde sağlayıcı istediği gibi hizmeti sonlandırabilir; gpt5-mininin yakında ortadan kalkıp daha pahalı 5.4-mini ile değiştirilmesi gibi şeyler mümkün
      Nvidia, insanlar model çalıştırdıkça doğrudan kâr ettiği için Nemotron serisini çıkarmaya devam etmek için teşvike sahip; Google da tarayıcı özelliklerinde kullanacağı küçük modellerin zaten sızacağını bildiğinden, geliştirici pazar payı kazanmayı tercih eder
      Çinli araştırma laboratuvarlarının da modelleri yayımlamaya devam etmek için teşviki var ve ülkeler arası ticaret savaşları sayesinde devlet desteğinin sürmesi de olası
    • DeepSeek bir hayır işi değil; Batı yapay zeka piyasasında açığa satış yapmak isteyen bir hedge fonuna daha yakın
      “Maliyetin 1/10’u ile sizin yaptığınızın %90’ını yapabiliyoruz; yoğunluk metriklerinde daha da iyiyiz” demek gibi; en azından benim teorime göre yapay zeka dünyasının Hindenburg Research’ü gibi görünüyor
    • Yazının asıl yazarı olarak, açık ağırlıklı modellerin geleceğinin fabless çip tasarım şirketlerine benzeyeceğini düşünüyorum
      Modelleri eğitebilen şirketler ortaya çıkabilir ve bu modelleri API işleten çıkarım şirketlerine lisanslayabilir
      Çıkarım şirketleri çok daha az sermayeyle faaliyet gösterebilir, eğitim şirketleri de kaynaklarını çıkarıma kaptırmak zorunda kalmaz
      Bazı Çinli model eğitim şirketleri şimdiden modellerini bu şekilde çıkarım sağlayıcılarına lisanslıyor
    • Model eğitimi için SETI@Home benzeri bir şeye ihtiyaç var
    • Bu hayırseverlik değil; laboratuvarlar birbirlerinin açık modellerinden öğrenerek bir şeyler kazanıyor
      Finansal olarak da mantıklı olduğunu düşünüyorum. Abonelik limitlerini sonuna kadar kullanan kullanıcılar, işletmeciye abonelik ücretinden daha büyük maliyet çıkarabilir; Anthropic’in Çin veri toplamasına sert tepki vermesinin nedeni de bu olabilir
      Ağırlıkları yayımlarsanız rakiplerin abonelik hizmetini zorlamasına gerek kalmadan modeli indirip analiz etmesi ve gün boyu çalıştırması mümkün olur; böylece yük azalır
      En büyük modelleri, büyük oyuncular dışında doğrudan çalıştırmak için neredeyse kimsenin nedeni yok. Donanım kiralama abonelik ücretlerinden akıl almaz derecede pahalıdır ve on binlerce dolara mal olur; satın almak içinse yüz binlerce dolar gerekir
  • “Şimdi emeklilik birikimini nakde çevirip uzak bir adaya uçmak ve uygarlığın kalan altı ayını huzur içinde geçirmek için iyi bir zaman”, “bu yüzden açık kaynak kıyameti henüz gelmemiş olabilir” gibi ifadeler vardı; iyi bir açık kaynak modelin ne zamandan beri kıyametin alameti olduğunu bilmiyorum

    • Aksine, açık kaynak modeller kıyamete karşı bir hedge
      En azından siberpunk tarzı bir distopyaya karşı hedge olarak görülebilir
    • Açık ağırlıkların en gelişmiş modellerin yetenek seviyesine ulaşması halinde, sınırsız mythos+ düzeyi modellerin herkesin eline geçmesi gibi korkunç sonucu şaka yollu ima ettiğini düşündüm
    • Sevimli. İklim değişikliğinin gıda ürünleri ve kanser oranları üzerindeki kıyametvari etkileri, özellikle de ozon tabakasının çöküşünden sonraki etkiler, insanları değiştiremedi
      Ama açık model LLM canavar muamelesi görüyor. Piyasayı OpenAI ya da Anthropic’in güvenli biçimde kontrol edip tüm kararları vermesi mi gerekiyor
    • Bu yazı, açık ağırlıklı LLM’leri barındıran bir şirketin blog yazısı (https://www.doubleword.ai/)
      Muhtemelen şaka yollu bir ifadeydi
    • Kıyametçilik tüm zamanların zirvesinde ve insanlar her geçen gün daha nevrotik hale geliyor gibi
  • Mevcut gidişatta Çin modellerinin ABD’nin en ileri modellerini geçmesi zor görünüyor
    ABD modellerinin üstünlüğü; dev öğretmen modellerle üretim yapmak gibi gerçek etkileşimli trafiğe sokulması kesinlikle zor yöntemleri bile kullanarak daha fazla ve daha kaliteli, ağırlıklı olarak sentetik veri elde etmelerinden geliyor
    Çin modelleri, model optimizasyonuna muazzam çaba harcayarak ve ABD’nin en ileri modellerinden daha fazla ve daha kaliteli eğitim verisi elde ederek ilerliyor
    Çin’in açık ağırlıklı modellerinin ABD laboratuvarlarının en ileri modellerini geçebilmesi için bu denklemin tersine dönmesi gerekiyor. Çin laboratuvarları, en ileri model verisi hasadından çıkıp yeni veriler üreten veri sistemleri ve çabaları kurmalı, ayrıca en yeni nesil donanımı da büyük ölçekte edinmeli
    En ileri ölçekli model eğitiminin kendisi hayal bile edilemez bir başarı değil; asıl donanımın gittiği yer öğretmen model çıkarımı tarafı

    • O şirketlerde çalışmıyorsanız gerçekte ne yaptıklarını bilemezsiniz
      z.ai veya Alibaba’nın içini de, Anthropic ya da OpenAI’nin içini de bilmiyoruz
      Ancak birbirlerinden veri toplamıyor olmaları çok düşük olasılık gibi görünüyor. Anthropic’te de rakipleri görmek için bile olsa GLM 5.2 ağırlıklarına bakan bir ekip olduğundan eminim
      Bir laboratuvarın Anthropic verisi elde etmesi, kendi araştırmasını yapmadığı anlamına gelmez
      Optimizasyona odaklanmalarının nedeni en iyi donanımı edinememeleriydi; üst düzey laboratuvarların geri kalmasının tek nedeni H200 veya MI350’ye sahip olmamaları da olabilir. Artık olacaklar
      Başka bir riski de hafife alıyorsunuz. Anthropic, ABD hükümetiyle çekişirken şu anda dünyanın “en iyi” modellerini içeride kilitli tutuyor
      Çin’de de benzeri olabilir. Bilindiği kadarıyla Çin hükümeti yapay zeka ihracatına ve açık ağırlıklı modellere şaşırtıcı derecede açık, ama GLM 5.2’nin daha iyi bir sürümünü içeride tutuyor olmaları ve kimsenin bunu söyleyememesi gibi küçük ama göz ardı edilemeyecek bir ihtimal de var
      Çin laboratuvarlarının 6 ay geride olması ile en iyi modellerini bastırmaya zorlanmaları dışarıdan ayırt etmesi zor durumlardır
    • “Çin laboratuvarları en ileri model verisi hasadından çıkıp yeni veri üretmeli” tasviri doğru olsa bile, bunu yarın bile yapabilirler ve bunu düşünemeyecek kadar kısa görüşlü değiller
      Bunu bir engel olarak görmüyorum; son 50 yıldır süren Asya’yı küçümseme eğilimine benziyor
      LLM üretmekte ABD’ye özgü doğuştan gelen bir üstünlük yok; ABD’nin sahip olduğu ilk giren avantajı da “açıklamak için fazla tehlikeli” tarzı ihracat kontrolü oyunlarıyla geciktirilip boşa harcanma ihtimali yüksek
    • Anthropic’in damıtma için çıkarıldığını iddia ettiği veri miktarı, tüm internete kıyasla çok küçük
      İnternette, modelin bilmesi beklenen bilginin büyük kısmı zaten olduğu gibi mevcut
      Daha iyi bir modelden küçük miktarda veriyle damıtma yapmak hâlâ yardımcı olur, ancak bu, başlangıçta internet üzerinde eğitilmiş modelde hiç bulunmayan yetenekleri aktarmaktan çok, itaatkâr asistan personasına uygun yetenekleri bulup trolling gibi istenmeyen yetenekleri bastırmaya daha yakın
      ChatGPT ile oluşturulan komut ayarlama veri kümelerinin Alpaca vb. için kullanılması bunun ilkel bir sürümüydü
      Taklit edilecek net bir hedef yoksa rakipler insan değerlendiricilere daha fazla bağımlı olmak zorunda kalır; ancak Çin’de çok sayıda veri etiketleme şirketi olduğundan bu büyük bir engel değil
    • “Çin, ABD’yi kopyalamak zorunda” fikri son derece kısa görüşlü ve yetersiz bilgiye dayalı bir yargı
      Çin’den çıkanlar yalnızca model damıtmanın yeni yöntemleri değil
    • Bunun nasıl olacağını merak ediyorum. Yakında seçenekler ya çok eski OAI modelleri ya da yeni Çin modelleri olacak
      ABD hükümeti, açık izin olmadan en yeni modellere erişim vermek niyetinde görünmüyor
  • Kapalı modellerin benchmark’ları fiilen kandırabileceği meselesi pek görünmüyor
    Anthropic veya OpenAI’nin model diye markaladığı şeyin yalnızca ağırlıklardan ibaret olması gerekmiyor; modelin kendisini güçlendiren tüm bir arka uç sistemi de olabilir
    Bu durumda benchmark puanları, yalnızca ağırlıklara sahip açık kaynak modellerden daha iyi çıkabilir

    • Doğru, bence bunda sorun yok. Hepsi dahil edilerek performans sayılmalı
      Açık kaynak için de aynı şey geçerli; benchmark’lar da herhangi bir çalıştırma aracı olmadan koşturulmuyor
      AGI’nin %100 sinir ağıyla mı, yoksa %50 sinir ağı ve %50 Perl betikleriyle mi yapıldığı kimsenin umurunda değil
  • Model performansındaki iyileşmenin önemli bir kısmının kodlama benchmark’larından gelmiş olması mantıklı
    Kodlama, modelin en net kısa vadeli kullanım alanlarından biri; token’lar için çok para ödemeye hazır bir pazar var, üzerinde çalışılacak devasa bir derlem var ve problem alanının kendisinde hatırı sayılır ölçüde doğrulanabilirlik yerleşik

  • Özgürlükler ülkesi olarak bilinen ABD, artık ABD’li değilseniz en ileri modelleri kullanmanızı bile kısıtlıyor
    Buna karşılık “otoriter devlet” ve “özgürlüğün zıttı” gibi görülen Çin, özellikle kapitalist yazılım endüstrisine dayanarak rekabetçi açık ağırlıklı modellerin tamamını ortaya çıkardı
    Gerçekten ironik
    Bir Çinli olarak, bu stratejinin geride olan tarafın açık kaynağı asimetrik rekabet aracı olarak kullanması ve eksik hesaplama kaynaklarını yükü dağıtarak telafi etmeye çalışması olduğunu anlıyorum. Yine de çok ironik

    • Karşılaştırma daha ilk cümleden çöküyor
      ABD kendine özgürlükler ülkesi diyebilir, ama yüzlerce yıldır ekonomik korumacılık oyunu oynuyor
      Bu da bunun yalnızca en yeni örneği
  • Kapalı model şirketlerinin açık modellere ne ölçüde performans artışı sağladığını merak ediyorum
    Kapalı modellerdeki iyileşme durursa, açık modellerdeki ilerleme de yavaşlar mı?

    • Neden yalnızca ABD laboratuvarlarının inovasyon yapabileceğinin varsayıldığını anlamıyorum
      Örneğin DeepSeek zaten verimlilik konusunda çok fazla inovasyon yaptı
    • “Damıtma”nın açık ağırlıklı modellerin arayı kapatmasına ne kadar yardımcı olduğunu Çin’deki bazı kişiler kesinlikle biliyordur
      Kapalı modeller iyileşmeyi bırakırsa tüm kapalı modeller de durur şeklindeki varsayım, modeller yakında bir duvara çarpmadığı sürece pek olası değil
      Çinli şirketler hesaplama gücünde ABD’nin gerisinde kalabilir, ancak şu anda iyi işleyen problem üretimi ve pekiştirmeli öğrenme alanlarında ABD’li meslektaşlarıyla kabaca aynı derecede iyi araştırmacılara sahipler [0]
      Özellikle programlama gibi kısa geri bildirim döngülerinin mümkün olduğu alanlarda, biz aciz insanların amaç fonksiyonunu tanımlama yeteneğini yitirdiği noktaya kadar hızlı iyileşmelerin sürmesi olası
      Buna karşılık, geri bildirimin yavaş veya pahalı olduğu alanlarda sihir beklemiyorum. Dev ve yetkin ilaç şirketleri bile değerlendirme süreci çok yavaş ve pahalı olduğu için harika yeni ilaçları istikrarlı biçimde icat edemiyor; modellerin de aynı nedenle bunu yakın zamanda yapması zor
      n adet ilaç geliştirme yolunu m kez yineleyip pekiştirmeli öğrenme çalıştırmak için, mümkün olsa bile n*m ile 10 milyon–100 milyon doların çarpımı kadar maliyet ve m yıl gerekir
      [0] ABD üniversite sistemi üzerinden dünyanın dört bir yanındaki yeteneklerin ABD laboratuvarlarına aktığı beyin göçü kuruyor; bu yüzden bu alandaki ABD üstünlüğünün azalması olası
  • Son dönemdeki ABD ihracat yasaklarıyla birlikte bakıldığında ilginç
    ABD, halkın kullanabileceği model kalitesi açısından açık kaynağın, özellikle de Çin laboratuvarlarının arayı kapatmasına yol açarak liderliğini boşa mı harcıyor?
    Kullanıcılar en yeni modelleri kullanamasa da ABD laboratuvarları üstünlüğünü koruyabilir mi?

    • Bunun neden önemli olduğunu merak ediyorum
      Önemli olduğu ya da olmadığı anlamında söylemiyorum; ama “ABD kazanıyor” veya “Çin kazanıyor”un nasıl bir pratik değer taşıdığını bilmiyorum
  • Açık ağırlıklı/Çin modellerinin en yeni son teknoloji modellerin damıtılmasına büyük ölçüde bağımlı olduğu inancı doğruysa, fark en yeni son teknoloji modelden anlamlı veri çıkarmak için gereken asgari süreye, en yeni bağımlı modelin eğitimini tamamlama süresinin eklenmesi düzeyinde dengelenecektir
    Bu fark süreç verimliliği artırılarak azaltılabilir, ancak tamamen ortadan kaldırılamaz
    Anthropic veya OpenAI’de damıtmayı engelleme girişimleri de dengeyi değiştirebilir

  • Öncü LLM uygulamalarının en ön cephesinde olmaları gerektiğine inanan ve giderek bunlara bağımlı hâle gelen birçok şirket ve hükümetin, Arthur C. Clarke’ın Superiority adlı kısa öyküsündeki gibi bir duruma düşüp düşmeyeceğini merak ediyorum
    [1] Orijinal metin: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
    [2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)