Açık ağırlıklı LLM'ler ile kapalı LLM'ler arasındaki fark
(blog.doubleword.ai)- Artificial Analysis Intelligence Index'e göre açık ağırlıklı LLM'lerin, kapalı LLM'lerin geçmiş performansını yakalaması için gereken süre 2024 yazından bu yana istikrarlı biçimde kısalıyor
- Bu tekil metriğe bir eğilim çizgisi uygulandığında farkın 3 Aralık 2026'da 0 aya ineceği, yani açık modellerin metrik bazında en öndeki kapalı modellerle aynı noktaya geleceği öngörülüyor
- Aynı analiz 18 benchmark'ın tamamına genişletildiğinde ortalama fark neredeyse dümdüz kalıyor ve tüm dönem boyunca 5 ayın altında seyrediyor
- İyileşmenin büyük kısmı esas olarak kodlama benchmark'larında görüldü; kodlama metriklerindeki fark 15 aydan 1-2 aya indi
- LLM kalite değerlendirmesi ölçüm kriterine göre ciddi biçimde değişiyor; bu yüzden hem açık modellerin yakında yetişeceği hem de yaklaşık 5 ay geride kalmayı sürdüreceği yorumu aynı anda mümkün
Tekil metriğin gösterdiği hızlı yakınsama
- Fark, açık ağırlıklı LLM'lerin benchmark sınırına göre, kapalı LLM'lerin geçmişte hangi noktada aynı performansı gösterdiğine bakılarak hesaplanıyor
- Kullanılan ana metrik, bir modelin genel yeteneğini değerlendirmeyi amaçlayan Artificial Analysis'in Artificial Analysis Intelligence Index metriği
- Bu ölçütte 2024 yazı civarından itibaren açık ağırlıklı LLM'lerle kapalı LLM'ler arasındaki fark azalmaya başladı ve daralma eğilimi sonrasında da sürdü
- Eğilim çizgisi geleceğe uzatıldığında farkın 3 Aralık 2026'da 0 aya ineceği görülüyor
- Yazının kaleme alındığı tarihe göre bu, yaklaşık 6 ay sonra anlamına geliyor
18 benchmark'ın gösterdiği farklı sonuç
- Aynı analiz Artificial Analysis'in 18 benchmark'ının tamamına uygulandığında, tekil metrikten farklı bir tablo ortaya çıkıyor
- Her ay için 18 veri kümesindeki farklar box plot olarak gösteriliyor ve tüm veri kümelerindeki ortalama fark için bir eğilim çizgisi hesaplanıyor
- Ortalama farkın eğilim çizgisi neredeyse tamamen yatay ve tüm dönem boyunca 5 aydan düşük bir seviyeye yakın
- Model iyileşmesinin önemli bir bölümü kodlama metriklerinde gerçekleşiyor
- Kodlama endeksi, 15 ay geride olma seviyesinden 1-2 ay geride olma seviyesine düştü
- Diğer veri kümelerinin çoğunda ise zamanla farkın hafifçe açıldığı görülüyor
- Ölçüm kriterine göre LLM kalitesine ilişkin değerlendirme büyük ölçüde değişiyor
- Bir kritere göre Noel civarında açık kaynak singularity öngörülebilir
- Başka bir kritere göre ise açık kaynak LLM'ler kapalı LLM'lerin sürekli yaklaşık 5 ay gerisinde ve bu fark daha da büyüyebilir
1 yorum
Hacker News görüşleri
Açık ağırlıklı modellerin geleceğindeki en büyük sorun, bugünkü açık ağırlıklı modellerin DeepSeek gibi özel kuruluşların iyi niyetine dayanarak ortaya çıkmış olması
Musluk her an kapanabilir ve bir biçimde topluluk mülkiyetinde donanım ortaya çıkana kadar açık ağırlıklı modellerin durma riski devam edecek
Bundan sonra hiç yeni model çıkmasa bile, halihazırda ulaşılan yetenekler kalır. Buna karşılık API tabanlı modellerde sağlayıcı istediği gibi hizmeti sonlandırabilir;
gpt5-mininin yakında ortadan kalkıp daha pahalı5.4-miniile değiştirilmesi gibi şeyler mümkünNvidia, insanlar model çalıştırdıkça doğrudan kâr ettiği için Nemotron serisini çıkarmaya devam etmek için teşvike sahip; Google da tarayıcı özelliklerinde kullanacağı küçük modellerin zaten sızacağını bildiğinden, geliştirici pazar payı kazanmayı tercih eder
Çinli araştırma laboratuvarlarının da modelleri yayımlamaya devam etmek için teşviki var ve ülkeler arası ticaret savaşları sayesinde devlet desteğinin sürmesi de olası
“Maliyetin 1/10’u ile sizin yaptığınızın %90’ını yapabiliyoruz; yoğunluk metriklerinde daha da iyiyiz” demek gibi; en azından benim teorime göre yapay zeka dünyasının Hindenburg Research’ü gibi görünüyor
Modelleri eğitebilen şirketler ortaya çıkabilir ve bu modelleri API işleten çıkarım şirketlerine lisanslayabilir
Çıkarım şirketleri çok daha az sermayeyle faaliyet gösterebilir, eğitim şirketleri de kaynaklarını çıkarıma kaptırmak zorunda kalmaz
Bazı Çinli model eğitim şirketleri şimdiden modellerini bu şekilde çıkarım sağlayıcılarına lisanslıyor
Finansal olarak da mantıklı olduğunu düşünüyorum. Abonelik limitlerini sonuna kadar kullanan kullanıcılar, işletmeciye abonelik ücretinden daha büyük maliyet çıkarabilir; Anthropic’in Çin veri toplamasına sert tepki vermesinin nedeni de bu olabilir
Ağırlıkları yayımlarsanız rakiplerin abonelik hizmetini zorlamasına gerek kalmadan modeli indirip analiz etmesi ve gün boyu çalıştırması mümkün olur; böylece yük azalır
En büyük modelleri, büyük oyuncular dışında doğrudan çalıştırmak için neredeyse kimsenin nedeni yok. Donanım kiralama abonelik ücretlerinden akıl almaz derecede pahalıdır ve on binlerce dolara mal olur; satın almak içinse yüz binlerce dolar gerekir
“Şimdi emeklilik birikimini nakde çevirip uzak bir adaya uçmak ve uygarlığın kalan altı ayını huzur içinde geçirmek için iyi bir zaman”, “bu yüzden açık kaynak kıyameti henüz gelmemiş olabilir” gibi ifadeler vardı; iyi bir açık kaynak modelin ne zamandan beri kıyametin alameti olduğunu bilmiyorum
En azından siberpunk tarzı bir distopyaya karşı hedge olarak görülebilir
Ama açık model LLM canavar muamelesi görüyor. Piyasayı OpenAI ya da Anthropic’in güvenli biçimde kontrol edip tüm kararları vermesi mi gerekiyor
Muhtemelen şaka yollu bir ifadeydi
Mevcut gidişatta Çin modellerinin ABD’nin en ileri modellerini geçmesi zor görünüyor
ABD modellerinin üstünlüğü; dev öğretmen modellerle üretim yapmak gibi gerçek etkileşimli trafiğe sokulması kesinlikle zor yöntemleri bile kullanarak daha fazla ve daha kaliteli, ağırlıklı olarak sentetik veri elde etmelerinden geliyor
Çin modelleri, model optimizasyonuna muazzam çaba harcayarak ve ABD’nin en ileri modellerinden daha fazla ve daha kaliteli eğitim verisi elde ederek ilerliyor
Çin’in açık ağırlıklı modellerinin ABD laboratuvarlarının en ileri modellerini geçebilmesi için bu denklemin tersine dönmesi gerekiyor. Çin laboratuvarları, en ileri model verisi hasadından çıkıp yeni veriler üreten veri sistemleri ve çabaları kurmalı, ayrıca en yeni nesil donanımı da büyük ölçekte edinmeli
En ileri ölçekli model eğitiminin kendisi hayal bile edilemez bir başarı değil; asıl donanımın gittiği yer öğretmen model çıkarımı tarafı
z.ai veya Alibaba’nın içini de, Anthropic ya da OpenAI’nin içini de bilmiyoruz
Ancak birbirlerinden veri toplamıyor olmaları çok düşük olasılık gibi görünüyor. Anthropic’te de rakipleri görmek için bile olsa GLM 5.2 ağırlıklarına bakan bir ekip olduğundan eminim
Bir laboratuvarın Anthropic verisi elde etmesi, kendi araştırmasını yapmadığı anlamına gelmez
Optimizasyona odaklanmalarının nedeni en iyi donanımı edinememeleriydi; üst düzey laboratuvarların geri kalmasının tek nedeni H200 veya MI350’ye sahip olmamaları da olabilir. Artık olacaklar
Başka bir riski de hafife alıyorsunuz. Anthropic, ABD hükümetiyle çekişirken şu anda dünyanın “en iyi” modellerini içeride kilitli tutuyor
Çin’de de benzeri olabilir. Bilindiği kadarıyla Çin hükümeti yapay zeka ihracatına ve açık ağırlıklı modellere şaşırtıcı derecede açık, ama GLM 5.2’nin daha iyi bir sürümünü içeride tutuyor olmaları ve kimsenin bunu söyleyememesi gibi küçük ama göz ardı edilemeyecek bir ihtimal de var
Çin laboratuvarlarının 6 ay geride olması ile en iyi modellerini bastırmaya zorlanmaları dışarıdan ayırt etmesi zor durumlardır
Bunu bir engel olarak görmüyorum; son 50 yıldır süren Asya’yı küçümseme eğilimine benziyor
LLM üretmekte ABD’ye özgü doğuştan gelen bir üstünlük yok; ABD’nin sahip olduğu ilk giren avantajı da “açıklamak için fazla tehlikeli” tarzı ihracat kontrolü oyunlarıyla geciktirilip boşa harcanma ihtimali yüksek
İnternette, modelin bilmesi beklenen bilginin büyük kısmı zaten olduğu gibi mevcut
Daha iyi bir modelden küçük miktarda veriyle damıtma yapmak hâlâ yardımcı olur, ancak bu, başlangıçta internet üzerinde eğitilmiş modelde hiç bulunmayan yetenekleri aktarmaktan çok, itaatkâr asistan personasına uygun yetenekleri bulup trolling gibi istenmeyen yetenekleri bastırmaya daha yakın
ChatGPT ile oluşturulan komut ayarlama veri kümelerinin Alpaca vb. için kullanılması bunun ilkel bir sürümüydü
Taklit edilecek net bir hedef yoksa rakipler insan değerlendiricilere daha fazla bağımlı olmak zorunda kalır; ancak Çin’de çok sayıda veri etiketleme şirketi olduğundan bu büyük bir engel değil
Çin’den çıkanlar yalnızca model damıtmanın yeni yöntemleri değil
ABD hükümeti, açık izin olmadan en yeni modellere erişim vermek niyetinde görünmüyor
Kapalı modellerin benchmark’ları fiilen kandırabileceği meselesi pek görünmüyor
Anthropic veya OpenAI’nin model diye markaladığı şeyin yalnızca ağırlıklardan ibaret olması gerekmiyor; modelin kendisini güçlendiren tüm bir arka uç sistemi de olabilir
Bu durumda benchmark puanları, yalnızca ağırlıklara sahip açık kaynak modellerden daha iyi çıkabilir
Açık kaynak için de aynı şey geçerli; benchmark’lar da herhangi bir çalıştırma aracı olmadan koşturulmuyor
AGI’nin %100 sinir ağıyla mı, yoksa %50 sinir ağı ve %50 Perl betikleriyle mi yapıldığı kimsenin umurunda değil
Model performansındaki iyileşmenin önemli bir kısmının kodlama benchmark’larından gelmiş olması mantıklı
Kodlama, modelin en net kısa vadeli kullanım alanlarından biri; token’lar için çok para ödemeye hazır bir pazar var, üzerinde çalışılacak devasa bir derlem var ve problem alanının kendisinde hatırı sayılır ölçüde doğrulanabilirlik yerleşik
Özgürlükler ülkesi olarak bilinen ABD, artık ABD’li değilseniz en ileri modelleri kullanmanızı bile kısıtlıyor
Buna karşılık “otoriter devlet” ve “özgürlüğün zıttı” gibi görülen Çin, özellikle kapitalist yazılım endüstrisine dayanarak rekabetçi açık ağırlıklı modellerin tamamını ortaya çıkardı
Gerçekten ironik
Bir Çinli olarak, bu stratejinin geride olan tarafın açık kaynağı asimetrik rekabet aracı olarak kullanması ve eksik hesaplama kaynaklarını yükü dağıtarak telafi etmeye çalışması olduğunu anlıyorum. Yine de çok ironik
ABD kendine özgürlükler ülkesi diyebilir, ama yüzlerce yıldır ekonomik korumacılık oyunu oynuyor
Bu da bunun yalnızca en yeni örneği
Kapalı model şirketlerinin açık modellere ne ölçüde performans artışı sağladığını merak ediyorum
Kapalı modellerdeki iyileşme durursa, açık modellerdeki ilerleme de yavaşlar mı?
Örneğin DeepSeek zaten verimlilik konusunda çok fazla inovasyon yaptı
Kapalı modeller iyileşmeyi bırakırsa tüm kapalı modeller de durur şeklindeki varsayım, modeller yakında bir duvara çarpmadığı sürece pek olası değil
Çinli şirketler hesaplama gücünde ABD’nin gerisinde kalabilir, ancak şu anda iyi işleyen problem üretimi ve pekiştirmeli öğrenme alanlarında ABD’li meslektaşlarıyla kabaca aynı derecede iyi araştırmacılara sahipler [0]
Özellikle programlama gibi kısa geri bildirim döngülerinin mümkün olduğu alanlarda, biz aciz insanların amaç fonksiyonunu tanımlama yeteneğini yitirdiği noktaya kadar hızlı iyileşmelerin sürmesi olası
Buna karşılık, geri bildirimin yavaş veya pahalı olduğu alanlarda sihir beklemiyorum. Dev ve yetkin ilaç şirketleri bile değerlendirme süreci çok yavaş ve pahalı olduğu için harika yeni ilaçları istikrarlı biçimde icat edemiyor; modellerin de aynı nedenle bunu yakın zamanda yapması zor
n adet ilaç geliştirme yolunu m kez yineleyip pekiştirmeli öğrenme çalıştırmak için, mümkün olsa bile n*m ile 10 milyon–100 milyon doların çarpımı kadar maliyet ve m yıl gerekir
[0] ABD üniversite sistemi üzerinden dünyanın dört bir yanındaki yeteneklerin ABD laboratuvarlarına aktığı beyin göçü kuruyor; bu yüzden bu alandaki ABD üstünlüğünün azalması olası
Son dönemdeki ABD ihracat yasaklarıyla birlikte bakıldığında ilginç
ABD, halkın kullanabileceği model kalitesi açısından açık kaynağın, özellikle de Çin laboratuvarlarının arayı kapatmasına yol açarak liderliğini boşa mı harcıyor?
Kullanıcılar en yeni modelleri kullanamasa da ABD laboratuvarları üstünlüğünü koruyabilir mi?
Önemli olduğu ya da olmadığı anlamında söylemiyorum; ama “ABD kazanıyor” veya “Çin kazanıyor”un nasıl bir pratik değer taşıdığını bilmiyorum
Açık ağırlıklı/Çin modellerinin en yeni son teknoloji modellerin damıtılmasına büyük ölçüde bağımlı olduğu inancı doğruysa, fark en yeni son teknoloji modelden anlamlı veri çıkarmak için gereken asgari süreye, en yeni bağımlı modelin eğitimini tamamlama süresinin eklenmesi düzeyinde dengelenecektir
Bu fark süreç verimliliği artırılarak azaltılabilir, ancak tamamen ortadan kaldırılamaz
Anthropic veya OpenAI’de damıtmayı engelleme girişimleri de dengeyi değiştirebilir
Öncü LLM uygulamalarının en ön cephesinde olmaları gerektiğine inanan ve giderek bunlara bağımlı hâle gelen birçok şirket ve hükümetin, Arthur C. Clarke’ın Superiority adlı kısa öyküsündeki gibi bir duruma düşüp düşmeyeceğini merak ediyorum
[1] Orijinal metin: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)