1 puan yazan GN⁺ 1 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Açık ağırlıklı modeller, herkesin LLM'leri kendi donanımında doğrudan çalıştırmasına olanak tanır; hassas verilerin korunması, fine-tuning ve kuantizasyon esnekliği ile frontier modellere kıyasla daha düşük çıkarım maliyeti sağlar
  • MiniMax, Z.ai, DeepSeek ve Qwen gibi Çinli araştırma laboratuvarlarının modelleri önde gelen açık ağırlıklı modeller arasında gösterilirken, Google'ın Gemma'sı ve OpenAI'nin gpt-oss modeli genel olarak bunların gerisinde konumlanıyor
  • Açık ağırlıklı modeller, OpenAI, Anthropic ve Google gibi frontier laboratuvarlar üzerinde fiyat düşürücü baskı oluşturuyor; çünkü daha ucuz alternatiflere geçiş ihtimali oligopolistik fiyat davranışını sınırlıyor
  • Son dönemde Meta en yeni “Muse Spark” modelinde yayınlamayı durdurdu, Alibaba API öncelikli veya yalnızca API üzerinden yayınları artırdı, Kimi K2.6 ve Mistral da daha sıkı lisans koşulları uygulama yönünde ilerliyor
  • Rekabetçi bir açık ağırlıklı ekosistemin zayıflaması, az sayıdaki frontier laboratuvar ile bazı Çinli laboratuvarların yapay zeka kullanıcılarının tüketici fazlasını daha büyük ölçüde kendilerine çekmesine yol açabilir; damıtma da güçlü temel modellere erişim gerektirdiği için köklü bir çözüm olmakta zorlanır

Açık ağırlıklı modellerin rolü

  • LLM pazarında kapalı modeller ile açık ağırlıklı (open weights) modeller bir arada var oldu
    • Kapalı modellere, adı öyle çağrıştırmasa da OpenAI'nin neredeyse tüm modelleri dahildir
    • Açık ağırlıklı modeller ise diğer laboratuvarlar tarafından yayımlandı ve Llama serisi bunun en bilinen örneğiydi
    • Son dönemde MiniMax, Z.ai, DeepSeek ve Qwen (Alibaba) gibi Çinli araştırma laboratuvarlarının modelleri önde gelen açık ağırlıklı modeller arasında sayılıyor
    • Google'ın Gemma serisi ile OpenAI'nin gpt-oss modeli ise genel olarak Çinli modellerin gerisinde değerlendiriliyor
  • Açık ağırlıklı modeller, herkesin bunları kendi donanımında doğrudan çalıştırabilmesini sağlar
    • Kayda değer şekilde çalıştırılabilecek modeller genelde çok güçlü donanım gerektiriyordu
    • Daha küçük modeller çok daha kullanışlı hale geldikçe bu durum hızla değişiyor
  • Yerelde çalıştırmanın, API üzerinden OpenAI, Anthropic veya Google gibi sağlayıcılara istek göndermeye kıyasla üç avantajı var
    • Hassas verileri frontier laboratuvarların veri merkezlerine göndermenin zor veya imkansız olduğu durumlarda, on-premise çalıştırma verinin ağ dışına çıkmamasını sağlayabilir
    • Modeli fine-tuning temelli kullanmak veya belirli donanım koşullarına uyacak şekilde kuantize etmek (kabaca sıkıştırmak) mümkündür; bu da esnekliği artırır
    • Kendi donanımınızı kullanırsanız yalnızca donanım sermaye harcaması, elektrik ve operasyon maliyetlerini hesaba katmanız gerekir; barındırma sağlayıcısı kullanıldığında bile token başına maliyet genellikle frontier modellerin %10'undan azdır

Fiyat baskısı ve pazar disiplini

  • Açık ağırlıklı modeller, frontier laboratuvarlar üzerinde kayda değer bir fiyat düşürücü baskı yaratır
    • Bu durum, tekel ya da oligopol pazarlarda bile daha ucuz ve güvenilir alternatifler olduğunda mevcut oyuncuların rekabetçi davranacağını söyleyen contestable markets teorisine gevşek biçimde benzer
    • Teori teknik olarak batık maliyetlerin neredeyse sıfır olduğunu varsayar; frontier model eğitimi ise bunun tam tersine yakındır
    • Yine de, tüketicilerin geçiş yapabilme ihtimalinin fiyatları disipline etmesi şeklindeki temel mekanizma geçerliliğini korur
  • Frontier modeller, daha yüksek kalite ve sözleşmesel avantajlar nedeniyle daha yüksek fiyat talep edebilir
    • Kullanıcılar daha iyi bir model için çok daha fazla ödeme yapabilir
    • Yaklaşık 1 trilyon dolarlık bir şirketle yapılan çıkarım sözleşmesi, ucuz bir çıkarım sağlayıcısını OpenRouter üzerinden kullanmaktan farklı bir değer taşır
    • OpenAI ve benzerleri, SLA ve gizlilik gibi konularda hukuken bağlayıcı taahhütler sunar
  • Ancak açık ağırlıklı modeller, oligopolistik fiyat davranışını zorlaştıracak kadar güçlü bir baskı unsuru olarak işlev görür
    • Frontier laboratuvarlar fiyatları bir gecede 5 kat artırsa, özellikle daha az talepkâr kullanım senaryolarında birçok kullanıcı açık ağırlıklı modellere geçebilir
    • Açık ağırlıklı modeller, fiyat davranışı açısından jenerik ilaçlara benzer bir rol oynar
    • Jenerikler mevcut olduğunda büyük ilaç şirketleri fiyatları jenerik fiyatlarına çok daha yakın seviyelere çeker ve fiyatı korumak için jeneriklerin bir adım önündeki yeni tedavilere odaklanır
  • Açık ağırlıklı modeller olmasaydı, frontier laboratuvarların fiyat belirleme gücü bugün olduğundan çok daha büyük olabilirdi

Lisanslar ve yayınlama biçimindeki değişim

  • Açık ağırlıklı modellerin erişilebilirliği kendiliğinden garanti edilmiş bir durum değil
    • Model eğitimi pahalıdır ve bu modelleri üreten şirketler ticari kurumlardır
    • Çin devletinden ciddi destek alıyor olsalar bile hayır kurumu değillerdir
  • Son dönemde açık ağırlıklı modellerin lisans koşullarında belirgin bir sıkılaşma eğilimi görülüyor
    • Meta, en yeni “Muse Spark” modelinde açık ağırlıkları tamamen bırakmış durumda ve modeli hiç yayımlamıyor
    • Alibaba giderek daha fazla modeli önce API olarak yayımlıyor veya bazı varyantlarda yalnızca API üzerinden sunuyor
    • Kimi'nin K2.6 lisansı, aylık aktif kullanıcı sayısı 100 milyonu aşan veya aylık geliri 20 milyon doları geçen ürünler için arayüzde “Kimi K2.6” ibaresinin görünür biçimde gösterilmesini zorunlu kılan bir atıf maddesi ekliyor
    • Fransa merkezli Mistral da ticari kullanım için çeşitli lisans koşulları uyguluyor
  • İstisnalar da var
    • DeepSeek ters yönde ilerleyerek daha cömert hale geliyor
    • Ancak genel eğilim daha az cömert lisanslara doğru; Meta ve Alibaba da bazı veya tüm modelleri yayımlamayı bırakma yönünde ilerliyor

Açık ağırlıkların daralmasının yaratabileceği pazar yapısı

  • Bir yıl sonra, geçmişte açık ağırlıklı olarak yayımlanacak en üst düzey modellerin çoğunun ya da tamamının artık yayımlanmadığı bir tablo ortaya çıkabilir
    • Bu, şu an için varsayımsal bir senaryodur
    • Modeller arasında fiyat karşılaştırması yine de var olabilir
    • Ancak eğitim maliyeti ve karmaşıklığı artmaya devam ederse geriye yalnızca birkaç oyuncu kalabilir
  • Olası pazar yapısı, Batı'daki üç büyük frontier laboratuvar ile bazı Çinli laboratuvarlara kadar daralabilir
    • Çinli laboratuvarların devlet öncülüğünde bir “birleşme” ile bir veya iki Çinli “superlab” altında toplanması da mümkün olabilir
    • Stratejik sektörlerde bunun birçok örneği vardır
    • Çin bunu demiryollarında (CRRC), nükleer enerjide, havayollarında ve telekomda kullandı
    • Batı da Soğuk Savaş sonrası savunma ana yüklenicilerinin konsolidasyonu örnekleriyle istisna değildir
  • Böyle bir değişim, yapay zekanın yarattığı tüketici fazlasının az sayıdaki şirket tarafından içselleştirilmesine imkan tanır
    • Yapay zeka kullanıcıları, token maliyetinin çok ötesinde bir değer elde ediyor
    • Mevcut fiyatların 10 katını ödeseler bile tereddüt etmeyecekleri kadar yüksek bir değer söz konusu olabilir
    • Yüksek katma değerli uzman işleri veya ajan tabanlı görevlerde fiilen ödenen tutar ile ödemeye razı olunan tutar arasındaki fark daha da büyür
    • Açık ağırlıkların sağladığı fiyat tabanı olmadan işleyen bir oligopol, bu farkı kâr olarak alma konumuna gelir
  • İktisat teorisi açısından böyle bir dünyada güç ve ekonomik zenginlik, tarihsel ölçekte az sayıdaki şirkette yoğunlaşabilir
    • Laboratuvarlar tüketici fazlasını doğrudan marj olarak çıkarmaya başlayabilir
    • Az sayıdaki şirketten oluşan oligopol ve yeni modeller için gereken devasa sermaye harcamalarının yarattığı giriş engelleri nedeniyle fiyat rekabeti sınırlı kalabilir

Karşı olasılıklar ve süren riskler

  • Kötümser bakış açısı abartılı da olabilir
    • Donanım daha hızlı gelişirse, “yeterince iyi” modelleri eğitmek zamanla aslında daha kolay hale gelebilir
    • Yapay zeka donanımı üreten şirket sayısı az olsa da, yapay zeka donanım pazarında yoğun rekabet görülüyor
  • Damıtma (distillation) bir çıkış yolu olarak gösterilse de temel çözüm değil
    • Damıtma, frontier modellerin çıktılarıyla daha küçük modellerin eğitilmesi yöntemidir
    • Ancak bunun için en başta güçlü temel modellere erişiminiz olması gerekir
    • Risk altında olan tam da bu unsurdur: güçlü temel modellere erişim
  • Rekabetçi açık ağırlıklı ekosistem, tüm yapay zeka ekonomisinin altında sessizce duran bir yük taşıyıcı varsayım işlevi görüyordu
    • Bu varsayımın zayıflıyor olması dikkat gerektiriyor
    • Daha geniş ekonomi üzerindeki etkileri çok büyük olabilir

Terimler ve tamamlayıcı açıklamalar

  • Açık ağırlıklı model, yalnızca nihai modelin yayımlandığı kategoridir
    • Teknik olarak bunlar kapalı model, açık ağırlıklı model ve tamamen açık ya da yeniden üretilebilir model olmak üzere üç kategoriye ayrılabilir
    • Tamamen açık veya yeniden üretilebilir modeller, eğitim verisini ve ilgili eğitim sürecine dair belgeleri de içerir
    • Bu kategori, yazılımdaki open source kavramına en çok benzeyendir
  • OpenRouter, “API'lerin API'si” gibi çalışır
    • Belirli bir model için isteği en ucuz veya erişilebilirliği en yüksek çıkarım sağlayıcısına yönlendirir
    • Bir sağlayıcıda sorun çıkarsa anında diğerine geçerek güvenilirliği büyük ölçüde artırabilir
    • Daha ucuz bir sağlayıcı varsa ona geçer

1 yorum

 
GN⁺ 1 시간 전
Lobste.rs görüşleri
  • Bu yazı Kimi konusunda hatalı. Bazı şirketler büyük kısıtlamalar koyup buna “modified MIT” diyor, ama Kimi K2.6 just has an advertising clause sadece bir reklam maddesi içeriyor. Olmasa daha iyi olurdu ama bunu fazla büyütecek kadar sorunlu görünmüyor
    Yazıda, Kimi’nin aylık aktif kullanıcısı 100 milyonu aşan veya aylık geliri 20 milyon doları geçen ürünlerde açık ağırlıklı modelin kullanımını yasakladığı iddia ediliyordu, ancak gerçek K2.6 lisansı bu tür ürün ve hizmetlerin arayüzünde “Kimi K2.6” ifadesinin görünür biçimde gösterilmesini şart koşuyor
    Bazı şirketlerin açık ağırlık yayımlamayı azalttığı doğru, ama Xiaomi, DeepSeek, Moonshot ve Zai gibi rekabetçi büyük açık ağırlıklı modeller çıkaranlar da var. Küçük modeller tarafında Gemma 4’ün standart açık lisans olan Apache’ye geçmiş olması da olumlu
    Bu kaygıyı dile getirmek yerinde, ancak şimdilik açık ağırlıktan geri çekilen şirketlerin yerini yeni girenler veya daha geleneksel lisanslara geçenler alıyor gibi görünüyor

    • Yazının yazarı olarak bunun geçerli bir eleştiri olduğunu kabul edip metni güncelledim. Sanırım Cursor Kimi ile ilgili içerikle karıştırdım ve eleştiri haklı
      Bundan sonra ne olacağını görmek ilginç olacak. Yazı zaten uzundu, o yüzden eklemedim ama bence bu şirketlerin ilk etapta dikkat çekebilmesi için açık ağırlıklı modellere ihtiyaçları vardı. Grok örneğinde olduğu gibi, hesaplama gücü ve agresif fiyatlandırma olsa bile benimsenmenin düşük kaldığı durumlara bakınca, en azından küresel ölçekte bilinirlik kazanmak çok zor olurdu
      Öte yandan Çinli modellerin çıkarım için ayrılmış hesaplama gücü de xAI kadar değil. Artık model kalitesi yükseldikçe kapatma teşviki artıyor, ama sürekli yeni oyuncuların çıktığı bir dünya da sürebilir
  • Açık ağırlıklı büyük dil modellerini yayımlamak için piyasa teşvikinin ne olduğunu insan gerçekten sorguluyor
    Nvidia on Hugging Face bazı modelleri yayımlıyor; görünen o ki insanlar abonelik hizmeti kullanmak yerine yerelde büyük dil modelleri çalıştırırsa daha fazla ekran kartı satılacağına oynuyorlar
    Açık ağırlıklı model yayımlama azalırsa, büyük çıkarım sağlayıcıları Linux Foundation benzeri bir açık ağırlık vakfı kurup eğitim verisinin toplanmasını, eğitimi ve ince ayarı koordine edebilir. Rekabetçi model sunamazlarsa bu şirketlerin iş modeli de ayakta kalmakta zorlanır

    • Bir yerde, Moore yasası sona erdiğinde daha açık ve tamir edilebilir elektronik ürünlerin artacağına dair bir teori okumuştum. Mantık şu: şirketlerin en ileri noktada kalmak için kaynak kodunu gizli tutma teşviki var, ama o sınır artık ilerlemeyi bırakırsa işlev üzerinden rekabet etmeyi de bırakırlar; piyasadaki tüm ürünler benzer derecede iyi hale gelir ve bu teşvik ortadan kalkar
      Bugünün çıkarım sağlayıcıları gerçekten bir açık ağırlık vakfına girişir mi bilmiyorum. Ama büyük dil modelleri birkaç yıl içinde duvara çarparsa, müşteriler tarafında kesinlikle bir teşvik doğabilir. “Kendimiz yapabileceğimiz bir şey için neden her ay OpenAnthropic’e 5 milyar dolar ödüyoruz?” gibi
  • Buradaki bazı iddialara itiraz eden yorumlar var, ama ben de birkaç şey eklemek istiyorum
    Alibaba’nın Qwen konusunda biraz daha az açık öncelikli bir yaklaşım benimsediği açık ve bu üzücü, ancak fiilî fark o kadar büyük değil. Max serisi modeller ve birçok özelleşmiş model baştan beri yalnızca API üzerinden sunuluyordu; şu anda da yalnızca API olan başlıca model yaklaşık 400B parametreli “Plus”. Boyutuna göre tarihsel olarak olağanüstü bir model de değildi
    İnsanların esasen Qwen diye bildiği küçük modeller hâlâ yayımlanıyor. Yayımlama takvimi biraz daha dağınık görünüyor ama Qwen’in yayımlama düzeni zaten en başından beri epey dağınıktı
    Kapalı model olarak anılan Qwen 3.6 Plus, özel bir ortaklık kapsamında available on Fireworks olarak sunuluyor. Bunun, yerel sahipli sunucu isteyen kurumların da kullanabilmesini sağlamak için olup olmadığını bilmiyorum ama bu yaklaşımın yaygınlaşıp yaygınlaşmayacağını görmek ilginç
    Meta’nın “Muse Spark” modeli, LLaMa’dan farklı bir ekibin fiilen bambaşka bir model ailesi; bu yüzden açık ağırlığı “durdurdu” demektense bunu ayrı bir ürün olarak görmek daha doğru
    Kimi K2.6’daki görünürlük maddesi yeni “eklenmiş” değil; the clause has been there since the original K2 durumundaydı. DeepSeek de R1 ve V3 0324 ile birlikte normal MIT lisansı kullanıyordu
    Son dönemde MiMo v2.5 serisi, GLM 5.1 ve Gemma 4 gibi gerçekten dikkat çeken birkaç açık ağırlık yayımı da oldu. Ancak GLM’in ana hattı açık ağırlıklı olsa da “Code” serisi gibi çeşitli ince ayarlı sürümler tescilli ve Step 3.5 Flash’ın 2603 güncellemesi de öyle görünüyor. Yine de release their SFT training data yaptıkları için fazla sert eleştirmek zor
    Bazen yayımlar gecikiyor; MiMo v2.5/Pro ile GLM 5.1’de de durum buydu. Ama bunun sayesinde çıkıştan hemen sonra SGLang/vLLM desteğinin hazır olması gibi bir avantaj da bazen oluyor. MiniMax M2.7 ise gerçekten much more restrictive license kullanmaya geçti; sanırım Kimi ile karıştırılan da buydu
    “Önce API ile biraz gelir elde edip sonra yayımlama” yaklaşımı, model geliştirmenin kendisinin çok pahalı olduğu düşünülürse hâlâ epey cömert sayılır ve en azından şu an için sektör bu dengeden memnun görünüyor

  • GLM 5.1, geçen ay MIT lisansıyla yayımlanan son derece rekabetçi bir açık ağırlıklı model. Şimdiden birçok şirket bunu hizmet olarak sunuyor. Z.ai tarafından geliştirildi ve diğer Çinli şirketler gibi sonradan kısıt ekleyebilirler, ama şu anda hiçbir kısıt yok

    • Merak edenler için söyleyeyim, 1.51TB: https://huggingface.co/zai-org/GLM-5.1/tree/main
    • Bunu bir Avrupa sağlayıcısı üzerinden OpenCode ile kullanıyorum ve gerçekten Claude ile rekabet edebilir durumda. Yakın gelecekte büyük şirket bağımlılığından tamamen kurtulabilmeyi umuyorum
      Bazıları tüm Çinli modellerin bir ölçüde GPT veya Anthropic gibi büyük modellerden “damıtıldığını” varsayıyor. Bunun doğru olup olmadığını bilmiyorum ve çok da umursamıyorum. Her hâlükârda bu tür modellerin kamusal alanda olması gerektiğini düşünüyorum ve bu yöne hızla gidildiğini görmek beni sevindiriyor
  • Son zamanlarda AI model lisanslama işinin popülerleşebileceğini düşünüyorum. Belirli bir ücret ödeyip modeli kullanma hakkını alıyorsunuz, sonra da kendi donanımınızda doğrudan çalıştırıyorsunuz. Biraz Photoshop fiyatlandırmasına benziyor
    Böylece hassas bilgi sızıntısı riskinden kaçınılırken model üreticisi de para kazanabiliyor. Ayrıca token başına ücretlendirme gibi potansiyel olarak çok pahalı tarifeler yerine sabit ücret avantajı sunuyor. Elbette donanım maliyeti ayrı

    • Gelecekte açık ağırlıklı modeller yayımlanıp, buna silikona gömmeyi yasaklayan bir lisans eklenebileceğini düşünüyorum. Sonra da bu tür çipler satılır: https://taalas.com/products/
  • Kimi K2.5 şimdiye kadar bana en çok uyan model oldu; ille de yükseltme yapmam gerekmiyor