7 puan yazan GN⁺ 2025-12-29 | Henüz yorum yok. | WhatsApp'ta paylaş
  • 100 trilyondan fazla tokenlık gerçek LLM kullanım verisini analiz eden büyük ölçekli bir çalışma; Aralık 2024’te o1 muhakeme modelinin piyasaya sürülmesinden sonra yapay zekanın muhakeme biçimindeki temel dönüşümü izliyor
  • Açık kaynak modeller, toplam kullanımın yaklaşık %30’una kadar büyüdü; DeepSeek V3, Kimi K2 gibi Çin menşeli açık kaynak modeller de payını hızla artırdı
  • Rol yapma ve programlama, LLM kullanımının iki ana ekseni olarak öne çıkıyor; açık kaynak model kullanımının yarıdan fazlası rol yapmaya yoğunlaşıyor ve bu da üretkenlik odaklı varsayımlarla çelişen bir sonuç ortaya koyuyor
  • Muhakeme modelleri, toplam tokenların %50’den fazlasını işlerken ajanik muhakeme yeni temel örüntü olarak yükseliyor; araç çağrıları ve çok adımlı görevler artıyor
  • Erken kullanıcıların uzun vadede yüksek elde tutma oranı gösterdiği "cam terlik" etkisi keşfedildi; bu da model-iş yükü uyumunun temel rekabet avantajı olduğunu gösteriyor

Araştırmaya genel bakış ve metodoloji

  • OpenRouter, 300’den fazla model ve 60’tan fazla sağlayıcıyı destekleyen çok modelli bir yapay zeka muhakeme platformu olup dünya genelinde milyonlarca geliştiriciye ve son kullanıcıya hizmet veriyor
  • Analiz veri kümesi, yaklaşık 2 yıllık anonimleştirilmiş istek düzeyi meta veriden oluşuyor; promptlara veya tamamlanan metnin kendisine erişilmiyor
  • Tüm analizler, Hex analiz platformu üzerinden yeniden üretilebilir SQL sorguları, dönüşümler ve görselleştirme hatlarıyla yürütüldü
  • İçerik sınıflandırması, tüm promptların yaklaşık %0,25’inin rastgele örneklenmesiyle GoogleTagClassifier üzerinden yapıldı; programlama, rol yapma, çeviri, genel Soru-Cevap, üretkenlik/yazı, eğitim, edebiyat/yaratıcı içerik, yetişkin vb. kategorilere ayrıldı
  • Bölgesel analizde kullanıcı konumu, IP tabanlı yöntemden daha istikrarlı bir vekil olarak faturalama konumu (billing location) temel alınarak belirlendi
  • Analiz dönemi ağırlıklı olarak Kasım 2024–Kasım 2025 arasındaki 13 ayı kapsıyor; kategori sınıflandırma analizi ise Mayıs 2025 sonrası verilere dayanıyor

Açık kaynak vs kapalı modeller

  • Açık kaynak (OSS) modeller, ağırlıkları kamuya açık modeller; kapalı modeller ise yalnızca sınırlı API üzerinden erişilebilen modeller (ör. Anthropic Claude) olarak tanımlanıyor
  • Açık kaynak modellerin payı istikrarlı biçimde artarak 2025 sonu itibarıyla yaklaşık %30 seviyesine ulaştı; bu artış DeepSeek V3, Kimi K2 gibi başlıca açık kaynak modellerin çıkışıyla bağlantılı
  • Çin’de geliştirilen modeller, 2024 sonlarında haftalık %1,2 paydan bazı haftalarda yaklaşık %30’a kadar hızla büyüdü ve yıllık ortalamada yaklaşık %13,0 seviyesine ulaştı
    • Qwen, DeepSeek vb. hızlı yinelemeli çıkışlar ve sık sürüm takvimiyle büyümeye öncülük etti
  • Kapalı modeller, düzenlemeye tabi veya kurumsal iş yüklerinde avantajını korurken güvenilirlik ve performans tavanını hâlâ tanımlıyor
  • OSS modelleri, maliyet verimliliği, şeffaflık ve özelleştirilebilirlik açısından cazip; şu anda da yaklaşık %30 seviyesinde bir denge noktası oluşmuş durumda
  • Bu iki model türü birbirini dışlamıyor; çok modelli yığınlar içinde birbirini tamamlayacak şekilde kullanılıyor
  • Başlıca açık kaynak oyuncuları

    • DeepSeek, toplam 14,37 trilyon token ile OSS içinde en büyük katkıyı sağlıyor; ancak yeni girenler de hızla pay kazanıyor
    • Onu Qwen (5,59 trilyon), Meta LLaMA (3,96 trilyon), Mistral AI (2,92 trilyon) izliyor
    • 2025 ortasındaki Summer Inflection sonrasında pazar yapısı, neredeyse tekelleşmiş durumdan çoğulcu bir yapıya dönüştü
      • MoonshotAI’nin Kimi K2’si, OpenAI’nin GPT-OSS serisi, MiniMax M2 gibi modeller birkaç hafta içinde üretim düzeyinde benimsenmeye ulaştı
    • 2025 sonu itibarıyla hiçbir tekil model OSS tokenlarının %25’ini aşmıyor; pay 5–7 modele dağılmış durumda
    • OSS ekosistemi, yenilik döngüsünün hızlı olduğu ve liderliğin garanti edilmediği son derece dinamik bir rekabet ortamı sunuyor
  • Model boyutu vs pazar uyumu: orta boy artık yeni küçük

    • Model boyutu sınıfları: küçük (15B altı), orta (15B–70B), büyük (70B üstü)
    • Küçük modeller genel olarak pay kaybediyor; yeni model arzına rağmen kullanımları düşüyor
    • Orta boy modeller, Kasım 2024’te Qwen2.5 Coder 32B çıkışıyla birlikte gerçek bir kategori olarak şekillenmeye başladı
      • Mistral Small 3 (Ocak 2025), GPT-OSS 20B (Ağustos 2025) gibi modeller güçlü rakipler olarak öne çıktı
      • Bu da kullanıcıların yetenek ile verimlilik arasında denge aradığını gösteriyor
    • Büyük model segmenti ise Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, OpenAI GPT-OSS-120B gibi çeşitli yüksek performanslı rakiplerle çoğullaşıyor
    • Küçük modellerin hâkimiyet dönemi kapanırken pazar, orta boy ve büyük modeller arasında ikiye ayrılan bir eğilim gösteriyor
  • Açık kaynak modellerin kullanım alanları

    • OSS modellerinin en büyük kullanım alanı rol yapma (yaklaşık %52) ve programlama; bu iki kategori OSS token kullanımının çoğunu oluşturuyor
    • Rol yapmanın %50’den fazla paya sahip olması, açık modellerin içerik filtrelerinin daha az kısıtlayıcı olması nedeniyle fantastik veya eğlence uygulamaları için çekici olmasını yansıtıyor
    • Çin OSS modellerinde rol yapma yaklaşık %33 ile en büyük kategori olsa da programlama ve teknik kullanım birlikte %39 ile çoğunluğu oluşturuyor
      • Qwen, DeepSeek vb. giderek daha fazla kod üretimi ve altyapı odaklı iş yüklerinde kullanılıyor
    • Programlama kategorisinde OSS içindeki pay, Çin OSS ile Batılı OSS arasında dinamik biçimde değişiyor
      • 2025 ortasında Çin OSS öndeyken Q4’te Meta LLaMA-2 Code, OpenAI GPT-OSS serisi gibi Batılı OSS modelleri hızla yükseldi
    • Rol yapma trafiği, 2025 sonu itibarıyla RoW OSS (%43) ile kapalı modeller (%42) arasında neredeyse eşit bölünmüş durumda; bu, başlangıçtaki %70’lik kapalı model hâkimiyetinden büyük bir değişim

Ajanik muhakemenin yükselişi

  • Muhakeme modelleri toplam kullanımın yarısından fazlasını oluşturuyor

    • Muhakeme için optimize edilmiş modellerin token payı, 2025 başındaki ihmal edilebilir seviyeden %50’nin üzerine sıçradı
    • GPT-5, Claude 4.5, Gemini 3 gibi yüksek performanslı sistemlerin çıkışı ve kullanıcıların çok adımlı mantık ile ajan tarzı iş akışlarına yönelmesi bu değişimi tetikledi
    • Son verilere göre xAI Grok Code Fast 1, muhakeme trafiğinde en büyük paya sahip; onu Google Gemini 2.5 Pro/Flash izliyor
    • Açık model OpenAI gpt-oss-120b de önemli bir payı koruyor; geliştiriciler mümkün olduğunda OSS’yi tercih ediyor
  • Araç çağrısı benimsenmesi artıyor

    • Bitiş nedeni Tool Call olarak sınıflandırılan isteklerin token payı sürekli yükseliyor
    • Araç çağrıları ilk başta OpenAI gpt-4o-mini ile Anthropic Claude 3.5/3.7 serisinde yoğunlaşmıştı; ancak 2025 ortasından sonra daha fazla model araç sağlama desteği sunmaya başladı
    • Eylül 2025 sonundan itibaren Claude 4.5 Sonnet hızla pay kazandı; Grok Code Fast, GLM 4.5 de bu alana girdi
  • Prompt-tamamlama biçimindeki değişim

    • Ortalama prompt tokenı yaklaşık 1,5K’den 6K’nin üzerine çıkarak yaklaşık 4 kat arttı
    • Ortalama tamamlama tokenı da yaklaşık 150’den 400’e çıkarak neredeyse 3 katına ulaştı; bu artışın ana nedeni muhakeme tokenlarındaki yükseliş
    • Programlama ile ilgili görevler, prompt tokenlarındaki artışın ana itici gücü olarak öne çıkıyor ve sık sık 20K’nin üzerinde giriş tokenı kullanıyor
    • Diğer kategoriler ise görece daha yatay bir seyir izliyor ve düşük hacimde kalıyor
  • Daha uzun diziler, daha karmaşık etkileşimler

    • Ortalama dizi uzunluğu son 20 ayda 2.000 tokenın altından 5.400 tokenın üzerine çıkarak 3 kattan fazla arttı
    • Programlama odaklı promptlar, genel amaçlı promptlara kıyasla ortalama 3–4 kat daha uzun token uzunluğuna ulaşıyor
    • Uzun diziler, kullanıcıların lafı uzatmasından değil, yerleşik gelişmiş ajanik iş akışlarının bir özelliği olarak ortaya çıkıyor
  • Sonuç: ajanik muhakeme yeni varsayılan haline geliyor

    • Muhakeme payındaki artış, araç kullanımının yayılması, dizi uzunluklarının uzaması ve programlamadaki karmaşıklığın artması; LLM kullanımının merkezinin kaydığını gösteriyor
    • Ortalama bir LLM isteği artık basit bir soru veya yalıtılmış bir komuttan ibaret değil; yapılandırılmış, ajan benzeri döngülerin bir parçası haline geliyor
    • Model sağlayıcıları için gecikme süresi, araç işleme, bağlam desteği ve kötü niyetli araç zincirlerine karşı dayanıklılık giderek daha önemli hale geliyor
    • Yakında, hatta belki de şimdiden, ajanik muhakemenin muhakemenin büyük kısmını oluşturması bekleniyor

Kategori: İnsanlar LLM'leri nasıl kullanıyor?

  • Baskın kategoriler

    • Programlama, 2025'in başındaki yaklaşık %11'den son dönemde %50'nin üzerine çıkarak en istikrarlı büyüyen kategori oldu
    • Anthropic Claude serisi, programlamayla ilgili harcamaların %60'tan fazlasını istikrarlı biçimde domine etti
      • İlk kez 17 Kasım haftasında %60'ın altına düştü
    • OpenAI, temmuzdan bu yana payını yaklaşık %2'den %8'e çıkardı; Google ise yaklaşık %15 seviyesinde istikrarlı kaldı
    • MiniMax, hızla yükselen yeni bir oyuncu olarak öne çıkıyor
  • Kategori içi etiket dağılımı

    • Rol yapma: Yaklaşık %60'ı Games/Roleplaying Games; bu da kullanımın sıradan sohbet botlarından çok yapılandırılmış rol yapma veya karakter motorları yönünde olduğunu gösteriyor
      • Writers Resources (%15,6) ve Adult içerik (%15,4) de buna dahil
    • Programlama: Üçte ikiden fazlası Programming/Other olarak etiketlenmiş; bu da geniş, genel amaçlı kodla ilgili prompt özelliklerini yansıtıyor
      • Development Tools (%26,4) ve betik dillerindeki küçük pay, ortaya çıkan uzmanlaşma işaretleri sunuyor
    • Çeviri, bilim, sağlık gibi alanlar görece daha düz bir iç yapıya sahip
      • Çeviri: Foreign Language Resources (%51,1) ile Other arasında neredeyse eşit bölünme
      • Bilim: Machine Learning & AI (%80,4) baskın; çoğu meta yapay zeka sorusu
      • Sağlık: En ayrıntılı kategori; hiçbir alt etiket %25'i aşmıyor
    • Finans, akademi, hukuk ise çok daha dağınık; hiçbir tek etiket %20'nin altında kalıyor
  • Sağlayıcı bazlı içgörüler

    • Anthropic Claude: Programlama + teknik kullanım %80'i aşıyor; rol yapma ve genel Soru-Cevap düşük payda kalıyor
    • Google: Çeviri, bilim, teknoloji, genel bilgi gibi çeşitli bir dağılıma sahip; kodlama payı 2025 sonlarına doğru yaklaşık %18'e geriliyor
    • xAI: Dönemin büyük bölümünde programlama %80'in üzerinde; yalnızca kasım sonunda teknoloji, rol yapma, akademi gibi alanlara genişliyor
      • Bu durum, ücretsiz dağıtım nedeniyle geliştirici olmayan trafiğin gelmesiyle ilişkilendiriliyor
    • OpenAI: 2025 başında bilimsel işler kullanımın yarısından fazlasını oluştururken, yıl sonunda %15'in altına düşüyor
      • Programlama ve teknoloji odaklı kullanımın her biri %29 ile toplamın yarısından fazlasını oluşturuyor
    • DeepSeek: Rol yapma, gündelik sohbet ve eğlence odaklı etkileşimler üçte ikiden fazlasını domine ediyor
    • Qwen: Programlama tüm dönem boyunca tutarlı biçimde %40~60 aralığında kalırken; bilim, teknoloji, rol yapma gibi alanlarda haftalık oynaklık yüksek

Bölge: LLM kullanımı bölgelere göre nasıl farklılaşıyor

  • Bölgelere göre kullanım dağılımı

    • Kuzey Amerika, tek başına en büyük bölge olsa da gözlem döneminin çoğunda toplam harcamanın yarısından azını oluşturuyor
    • Avrupa, haftalık harcama payını %10-20 bandında istikrarlı biçimde koruyor
    • Asya, yalnızca frontier model üreticilerinin değil, aynı zamanda hızla büyüyen bir tüketici kitlesinin de merkezi olarak öne çıkıyor
      • Veri setinin başındaki yaklaşık %13'lük paydan son dönemde yaklaşık %31'e çıkarak payını iki katın üzerine taşıdı
    • Kıtalara göre dağılım: Kuzey Amerika %47,22, Asya %28,61, Avrupa %21,32, Okyanusya %1,18, Güney Amerika %1,21, Afrika %0,46
    • İlk 10 ülke: ABD (%47,17), Singapur (%9,21), Almanya (%7,51), Çin (%6,01), Güney Kore (%2,88), Hollanda (%2,65), Birleşik Krallık (%2,52), Kanada (%1,90), Japonya (%1,77), Hindistan (%1,62)
  • Dil dağılımı

    • İngilizce %82,87 ile baskın
    • Basitleştirilmiş Çince (%4,95), Rusça (%2,47), İspanyolca (%1,43), Tayca (%1,03), diğer (%7,25)

LLM kullanıcı tutma oranı analizi

  • Külkedisi'nin "cam ayakkabı" etkisi

    • Çoğu retention grafiğine yüksek churn ve kohortların hızla küçülmesi hakim olsa da, erken kullanıcı kohortları zaman içinde dayanıklı bir tutma oranı gösteriyor
    • Bu temel kohortlar (foundational cohorts), iş yükü ile model arasında derin ve kalıcı bir iş yükü-model uyumu yakalayan kullanıcıları temsil ediyor
    • Cam ayakkabı etkisi: Hızla değişen yapay zeka ekosisteminde her yeni frontier model, daha önce karşılanmamış yüksek değerli iş yüklerinde "deneniyor"; teknik ve ekonomik kısıtlara tam uyduğunda güçlü bir kilitlenme etkisi yaratıyor
    • Gemini 2.5 Pro'nun 2025 Haziran kohortu ile Claude 4 Sonnet'in Mayıs kohortu, 5. ayda yaklaşık %40 tutma oranıyla sonraki kohortlardan belirgin biçimde daha yüksek
    • GPT-4o Mini: Tek bir temel kohort (Temmuz 2024), lansman sırasında baskın ve güçlü bir iş yükü-model uyumu kurdu; sonraki tüm kohortlar ise benzer biçimde ayrıldı
    • Gemini 2.0 Flash, Llama 4 Maverick: Yüksek performanslı bir temel kohort oluşmadığı için tüm kohortlar benzer şekilde zayıf kaldı; bu modeller "frontier" olarak algılanmadı
    • DeepSeek modellerinin bumerang etkisi: Tipik tek yönlü düşüş yerine bir geri dönüş sıçraması gözleniyor
      • DeepSeek R1'in 2025 Nisan kohortu 3. ayda, DeepSeek Chat V3-0324'ün Temmuz kohortu ise 2. ayda tutma oranında artış gösterdi
      • Bu, alternatifleri denedikten sonra geri dönen kullanıcıları işaret ediyor
  • Çıkarımlar

    • Bir problemi ilk çözen olmak kalıcı avantaj yaratıyor
    • Kohort düzeyindeki tutma kalıpları, model farklılaşmasının ampirik bir sinyali
    • Frontier penceresinin zamansal kısıtı: Bir modelin temel kullanıcıları kazanabileceği pencere dar ve geçici, ama uzun vadeli benimsenme dinamikleri açısından belirleyici
    • Temel kohortlar, gerçek teknik ilerlemenin parmak izi ve yapay zeka modellerinin yenilikten vazgeçilmez araca dönüştüğü nokta

Maliyet vs kullanım dinamikleri

  • Kategori bazında yapay zeka iş yükü segmentasyon analizi

    • Medyan maliyet olan $0.73/1M token temel alınarak dört çeyrekli bir çerçeve oluşturuluyor
    • Premium iş yükleri (sağ üst): yüksek maliyetli-yüksek kullanımlı uygulamalar; technology ve science buna dahil
      • technology, en pahalı alan olmasına rağmen yüksek kullanımını koruyor; bu da karmaşık sistem tasarımı veya mimaride güçlü modellere ihtiyaç olduğunu gösteriyor
    • Kitle pazarı hacim sürükleyicileri (sol üst): yüksek kullanım-düşük maliyet; roleplay, programming, science baskın
      • programming, en yüksek kullanım hacmine sahip ve oldukça optimize edilmiş orta maliyetiyle bir "killer professional" kategori
      • roleplay kullanım hacmi programming ile yarışıyor; bu da tüketici odaklı rol yapmanın, en üst düzey profesyonel kullanım kadar etkileşim yarattığını gösteriyor
    • Uzman profesyoneller (sağ alt): düşük hacim-yüksek maliyet; finance, academia, health, marketing dahil
      • Bunlar yüksek riskli, niş uzmanlık alanları; doğruluk, güvenilirlik ve alan uzmanlığına talep yüksek
    • Niş yardımcı araçlar (sol alt): düşük maliyet-düşük hacim; translation, legal, trivia dahil
      • İşlevsel ve maliyet optimize yardımcı araçlar; metalaşmış oldukları için ucuz alternatifler mevcut
  • Yapay zeka modellerinde efektif maliyet vs kullanım

    • Log-log ölçekte fiyat ile kullanım arasındaki korelasyon zayıf; trend çizgisi neredeyse düz
    • Talep, fiyata görece esnek değil: Fiyat %10 düştüğünde kullanım yalnızca yaklaşık %0,5~0,7 artıyor
    • İki belirgin rejim var: kapalı modeller (OpenAI, Anthropic) yüksek maliyet-yüksek kullanım bölgesinde; açık modeller (DeepSeek, Mistral, Qwen) düşük maliyet-yüksek hacim bölgesinde
    • 4 kullanım-maliyet arketipi:
      • Premium liderler: Claude 3.7 Sonnet, Claude Sonnet 4 vb.; yaklaşık $2/1M token seviyesinde yüksek kullanım elde ediyor
      • Verimli devler: Gemini 2.0 Flash, DeepSeek V3 0324 vb.; $0.40/1M token altındaki fiyatla benzer kullanım hacmine ulaşıyor
      • Uzun kuyruk: Qwen 2 7B Instruct, IBM Granite 4.0 Micro vb.; 1M token başına birkaç cent düzeyinde, ancak zayıf performans veya sınırlı görünürlük nedeniyle kullanım düşük
      • Premium uzmanlar: GPT-4, GPT-5 Pro vb.; yaklaşık $35/1M token ile düşük kullanım görüyor ve yüksek riskli iş yükleriyle sınırlı kalıyor
    • Jevons paradoksu için kanıt: Çok ucuz ve hızlı modeller daha fazla işte kullanıldıkça toplam token tüketimi artıyor
    • Kalite ve yetenek çoğu zaman maliyetin önüne geçiyor: Pahalı modellerin (Claude, GPT-4) yüksek kullanımı, model belirgin şekilde üstün olduğunda veya güven avantajı sunduğunda kullanıcıların daha yüksek maliyeti kabul ettiğini gösteriyor

Tartışma

  • Çok modelli ekosistem: Tek bir model tüm kullanımı domine etmiyor; hem kapalı hem de açık modeller anlamlı pay elde ediyor
  • Üretkenliğin ötesinde kullanım çeşitliliği: Açık kaynak modellerin kullanımının yarısından fazlası rol yapma ve hikâye anlatımından oluşuyor
    • Tüketici odaklı uygulamalar, kişiselleştirme ve yapay zeka ile eğlence IP'leri arasındaki kesişim için fırsatları öne çıkarıyor
  • Ajanlar vs insanlar: ajan tabanlı akıl yürütmenin yükselişi: Tek turlu etkileşimlerden, modelin plan yaptığı, akıl yürüttüğü ve birden çok adım boyunca yürüttüğü ajan tabanlı akıl yürütmeye geçiş
  • Bölgesel görünüm: LLM kullanımı giderek daha küresel ve dağıtık hale geliyor; Asya'nın payı %13'ten %31'e yükselirken Çin önemli bir güç olarak öne çıkıyor
  • Maliyet vs kullanım dinamikleri: LLM pazarı hâlâ bir emtia pazarı değil; fiyat tek başına kullanım hacmini açıklamaya yetmiyor
    • Açık kaynak modeller sürekli olarak etkinlik sınırını ileri itiyor ve kapalı sistemlerin fiyatlandırma gücünü sıkıştırıyor
  • Elde tutma oranı ve Külkedisi'nin cam ayakkabısı etkisi: Temel modeller sıçrama yaptığında, elde tutma oranı savunulabilirliğin gerçek ölçütü oluyor
    • Model-iş yükü uyumu temel rekabet avantajı

Sınırlamalar

  • Daha geniş ekosisteme yalnızca kısmi bir bakış sunuyor; desenler tek bir platformun (OpenRouter) sınırlı zaman aralığında gözlemlendi
  • Kurumsal kullanım, yerel barındırmalı dağıtımlar ve kapalı dahili sistemler veri kapsamının dışında
  • Bazı analizler vekâlet ölçümlerine dayanıyor: çok adımlı yapı veya araç çağrılarıyla ajan tabanlı akıl yürütmenin tespiti, faturalandırma temelli bölgesel çıkarımlar vb.
  • Sonuçlar, kesin ölçümlerden ziyade yön gösteren davranış kalıpları olarak yorumlanmalı

Sonuç

  • LLM'lerin dünya çapındaki bilgi işlem altyapısına nasıl entegre olduğuna dair ampirik bir bakış sunuyor
  • Geçen yıl o1 sınıfı modellerin ortaya çıkışı, akıl yürütme algısında kademeli bir değişimi tetikledi; değerlendirme, tek atımlık benchmark'ların ötesine geçerek süreç temelli metriklere, gecikme-maliyet dengelerine ve orkestrasyon altındaki başarıya kayıyor
  • LLM ekosistemi yapısal olarak çoğulcu; kullanıcılar sistemleri yetenek, gecikme, fiyat ve güven gibi birçok eksene göre seçiyor
  • Akıl yürütmenin kendisi de değişiyor: statik tamamlamadan dinamik orkestrasyona doğru, ajan tabanlı akıl yürütme yükseliyor
  • Bölgesel olarak daha dağıtık hale geliyor; Asya'nın payı büyürken Çin hem model geliştiricisi hem de ihracatçısı olarak öne çıkıyor
  • o1 rekabeti bitirmiyor, aksine tasarım alanını genişletiyor; monolitik bahisler yerine sistem düşüncesine, sezgi yerine ölçümlemeye, leaderboard farkları yerine ampirik kullanım analizine geçiş yaşanıyor
  • Bir sonraki aşama operasyonel mükemmelliğe odaklanıyor: gerçek iş tamamlama oranını ölçmek, dağılım değişimleri altında varyansı azaltmak ve model davranışını üretim ölçeğindeki iş yüklerinin gerçek gereksinimleriyle hizalamak

Henüz yorum yok.

Henüz yorum yok.