OpenRouter'ın Yapay Zeka Durum Raporu: 100 Trilyon Tokenlik Ampirik Araştırma

(openrouter.ai)

7 puan yazan GN⁺ 2025-12-29 | Henüz yorum yok. | WhatsApp'ta paylaş

100 trilyondan fazla tokenlık gerçek LLM kullanım verisini analiz eden büyük ölçekli bir çalışma; Aralık 2024’te o1 muhakeme modelinin piyasaya sürülmesinden sonra yapay zekanın muhakeme biçimindeki temel dönüşümü izliyor
Açık kaynak modeller, toplam kullanımın yaklaşık %30’una kadar büyüdü; DeepSeek V3, Kimi K2 gibi Çin menşeli açık kaynak modeller de payını hızla artırdı
Rol yapma ve programlama, LLM kullanımının iki ana ekseni olarak öne çıkıyor; açık kaynak model kullanımının yarıdan fazlası rol yapmaya yoğunlaşıyor ve bu da üretkenlik odaklı varsayımlarla çelişen bir sonuç ortaya koyuyor
Muhakeme modelleri, toplam tokenların %50’den fazlasını işlerken ajanik muhakeme yeni temel örüntü olarak yükseliyor; araç çağrıları ve çok adımlı görevler artıyor
Erken kullanıcıların uzun vadede yüksek elde tutma oranı gösterdiği "cam terlik" etkisi keşfedildi; bu da model-iş yükü uyumunun temel rekabet avantajı olduğunu gösteriyor

Araştırmaya genel bakış ve metodoloji

OpenRouter, 300’den fazla model ve 60’tan fazla sağlayıcıyı destekleyen çok modelli bir yapay zeka muhakeme platformu olup dünya genelinde milyonlarca geliştiriciye ve son kullanıcıya hizmet veriyor
Analiz veri kümesi, yaklaşık 2 yıllık anonimleştirilmiş istek düzeyi meta veriden oluşuyor; promptlara veya tamamlanan metnin kendisine erişilmiyor
Tüm analizler, Hex analiz platformu üzerinden yeniden üretilebilir SQL sorguları, dönüşümler ve görselleştirme hatlarıyla yürütüldü
İçerik sınıflandırması, tüm promptların yaklaşık %0,25’inin rastgele örneklenmesiyle GoogleTagClassifier üzerinden yapıldı; programlama, rol yapma, çeviri, genel Soru-Cevap, üretkenlik/yazı, eğitim, edebiyat/yaratıcı içerik, yetişkin vb. kategorilere ayrıldı
Bölgesel analizde kullanıcı konumu, IP tabanlı yöntemden daha istikrarlı bir vekil olarak faturalama konumu (billing location) temel alınarak belirlendi
Analiz dönemi ağırlıklı olarak Kasım 2024–Kasım 2025 arasındaki 13 ayı kapsıyor; kategori sınıflandırma analizi ise Mayıs 2025 sonrası verilere dayanıyor

Açık kaynak vs kapalı modeller

Açık kaynak (OSS) modeller, ağırlıkları kamuya açık modeller; kapalı modeller ise yalnızca sınırlı API üzerinden erişilebilen modeller (ör. Anthropic Claude) olarak tanımlanıyor
Açık kaynak modellerin payı istikrarlı biçimde artarak 2025 sonu itibarıyla yaklaşık %30 seviyesine ulaştı; bu artış DeepSeek V3, Kimi K2 gibi başlıca açık kaynak modellerin çıkışıyla bağlantılı
Çin’de geliştirilen modeller, 2024 sonlarında haftalık %1,2 paydan bazı haftalarda yaklaşık %30’a kadar hızla büyüdü ve yıllık ortalamada yaklaşık %13,0 seviyesine ulaştı
- Qwen, DeepSeek vb. hızlı yinelemeli çıkışlar ve sık sürüm takvimiyle büyümeye öncülük etti
Kapalı modeller, düzenlemeye tabi veya kurumsal iş yüklerinde avantajını korurken güvenilirlik ve performans tavanını hâlâ tanımlıyor
OSS modelleri, maliyet verimliliği, şeffaflık ve özelleştirilebilirlik açısından cazip; şu anda da yaklaşık %30 seviyesinde bir denge noktası oluşmuş durumda
Bu iki model türü birbirini dışlamıyor; çok modelli yığınlar içinde birbirini tamamlayacak şekilde kullanılıyor
Başlıca açık kaynak oyuncuları
- DeepSeek, toplam 14,37 trilyon token ile OSS içinde en büyük katkıyı sağlıyor; ancak yeni girenler de hızla pay kazanıyor
- Onu Qwen (5,59 trilyon), Meta LLaMA (3,96 trilyon), Mistral AI (2,92 trilyon) izliyor
- 2025 ortasındaki Summer Inflection sonrasında pazar yapısı, neredeyse tekelleşmiş durumdan çoğulcu bir yapıya dönüştü
  - MoonshotAI’nin Kimi K2’si, OpenAI’nin GPT-OSS serisi, MiniMax M2 gibi modeller birkaç hafta içinde üretim düzeyinde benimsenmeye ulaştı
- 2025 sonu itibarıyla hiçbir tekil model OSS tokenlarının %25’ini aşmıyor; pay 5–7 modele dağılmış durumda
- OSS ekosistemi, yenilik döngüsünün hızlı olduğu ve liderliğin garanti edilmediği son derece dinamik bir rekabet ortamı sunuyor
Model boyutu vs pazar uyumu: orta boy artık yeni küçük
- Model boyutu sınıfları: küçük (15B altı), orta (15B–70B), büyük (70B üstü)
- Küçük modeller genel olarak pay kaybediyor; yeni model arzına rağmen kullanımları düşüyor
- Orta boy modeller, Kasım 2024’te Qwen2.5 Coder 32B çıkışıyla birlikte gerçek bir kategori olarak şekillenmeye başladı
  - Mistral Small 3 (Ocak 2025), GPT-OSS 20B (Ağustos 2025) gibi modeller güçlü rakipler olarak öne çıktı
  - Bu da kullanıcıların yetenek ile verimlilik arasında denge aradığını gösteriyor
- Büyük model segmenti ise Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, OpenAI GPT-OSS-120B gibi çeşitli yüksek performanslı rakiplerle çoğullaşıyor
- Küçük modellerin hâkimiyet dönemi kapanırken pazar, orta boy ve büyük modeller arasında ikiye ayrılan bir eğilim gösteriyor
Açık kaynak modellerin kullanım alanları
- OSS modellerinin en büyük kullanım alanı rol yapma (yaklaşık %52) ve programlama; bu iki kategori OSS token kullanımının çoğunu oluşturuyor
- Rol yapmanın %50’den fazla paya sahip olması, açık modellerin içerik filtrelerinin daha az kısıtlayıcı olması nedeniyle fantastik veya eğlence uygulamaları için çekici olmasını yansıtıyor
- Çin OSS modellerinde rol yapma yaklaşık %33 ile en büyük kategori olsa da programlama ve teknik kullanım birlikte %39 ile çoğunluğu oluşturuyor
  - Qwen, DeepSeek vb. giderek daha fazla kod üretimi ve altyapı odaklı iş yüklerinde kullanılıyor
- Programlama kategorisinde OSS içindeki pay, Çin OSS ile Batılı OSS arasında dinamik biçimde değişiyor
  - 2025 ortasında Çin OSS öndeyken Q4’te Meta LLaMA-2 Code, OpenAI GPT-OSS serisi gibi Batılı OSS modelleri hızla yükseldi
- Rol yapma trafiği, 2025 sonu itibarıyla RoW OSS (%43) ile kapalı modeller (%42) arasında neredeyse eşit bölünmüş durumda; bu, başlangıçtaki %70’lik kapalı model hâkimiyetinden büyük bir değişim

Ajanik muhakemenin yükselişi

Muhakeme modelleri toplam kullanımın yarısından fazlasını oluşturuyor
- Muhakeme için optimize edilmiş modellerin token payı, 2025 başındaki ihmal edilebilir seviyeden %50’nin üzerine sıçradı
- GPT-5, Claude 4.5, Gemini 3 gibi yüksek performanslı sistemlerin çıkışı ve kullanıcıların çok adımlı mantık ile ajan tarzı iş akışlarına yönelmesi bu değişimi tetikledi
- Son verilere göre xAI Grok Code Fast 1, muhakeme trafiğinde en büyük paya sahip; onu Google Gemini 2.5 Pro/Flash izliyor
- Açık model OpenAI gpt-oss-120b de önemli bir payı koruyor; geliştiriciler mümkün olduğunda OSS’yi tercih ediyor
Araç çağrısı benimsenmesi artıyor
- Bitiş nedeni Tool Call olarak sınıflandırılan isteklerin token payı sürekli yükseliyor
- Araç çağrıları ilk başta OpenAI gpt-4o-mini ile Anthropic Claude 3.5/3.7 serisinde yoğunlaşmıştı; ancak 2025 ortasından sonra daha fazla model araç sağlama desteği sunmaya başladı
- Eylül 2025 sonundan itibaren Claude 4.5 Sonnet hızla pay kazandı; Grok Code Fast, GLM 4.5 de bu alana girdi
Prompt-tamamlama biçimindeki değişim
- Ortalama prompt tokenı yaklaşık 1,5K’den 6K’nin üzerine çıkarak yaklaşık 4 kat arttı
- Ortalama tamamlama tokenı da yaklaşık 150’den 400’e çıkarak neredeyse 3 katına ulaştı; bu artışın ana nedeni muhakeme tokenlarındaki yükseliş
- Programlama ile ilgili görevler, prompt tokenlarındaki artışın ana itici gücü olarak öne çıkıyor ve sık sık 20K’nin üzerinde giriş tokenı kullanıyor
- Diğer kategoriler ise görece daha yatay bir seyir izliyor ve düşük hacimde kalıyor
Daha uzun diziler, daha karmaşık etkileşimler
- Ortalama dizi uzunluğu son 20 ayda 2.000 tokenın altından 5.400 tokenın üzerine çıkarak 3 kattan fazla arttı
- Programlama odaklı promptlar, genel amaçlı promptlara kıyasla ortalama 3–4 kat daha uzun token uzunluğuna ulaşıyor
- Uzun diziler, kullanıcıların lafı uzatmasından değil, yerleşik gelişmiş ajanik iş akışlarının bir özelliği olarak ortaya çıkıyor
Sonuç: ajanik muhakeme yeni varsayılan haline geliyor
- Muhakeme payındaki artış, araç kullanımının yayılması, dizi uzunluklarının uzaması ve programlamadaki karmaşıklığın artması; LLM kullanımının merkezinin kaydığını gösteriyor
- Ortalama bir LLM isteği artık basit bir soru veya yalıtılmış bir komuttan ibaret değil; yapılandırılmış, ajan benzeri döngülerin bir parçası haline geliyor
- Model sağlayıcıları için gecikme süresi, araç işleme, bağlam desteği ve kötü niyetli araç zincirlerine karşı dayanıklılık giderek daha önemli hale geliyor
- Yakında, hatta belki de şimdiden, ajanik muhakemenin muhakemenin büyük kısmını oluşturması bekleniyor

Kategori: İnsanlar LLM'leri nasıl kullanıyor?

Baskın kategoriler
- Programlama, 2025'in başındaki yaklaşık %11'den son dönemde %50'nin üzerine çıkarak en istikrarlı büyüyen kategori oldu
- Anthropic Claude serisi, programlamayla ilgili harcamaların %60'tan fazlasını istikrarlı biçimde domine etti
  - İlk kez 17 Kasım haftasında %60'ın altına düştü
- OpenAI, temmuzdan bu yana payını yaklaşık %2'den %8'e çıkardı; Google ise yaklaşık %15 seviyesinde istikrarlı kaldı
- MiniMax, hızla yükselen yeni bir oyuncu olarak öne çıkıyor
Kategori içi etiket dağılımı
- Rol yapma: Yaklaşık %60'ı Games/Roleplaying Games; bu da kullanımın sıradan sohbet botlarından çok yapılandırılmış rol yapma veya karakter motorları yönünde olduğunu gösteriyor
  - Writers Resources (%15,6) ve Adult içerik (%15,4) de buna dahil
- Programlama: Üçte ikiden fazlası Programming/Other olarak etiketlenmiş; bu da geniş, genel amaçlı kodla ilgili prompt özelliklerini yansıtıyor
  - Development Tools (%26,4) ve betik dillerindeki küçük pay, ortaya çıkan uzmanlaşma işaretleri sunuyor
- Çeviri, bilim, sağlık gibi alanlar görece daha düz bir iç yapıya sahip
  - Çeviri: Foreign Language Resources (%51,1) ile Other arasında neredeyse eşit bölünme
  - Bilim: Machine Learning & AI (%80,4) baskın; çoğu meta yapay zeka sorusu
  - Sağlık: En ayrıntılı kategori; hiçbir alt etiket %25'i aşmıyor
- Finans, akademi, hukuk ise çok daha dağınık; hiçbir tek etiket %20'nin altında kalıyor
Sağlayıcı bazlı içgörüler
- Anthropic Claude: Programlama + teknik kullanım %80'i aşıyor; rol yapma ve genel Soru-Cevap düşük payda kalıyor
- Google: Çeviri, bilim, teknoloji, genel bilgi gibi çeşitli bir dağılıma sahip; kodlama payı 2025 sonlarına doğru yaklaşık %18'e geriliyor
- xAI: Dönemin büyük bölümünde programlama %80'in üzerinde; yalnızca kasım sonunda teknoloji, rol yapma, akademi gibi alanlara genişliyor
  - Bu durum, ücretsiz dağıtım nedeniyle geliştirici olmayan trafiğin gelmesiyle ilişkilendiriliyor
- OpenAI: 2025 başında bilimsel işler kullanımın yarısından fazlasını oluştururken, yıl sonunda %15'in altına düşüyor
  - Programlama ve teknoloji odaklı kullanımın her biri %29 ile toplamın yarısından fazlasını oluşturuyor
- DeepSeek: Rol yapma, gündelik sohbet ve eğlence odaklı etkileşimler üçte ikiden fazlasını domine ediyor
- Qwen: Programlama tüm dönem boyunca tutarlı biçimde %40~60 aralığında kalırken; bilim, teknoloji, rol yapma gibi alanlarda haftalık oynaklık yüksek

Bölge: LLM kullanımı bölgelere göre nasıl farklılaşıyor

Bölgelere göre kullanım dağılımı
- Kuzey Amerika, tek başına en büyük bölge olsa da gözlem döneminin çoğunda toplam harcamanın yarısından azını oluşturuyor
- Avrupa, haftalık harcama payını %10-20 bandında istikrarlı biçimde koruyor
- Asya, yalnızca frontier model üreticilerinin değil, aynı zamanda hızla büyüyen bir tüketici kitlesinin de merkezi olarak öne çıkıyor
  - Veri setinin başındaki yaklaşık %13'lük paydan son dönemde yaklaşık %31'e çıkarak payını iki katın üzerine taşıdı
- Kıtalara göre dağılım: Kuzey Amerika %47,22, Asya %28,61, Avrupa %21,32, Okyanusya %1,18, Güney Amerika %1,21, Afrika %0,46
- İlk 10 ülke: ABD (%47,17), Singapur (%9,21), Almanya (%7,51), Çin (%6,01), Güney Kore (%2,88), Hollanda (%2,65), Birleşik Krallık (%2,52), Kanada (%1,90), Japonya (%1,77), Hindistan (%1,62)
Dil dağılımı
- İngilizce %82,87 ile baskın
- Basitleştirilmiş Çince (%4,95), Rusça (%2,47), İspanyolca (%1,43), Tayca (%1,03), diğer (%7,25)

LLM kullanıcı tutma oranı analizi

Külkedisi'nin "cam ayakkabı" etkisi
- Çoğu retention grafiğine yüksek churn ve kohortların hızla küçülmesi hakim olsa da, erken kullanıcı kohortları zaman içinde dayanıklı bir tutma oranı gösteriyor
- Bu temel kohortlar (foundational cohorts), iş yükü ile model arasında derin ve kalıcı bir iş yükü-model uyumu yakalayan kullanıcıları temsil ediyor
- Cam ayakkabı etkisi: Hızla değişen yapay zeka ekosisteminde her yeni frontier model, daha önce karşılanmamış yüksek değerli iş yüklerinde "deneniyor"; teknik ve ekonomik kısıtlara tam uyduğunda güçlü bir kilitlenme etkisi yaratıyor
- Gemini 2.5 Pro'nun 2025 Haziran kohortu ile Claude 4 Sonnet'in Mayıs kohortu, 5. ayda yaklaşık %40 tutma oranıyla sonraki kohortlardan belirgin biçimde daha yüksek
- GPT-4o Mini: Tek bir temel kohort (Temmuz 2024), lansman sırasında baskın ve güçlü bir iş yükü-model uyumu kurdu; sonraki tüm kohortlar ise benzer biçimde ayrıldı
- Gemini 2.0 Flash, Llama 4 Maverick: Yüksek performanslı bir temel kohort oluşmadığı için tüm kohortlar benzer şekilde zayıf kaldı; bu modeller "frontier" olarak algılanmadı
- DeepSeek modellerinin bumerang etkisi: Tipik tek yönlü düşüş yerine bir geri dönüş sıçraması gözleniyor
  - DeepSeek R1'in 2025 Nisan kohortu 3. ayda, DeepSeek Chat V3-0324'ün Temmuz kohortu ise 2. ayda tutma oranında artış gösterdi
  - Bu, alternatifleri denedikten sonra geri dönen kullanıcıları işaret ediyor
Çıkarımlar
- Bir problemi ilk çözen olmak kalıcı avantaj yaratıyor
- Kohort düzeyindeki tutma kalıpları, model farklılaşmasının ampirik bir sinyali
- Frontier penceresinin zamansal kısıtı: Bir modelin temel kullanıcıları kazanabileceği pencere dar ve geçici, ama uzun vadeli benimsenme dinamikleri açısından belirleyici
- Temel kohortlar, gerçek teknik ilerlemenin parmak izi ve yapay zeka modellerinin yenilikten vazgeçilmez araca dönüştüğü nokta

Maliyet vs kullanım dinamikleri

Kategori bazında yapay zeka iş yükü segmentasyon analizi
- Medyan maliyet olan $0.73/1M token temel alınarak dört çeyrekli bir çerçeve oluşturuluyor
- Premium iş yükleri (sağ üst): yüksek maliyetli-yüksek kullanımlı uygulamalar; technology ve science buna dahil
  - technology, en pahalı alan olmasına rağmen yüksek kullanımını koruyor; bu da karmaşık sistem tasarımı veya mimaride güçlü modellere ihtiyaç olduğunu gösteriyor
- Kitle pazarı hacim sürükleyicileri (sol üst): yüksek kullanım-düşük maliyet; roleplay, programming, science baskın
  - programming, en yüksek kullanım hacmine sahip ve oldukça optimize edilmiş orta maliyetiyle bir "killer professional" kategori
  - roleplay kullanım hacmi programming ile yarışıyor; bu da tüketici odaklı rol yapmanın, en üst düzey profesyonel kullanım kadar etkileşim yarattığını gösteriyor
- Uzman profesyoneller (sağ alt): düşük hacim-yüksek maliyet; finance, academia, health, marketing dahil
  - Bunlar yüksek riskli, niş uzmanlık alanları; doğruluk, güvenilirlik ve alan uzmanlığına talep yüksek
- Niş yardımcı araçlar (sol alt): düşük maliyet-düşük hacim; translation, legal, trivia dahil
  - İşlevsel ve maliyet optimize yardımcı araçlar; metalaşmış oldukları için ucuz alternatifler mevcut
Yapay zeka modellerinde efektif maliyet vs kullanım
- Log-log ölçekte fiyat ile kullanım arasındaki korelasyon zayıf; trend çizgisi neredeyse düz
- Talep, fiyata görece esnek değil: Fiyat %10 düştüğünde kullanım yalnızca yaklaşık %0,5~0,7 artıyor
- İki belirgin rejim var: kapalı modeller (OpenAI, Anthropic) yüksek maliyet-yüksek kullanım bölgesinde; açık modeller (DeepSeek, Mistral, Qwen) düşük maliyet-yüksek hacim bölgesinde
- 4 kullanım-maliyet arketipi:
  - Premium liderler: Claude 3.7 Sonnet, Claude Sonnet 4 vb.; yaklaşık $2/1M token seviyesinde yüksek kullanım elde ediyor
  - Verimli devler: Gemini 2.0 Flash, DeepSeek V3 0324 vb.; $0.40/1M token altındaki fiyatla benzer kullanım hacmine ulaşıyor
  - Uzun kuyruk: Qwen 2 7B Instruct, IBM Granite 4.0 Micro vb.; 1M token başına birkaç cent düzeyinde, ancak zayıf performans veya sınırlı görünürlük nedeniyle kullanım düşük
  - Premium uzmanlar: GPT-4, GPT-5 Pro vb.; yaklaşık $35/1M token ile düşük kullanım görüyor ve yüksek riskli iş yükleriyle sınırlı kalıyor
- Jevons paradoksu için kanıt: Çok ucuz ve hızlı modeller daha fazla işte kullanıldıkça toplam token tüketimi artıyor
- Kalite ve yetenek çoğu zaman maliyetin önüne geçiyor: Pahalı modellerin (Claude, GPT-4) yüksek kullanımı, model belirgin şekilde üstün olduğunda veya güven avantajı sunduğunda kullanıcıların daha yüksek maliyeti kabul ettiğini gösteriyor

Tartışma

Çok modelli ekosistem: Tek bir model tüm kullanımı domine etmiyor; hem kapalı hem de açık modeller anlamlı pay elde ediyor
Üretkenliğin ötesinde kullanım çeşitliliği: Açık kaynak modellerin kullanımının yarısından fazlası rol yapma ve hikâye anlatımından oluşuyor
- Tüketici odaklı uygulamalar, kişiselleştirme ve yapay zeka ile eğlence IP'leri arasındaki kesişim için fırsatları öne çıkarıyor
Ajanlar vs insanlar: ajan tabanlı akıl yürütmenin yükselişi: Tek turlu etkileşimlerden, modelin plan yaptığı, akıl yürüttüğü ve birden çok adım boyunca yürüttüğü ajan tabanlı akıl yürütmeye geçiş
Bölgesel görünüm: LLM kullanımı giderek daha küresel ve dağıtık hale geliyor; Asya'nın payı %13'ten %31'e yükselirken Çin önemli bir güç olarak öne çıkıyor
Maliyet vs kullanım dinamikleri: LLM pazarı hâlâ bir emtia pazarı değil; fiyat tek başına kullanım hacmini açıklamaya yetmiyor
- Açık kaynak modeller sürekli olarak etkinlik sınırını ileri itiyor ve kapalı sistemlerin fiyatlandırma gücünü sıkıştırıyor
Elde tutma oranı ve Külkedisi'nin cam ayakkabısı etkisi: Temel modeller sıçrama yaptığında, elde tutma oranı savunulabilirliğin gerçek ölçütü oluyor
- Model-iş yükü uyumu temel rekabet avantajı

Sınırlamalar

Daha geniş ekosisteme yalnızca kısmi bir bakış sunuyor; desenler tek bir platformun (OpenRouter) sınırlı zaman aralığında gözlemlendi
Kurumsal kullanım, yerel barındırmalı dağıtımlar ve kapalı dahili sistemler veri kapsamının dışında
Bazı analizler vekâlet ölçümlerine dayanıyor: çok adımlı yapı veya araç çağrılarıyla ajan tabanlı akıl yürütmenin tespiti, faturalandırma temelli bölgesel çıkarımlar vb.
Sonuçlar, kesin ölçümlerden ziyade yön gösteren davranış kalıpları olarak yorumlanmalı

Sonuç

LLM'lerin dünya çapındaki bilgi işlem altyapısına nasıl entegre olduğuna dair ampirik bir bakış sunuyor
Geçen yıl o1 sınıfı modellerin ortaya çıkışı, akıl yürütme algısında kademeli bir değişimi tetikledi; değerlendirme, tek atımlık benchmark'ların ötesine geçerek süreç temelli metriklere, gecikme-maliyet dengelerine ve orkestrasyon altındaki başarıya kayıyor
LLM ekosistemi yapısal olarak çoğulcu; kullanıcılar sistemleri yetenek, gecikme, fiyat ve güven gibi birçok eksene göre seçiyor
Akıl yürütmenin kendisi de değişiyor: statik tamamlamadan dinamik orkestrasyona doğru, ajan tabanlı akıl yürütme yükseliyor
Bölgesel olarak daha dağıtık hale geliyor; Asya'nın payı büyürken Çin hem model geliştiricisi hem de ihracatçısı olarak öne çıkıyor
o1 rekabeti bitirmiyor, aksine tasarım alanını genişletiyor; monolitik bahisler yerine sistem düşüncesine, sezgi yerine ölçümlemeye, leaderboard farkları yerine ampirik kullanım analizine geçiş yaşanıyor
Bir sonraki aşama operasyonel mükemmelliğe odaklanıyor: gerçek iş tamamlama oranını ölçmek, dağılım değişimleri altında varyansı azaltmak ve model davranışını üretim ölçeğindeki iş yüklerinin gerçek gereksinimleriyle hizalamak

OpenRouter'ın Yapay Zeka Durum Raporu: 100 Trilyon Tokenlik Ampirik Araştırma

Araştırmaya genel bakış ve metodoloji

Açık kaynak vs kapalı modeller

Başlıca açık kaynak oyuncuları

Model boyutu vs pazar uyumu: orta boy artık yeni küçük

Açık kaynak modellerin kullanım alanları

Ajanik muhakemenin yükselişi

Muhakeme modelleri toplam kullanımın yarısından fazlasını oluşturuyor

Araç çağrısı benimsenmesi artıyor

Prompt-tamamlama biçimindeki değişim

Daha uzun diziler, daha karmaşık etkileşimler

Sonuç: ajanik muhakeme yeni varsayılan haline geliyor

Kategori: İnsanlar LLM'leri nasıl kullanıyor?

Baskın kategoriler

Kategori içi etiket dağılımı

Sağlayıcı bazlı içgörüler

Bölge: LLM kullanımı bölgelere göre nasıl farklılaşıyor

Bölgelere göre kullanım dağılımı

Dil dağılımı

LLM kullanıcı tutma oranı analizi

Külkedisi'nin "cam ayakkabı" etkisi

Çıkarımlar

Maliyet vs kullanım dinamikleri

Kategori bazında yapay zeka iş yükü segmentasyon analizi

Yapay zeka modellerinde efektif maliyet vs kullanım

Tartışma

Sınırlamalar

Sonuç

İlgili okumalar

Henüz yorum yok.