- Sektörde sıkça öne sürülen iddiaların aksine, yapay zeka çıkarım maliyetleri sanıldığından daha düşük ve hatta yüksek kârlılığı mümkün kılıyor
- Analize göre girdi token maliyeti fiilen ihmal edilebilir düzeyde (milyon token başına yaklaşık $0.005) iken, çıktı token maliyeti milyon token başına $3'ün üzerinde ve arada 1000 kat fark oluşuyor
- Tüketici abonelik planları (ör. ChatGPT Pro aylık $20), gerçek çıkarım maliyetine göre 5-6 kat, geliştirici planları (Claude Code) ise 10-20 kat kadar gelir bırakıyor ve kârlılık çok yüksek
- API fiyatlandırması, maliyete kıyasla %80-%95'in üzerinde marj bırakıyor ve yazılıma benzer bir gelir yapısı oluşturuyor
- Sonuç olarak çıkarım, bir “para yutan canavar” değil; girdi-çıktı dengesizliği yapısını iyi kullanan durumlarda son derece kârlı bir iş
Giriş
- Yapay zekanın, özellikle de çıkarımın (inference), devasa maliyet yarattığı sıkça söyleniyor; ancak buna şüpheci bir açıyla bakıldığında ekonomik analiz yapmak gerekiyor
- Yazarın büyük ölçekli frontier model işletme deneyimi yok; ancak bulut hizmetlerinin yüksek throughput'u ve hyperscaler'lara kıyasla bare metal maliyet yapısı konusundaki anlayışına dayanıyor
- Analiz, kabaca peçete hesabı (napkin math) düzeyinde ve saf hesaplama maliyetine odaklanıyor
- Tek bir H100 GPU maliyeti saatlik $2 olarak alınmış; gerçekte büyük yapay zeka şirketleri bunu daha ucuza temin edebilir
Varsayımlar
- Analiz yalnızca saf hesaplama maliyetine odaklanıyor; model geliştirmesi olmadan, mevcut modellerin kullanışlılığı üzerinden sürdürülemezlik testi yapıyor
- DeepSeek R1 mimarisi (toplam 671B parametre, 37B aktif) kullanılıyor; performansın Claude Sonnet 4 ve GPT-5'e benzer olduğu varsayılıyor
H100 kullanan prodüksiyon ortamı
- Prodüksiyon kurulumu: 72 adet H100 GPU'dan oluşan küme, saatlik maliyet $144
- Batch size 32, her 8 GPU için tensor paralelliğiyle aynı anda 9 model instance'ı çalıştırılıyor
- Prefill aşaması (girdi işleme): H100'ün 3.35TB/s HBM bant genişliği temel alındığında, saniyede 45 forward pass işleniyor
- Batch başına 32 dizi (ortalama 1.000 token) ile saniyede 1.44 milyon girdi token'ı, saatte 46.8 milyar girdi token'ı işleniyor
- MoE modellerinde uzman yönlendirme nedeniyle throughput %30-%50 düşebilir; ancak verimli paralel işleme sayesinde etki sınırlı kalır
- Decode aşaması (çıktı üretimi): Token'lar sıralı üretildiği için saniyede 1.440 çıktı token'ı, saatte 46.7 milyon çıktı token'ı üretiliyor
- Token başına saf maliyet hesabı
- Girdi token'ı: $144 ÷ 46.8 milyar = milyon token başına yaklaşık $0.003
- Çıktı token'ı: $144 ÷ 46.7 milyon = milyon token başına yaklaşık $3.08
- Asimetri: Girdi işlemeye kıyasla çıktı üretiminin maliyet farkı yaklaşık 1000 kat
Hesaplama darboğazı
- Genel olarak darboğaz bellek bant genişliği; ancak 128k+ uzun bağlam dizilerinde attention işlemleri darboğaza dönüşüyor ve maliyet 2-10 kat artıyor
- Claude Code, 200k token sınırı ile ucuz, bellek ağırlıklı rejimi koruyor ve yüksek maliyetli, hesaplama ağırlıklı senaryolardan kaçınıyor
- Uzun bağlam pencereleri için ek ücret alınması, bu ekonomik değişimi yansıtıyor
Gerçek kullanıcı ekonomisi
- Tüketici planı (aylık $20 ChatGPT Pro): günlük 100 bin token (%70 girdi, %30 çıktı), gerçek maliyet ayda yaklaşık $3
- Geliştirici kullanımı (Claude Code Max 5, aylık $100): günlük 2 milyon girdi, 30 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $4.92, marj 20.3 kat
- Max 10 (aylık $200): günlük 10 milyon girdi, 100 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $16.89, marj 11.8 kat
- Kodlama ajanları, girdi ağırlıklı (ucuz) kullanım deseni sayesinde ekonomiyi maksimize ediyor
- API gelir marjı: Mevcut fiyatlar (milyon token başına $3/$15) ile gerçek maliyet ($0.01/$3) karşılaştırıldığında, %80-%95 marj
Sonuç
- Analiz çok sayıda varsayıma dayanıyor ve hata payı içeriyor; ancak 3 kat sapma varsayılsa bile kârlılık yüksek kalıyor
- Girdi işleme milyon token başına $0.005 ile ucuz, çıktı üretimi ise $3+ ile bin kat daha pahalı
- Girdi ve çıktı token maliyetleri arasındaki asimetrik yapı kilit nokta; bunu iyi kullanan hizmetler yüksek kârlılığa ulaşabiliyor
- Girdi oranı yüksek iş yükleri (kodlama yardımcıları, belge analizi, araştırma vb.) → neredeyse ücretsiz sayılabilecek maliyet yapısı, çok yüksek kârlılık
- Çıktı oranı yüksek iş yükleri (ör. video üretimi) → az girdi, milyonlarca çıktı token'ı, elverişsiz maliyet yapısı nedeniyle yüksek fiyatlandırma kaçınılmaz
- “Yapay zeka çıkarımı sürdürülemez derecede pahalıdır” iddiası gerçek maliyet yapısıyla örtüşmüyor. Bu, mevcut büyük oyuncuların rekabeti caydırma stratejisi olabilir. Gerçek marj yapısı zaten oldukça sağlam
- Geçmişte bulut bilişim maliyetlerinin abartılması nasıl Big Tech'in aşırı kârlarını meşrulaştırdıysa, çıkarım maliyeti tartışmalarında da abartılı bir ‘maliyet korkusu pazarlaması’ işliyor olabilir
- Maliyet yapısına olgulara dayalı yaklaşmak gerekiyor
Henüz yorum yok.