4 puan yazan GN⁺ 2025-08-29 | Henüz yorum yok. | WhatsApp'ta paylaş
  • Sektörde sıkça öne sürülen iddiaların aksine, yapay zeka çıkarım maliyetleri sanıldığından daha düşük ve hatta yüksek kârlılığı mümkün kılıyor
  • Analize göre girdi token maliyeti fiilen ihmal edilebilir düzeyde (milyon token başına yaklaşık $0.005) iken, çıktı token maliyeti milyon token başına $3'ün üzerinde ve arada 1000 kat fark oluşuyor
  • Tüketici abonelik planları (ör. ChatGPT Pro aylık $20), gerçek çıkarım maliyetine göre 5-6 kat, geliştirici planları (Claude Code) ise 10-20 kat kadar gelir bırakıyor ve kârlılık çok yüksek
  • API fiyatlandırması, maliyete kıyasla %80-%95'in üzerinde marj bırakıyor ve yazılıma benzer bir gelir yapısı oluşturuyor
  • Sonuç olarak çıkarım, bir “para yutan canavar” değil; girdi-çıktı dengesizliği yapısını iyi kullanan durumlarda son derece kârlı bir iş

Giriş

  • Yapay zekanın, özellikle de çıkarımın (inference), devasa maliyet yarattığı sıkça söyleniyor; ancak buna şüpheci bir açıyla bakıldığında ekonomik analiz yapmak gerekiyor
    • Yazarın büyük ölçekli frontier model işletme deneyimi yok; ancak bulut hizmetlerinin yüksek throughput'u ve hyperscaler'lara kıyasla bare metal maliyet yapısı konusundaki anlayışına dayanıyor
  • Analiz, kabaca peçete hesabı (napkin math) düzeyinde ve saf hesaplama maliyetine odaklanıyor
    • Tek bir H100 GPU maliyeti saatlik $2 olarak alınmış; gerçekte büyük yapay zeka şirketleri bunu daha ucuza temin edebilir

Varsayımlar

  • Analiz yalnızca saf hesaplama maliyetine odaklanıyor; model geliştirmesi olmadan, mevcut modellerin kullanışlılığı üzerinden sürdürülemezlik testi yapıyor
    • DeepSeek R1 mimarisi (toplam 671B parametre, 37B aktif) kullanılıyor; performansın Claude Sonnet 4 ve GPT-5'e benzer olduğu varsayılıyor

H100 kullanan prodüksiyon ortamı

  • Prodüksiyon kurulumu: 72 adet H100 GPU'dan oluşan küme, saatlik maliyet $144
    • Batch size 32, her 8 GPU için tensor paralelliğiyle aynı anda 9 model instance'ı çalıştırılıyor
  • Prefill aşaması (girdi işleme): H100'ün 3.35TB/s HBM bant genişliği temel alındığında, saniyede 45 forward pass işleniyor
    • Batch başına 32 dizi (ortalama 1.000 token) ile saniyede 1.44 milyon girdi token'ı, saatte 46.8 milyar girdi token'ı işleniyor
    • MoE modellerinde uzman yönlendirme nedeniyle throughput %30-%50 düşebilir; ancak verimli paralel işleme sayesinde etki sınırlı kalır
  • Decode aşaması (çıktı üretimi): Token'lar sıralı üretildiği için saniyede 1.440 çıktı token'ı, saatte 46.7 milyon çıktı token'ı üretiliyor
  • Token başına saf maliyet hesabı
    • Girdi token'ı: $144 ÷ 46.8 milyar = milyon token başına yaklaşık $0.003
    • Çıktı token'ı: $144 ÷ 46.7 milyon = milyon token başına yaklaşık $3.08
      • Asimetri: Girdi işlemeye kıyasla çıktı üretiminin maliyet farkı yaklaşık 1000 kat

Hesaplama darboğazı

  • Genel olarak darboğaz bellek bant genişliği; ancak 128k+ uzun bağlam dizilerinde attention işlemleri darboğaza dönüşüyor ve maliyet 2-10 kat artıyor
    • Claude Code, 200k token sınırı ile ucuz, bellek ağırlıklı rejimi koruyor ve yüksek maliyetli, hesaplama ağırlıklı senaryolardan kaçınıyor
    • Uzun bağlam pencereleri için ek ücret alınması, bu ekonomik değişimi yansıtıyor

Gerçek kullanıcı ekonomisi

  • Tüketici planı (aylık $20 ChatGPT Pro): günlük 100 bin token (%70 girdi, %30 çıktı), gerçek maliyet ayda yaklaşık $3
    • OpenAI'ın marjı 5-6 kat
  • Geliştirici kullanımı (Claude Code Max 5, aylık $100): günlük 2 milyon girdi, 30 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $4.92, marj 20.3 kat
    • Max 10 (aylık $200): günlük 10 milyon girdi, 100 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $16.89, marj 11.8 kat
    • Kodlama ajanları, girdi ağırlıklı (ucuz) kullanım deseni sayesinde ekonomiyi maksimize ediyor
  • API gelir marjı: Mevcut fiyatlar (milyon token başına $3/$15) ile gerçek maliyet ($0.01/$3) karşılaştırıldığında, %80-%95 marj

Sonuç

  • Analiz çok sayıda varsayıma dayanıyor ve hata payı içeriyor; ancak 3 kat sapma varsayılsa bile kârlılık yüksek kalıyor
    • Girdi işleme milyon token başına $0.005 ile ucuz, çıktı üretimi ise $3+ ile bin kat daha pahalı
  • Girdi ve çıktı token maliyetleri arasındaki asimetrik yapı kilit nokta; bunu iyi kullanan hizmetler yüksek kârlılığa ulaşabiliyor
    • Girdi oranı yüksek iş yükleri (kodlama yardımcıları, belge analizi, araştırma vb.) → neredeyse ücretsiz sayılabilecek maliyet yapısı, çok yüksek kârlılık
    • Çıktı oranı yüksek iş yükleri (ör. video üretimi) → az girdi, milyonlarca çıktı token'ı, elverişsiz maliyet yapısı nedeniyle yüksek fiyatlandırma kaçınılmaz
  • “Yapay zeka çıkarımı sürdürülemez derecede pahalıdır” iddiası gerçek maliyet yapısıyla örtüşmüyor. Bu, mevcut büyük oyuncuların rekabeti caydırma stratejisi olabilir. Gerçek marj yapısı zaten oldukça sağlam
  • Geçmişte bulut bilişim maliyetlerinin abartılması nasıl Big Tech'in aşırı kârlarını meşrulaştırdıysa, çıkarım maliyeti tartışmalarında da abartılı bir ‘maliyet korkusu pazarlaması’ işliyor olabilir
    • Maliyet yapısına olgulara dayalı yaklaşmak gerekiyor

Henüz yorum yok.

Henüz yorum yok.