4 puan yazan GN⁺ 2025-08-29 | 1 yorum | WhatsApp'ta paylaş
  • Sektörde sıkça öne sürülen iddiaların aksine, yapay zeka çıkarım maliyetleri sanıldığından daha düşük ve hatta yüksek kârlılığı mümkün kılıyor
  • Analize göre girdi token maliyeti fiilen ihmal edilebilir düzeyde (milyon token başına yaklaşık $0.005) iken, çıktı token maliyeti milyon token başına $3'ün üzerinde ve arada 1000 kat fark oluşuyor
  • Tüketici abonelik planları (ör. ChatGPT Pro aylık $20), gerçek çıkarım maliyetine göre 5-6 kat, geliştirici planları (Claude Code) ise 10-20 kat kadar gelir bırakıyor ve kârlılık çok yüksek
  • API fiyatlandırması, maliyete kıyasla %80-%95'in üzerinde marj bırakıyor ve yazılıma benzer bir gelir yapısı oluşturuyor
  • Sonuç olarak çıkarım, bir “para yutan canavar” değil; girdi-çıktı dengesizliği yapısını iyi kullanan durumlarda son derece kârlı bir iş

Giriş

  • Yapay zekanın, özellikle de çıkarımın (inference), devasa maliyet yarattığı sıkça söyleniyor; ancak buna şüpheci bir açıyla bakıldığında ekonomik analiz yapmak gerekiyor
    • Yazarın büyük ölçekli frontier model işletme deneyimi yok; ancak bulut hizmetlerinin yüksek throughput'u ve hyperscaler'lara kıyasla bare metal maliyet yapısı konusundaki anlayışına dayanıyor
  • Analiz, kabaca peçete hesabı (napkin math) düzeyinde ve saf hesaplama maliyetine odaklanıyor
    • Tek bir H100 GPU maliyeti saatlik $2 olarak alınmış; gerçekte büyük yapay zeka şirketleri bunu daha ucuza temin edebilir

Varsayımlar

  • Analiz yalnızca saf hesaplama maliyetine odaklanıyor; model geliştirmesi olmadan, mevcut modellerin kullanışlılığı üzerinden sürdürülemezlik testi yapıyor
    • DeepSeek R1 mimarisi (toplam 671B parametre, 37B aktif) kullanılıyor; performansın Claude Sonnet 4 ve GPT-5'e benzer olduğu varsayılıyor
    Reklam

H100 kullanan prodüksiyon ortamı

  • Prodüksiyon kurulumu: 72 adet H100 GPU'dan oluşan küme, saatlik maliyet $144
    • Batch size 32, her 8 GPU için tensor paralelliğiyle aynı anda 9 model instance'ı çalıştırılıyor
  • Prefill aşaması (girdi işleme): H100'ün 3.35TB/s HBM bant genişliği temel alındığında, saniyede 45 forward pass işleniyor
    • Batch başına 32 dizi (ortalama 1.000 token) ile saniyede 1.44 milyon girdi token'ı, saatte 46.8 milyar girdi token'ı işleniyor
    • MoE modellerinde uzman yönlendirme nedeniyle throughput %30-%50 düşebilir; ancak verimli paralel işleme sayesinde etki sınırlı kalır
  • Decode aşaması (çıktı üretimi): Token'lar sıralı üretildiği için saniyede 1.440 çıktı token'ı, saatte 46.7 milyon çıktı token'ı üretiliyor
  • Token başına saf maliyet hesabı
    • Girdi token'ı: $144 ÷ 46.8 milyar = milyon token başına yaklaşık $0.003
    • Çıktı token'ı: $144 ÷ 46.7 milyon = milyon token başına yaklaşık $3.08
      • Asimetri: Girdi işlemeye kıyasla çıktı üretiminin maliyet farkı yaklaşık 1000 kat
    Reklam

Hesaplama darboğazı

  • Genel olarak darboğaz bellek bant genişliği; ancak 128k+ uzun bağlam dizilerinde attention işlemleri darboğaza dönüşüyor ve maliyet 2-10 kat artıyor
    • Claude Code, 200k token sınırı ile ucuz, bellek ağırlıklı rejimi koruyor ve yüksek maliyetli, hesaplama ağırlıklı senaryolardan kaçınıyor
    • Uzun bağlam pencereleri için ek ücret alınması, bu ekonomik değişimi yansıtıyor

Gerçek kullanıcı ekonomisi

  • Tüketici planı (aylık $20 ChatGPT Pro): günlük 100 bin token (%70 girdi, %30 çıktı), gerçek maliyet ayda yaklaşık $3
    • OpenAI'ın marjı 5-6 kat
  • Geliştirici kullanımı (Claude Code Max 5, aylık $100): günlük 2 milyon girdi, 30 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $4.92, marj 20.3 kat
    • Max 10 (aylık $200): günlük 10 milyon girdi, 100 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $16.89, marj 11.8 kat
    • Kodlama ajanları, girdi ağırlıklı (ucuz) kullanım deseni sayesinde ekonomiyi maksimize ediyor
    Reklam
  • API gelir marjı: Mevcut fiyatlar (milyon token başına $3/$15) ile gerçek maliyet ($0.01/$3) karşılaştırıldığında, %80-%95 marj

Sonuç

  • Analiz çok sayıda varsayıma dayanıyor ve hata payı içeriyor; ancak 3 kat sapma varsayılsa bile kârlılık yüksek kalıyor
    • Girdi işleme milyon token başına $0.005 ile ucuz, çıktı üretimi ise $3+ ile bin kat daha pahalı
  • Girdi ve çıktı token maliyetleri arasındaki asimetrik yapı kilit nokta; bunu iyi kullanan hizmetler yüksek kârlılığa ulaşabiliyor
    • Girdi oranı yüksek iş yükleri (kodlama yardımcıları, belge analizi, araştırma vb.) → neredeyse ücretsiz sayılabilecek maliyet yapısı, çok yüksek kârlılık
    • Çıktı oranı yüksek iş yükleri (ör. video üretimi) → az girdi, milyonlarca çıktı token'ı, elverişsiz maliyet yapısı nedeniyle yüksek fiyatlandırma kaçınılmaz
  • “Yapay zeka çıkarımı sürdürülemez derecede pahalıdır” iddiası gerçek maliyet yapısıyla örtüşmüyor. Bu, mevcut büyük oyuncuların rekabeti caydırma stratejisi olabilir. Gerçek marj yapısı zaten oldukça sağlam
  • Geçmişte bulut bilişim maliyetlerinin abartılması nasıl Big Tech'in aşırı kârlarını meşrulaştırdıysa, çıkarım maliyeti tartışmalarında da abartılı bir ‘maliyet korkusu pazarlaması’ işliyor olabilir
    • Maliyet yapısına olgulara dayalı yaklaşmak gerekiyor

1 yorum

 
GN⁺ 2025-08-29
Hacker News görüşleri
  • Bu yazıdaki matematiksel hesaplar birçok açıdan yanlış

    • Özellikle prefill aşamasının bant genişliğiyle sınırlı olduğu varsayımı yanlış

    • Yazarın hesapladığı MFU açıldığında 13 PFLOPS/s çıkıyor; bu, gerçek donanımın azami performansının 7 katı olduğu için imkansız bir sayı

    • 32 eşzamanlı istek, 8 GPU sınırı ve darboğazın yalnızca attention işlemi olduğu varsayımı gibi önkabullerin hepsi de yanlış

    • HN'de bu yazıyı eleştirenlerin temel hatalar yerine yalnızca küçük ayrıntılara takılmaları üzücü

    • Bu yazı doğruysa bile OpenAI ya da Anthropic'in inference tarafında zarar ettiği iddiasının dayanağı zayıf

    • Çıkış token maliyeti kısmı da ciddi biçimde yanlış

      • Gerçekte yalnızca güçlü bir GPU kümesi ile büyük modelleri düşük maliyetle decode etmek mümkün
      • Örnek olarak 4 ay önce itibarıyla 1 milyon çıkış token başına yaklaşık 0,2 dolar seviyesindeydi; sonrasında B200 GPU ve kod optimizasyonlarıyla daha da ucuzladı
    • Matematiğin yanlış olduğuna dair uyarılar için teşekkürler, ama o halde doğru sayıları da birlikte vermek beklentileri ayarlamaya yardımcı olurdu

  • Ben bunu defalarca modelledim; GPU amortismanı ve kaynak kullanımının optimizasyonuna bağlı olarak inference'ta %50'nin üzerinde marj mümkün görünüyor

    • Ancak sonucun ne çıkacağı, model eğitim maliyetini dahil edip etmediğinize göre büyük ölçüde değişiyor

    • Eğitim maliyetini aktifleştirmezseniz marj iyi görünüyor, ama amortize edip dahil ederseniz karlılık hızla bozuluyor

    • Eğitimin neden hariç tutulduğu sorusu var

      • Modeller birkaç yıl kullanılan varlıklar değil; rekabetçi kalmak için birkaç ayda bir yeniden eğitilmeleri gerekiyor
    • Büyük ölçekli bir yapay zeka araştırma laboratuvarı için yüksek marj mümkün olabilir, ama sıradan şirketler için durum farklı

      • Örneğin DeepSeek ekibinin yayımladığı verilere bakılırsa, 8x H200 SXM üzerinde vLLM ile yaklaşık 12K tok/s alınıyor
      • Ama 100K~200K tok/s işlemek için inanılmaz sayıda GPU gerekiyor ve bunların çoğu boşta kalıyor
      • Bu nedenle %100 kullanım oranı, ücretsiz girdi işleme, ağ darboğazı yok gibi varsayımlar gerçekçi değil
    • GPU'ları 5 yılda amorti ettiğinizi varsaysanız bile pazar payı kaybı yüzünden kullanım oranı düşerse bu ölümcül olabilir

    • Eğitim maliyeti IFRS/GAAP açısından da doğrudan gelire atfedilen bir gider olduğu için sonuçta satışların maliyetine dahil edilmek zorunda

  • Sam Altman, "Biz inference'tan kar ediyoruz; yalnızca eğitim maliyetini çıkarırsanız çok karlıyız" dedi

    • Amodei de benzer şekilde, tek bir modeli bir şirket gibi ele alırsanız 100 milyon dolarlık eğitim maliyetine karşı 200 milyon dolar gelirle model bazında kara geçildiğini anlattı

    • Ancak aynı anda daha pahalı yeni nesil modeller eğitildiği için şirketin tamamı zarar eden bir yapıya dönüşüyor

    • Ama "eğitim maliyetini çıkarırsanız karda" sözü, fiilen tüm şirketlere uygulanabilecek basmakalıp bir ifade olduğu için çok anlamlı değil

    • Gerçekte OpenAI'nin girişimlere yatırım yapıp kredi vermesiyle paranın döndüğü bir yapı var; bu yüzden gerçek karlılığı görmek zor

    • NYT podcast'ine göre Sam, "Yalnızca inference'a bakarsak kardayız" dedi ama COO yanında muğlak bir tepki verdi

      • Yani gerçekte henüz yalnızca inference ile bile tam anlamıyla kara geçilmiş olmayabilir
  • Yazıda iddia edildiği kadar inference ucuzsa neden bu kadar çok aşırı ucuz API sağlayıcısı olmadığı sorusu var

    • Pratikte düşük maliyetli sağlayıcıların çoğu yalnızca küçük modeller çalıştırıyor

    • O halde neden DeepSeek-R1 gibi büyük modellerin ucuza kullanılamadığı merak ediliyor

    • Aslında halihazırda birçok API sağlayıcısı var ve bazıları DeepSeek-R1'i ücretsiz bile sunuyor

    • DeepInfra gibi yerler de var ve gerçek fiyatlar yazıda tahmin edilenden daha ucuz

    • Ama model eğitimi, altyapı kurulumu, personel giderleri gibi devasa sabit maliyetler olduğu için yalnızca inference birim maliyetiyle karlılığı açıklamak mümkün değil

    • 600B'lik bir modeli kendiniz çalıştırmak için on binlerce dolarlık GPU gerekiyor ve bunların çoğu boşta kaldığından verimsiz oluyor

      • Bu yüzden model sağlayıcıların GPU'ları bir araya getirip paylaşımlı altyapı olarak sunması mantıklı
  • GPU mimarisi deneyimi olan biri olarak bakınca, uzun bağlamlarda attention işlemi teoride O(n²) olarak artsa da

    • Asıl darboğaz bellek aktarım hızı
    • Örneğin HBM 2+TB/s olsa bile çekirdek başına gereken bant genişliğini karşılamak zor; çakışmalar da hesaba katılınca darboğaz binlerce kat daha ciddi hale geliyor
  • Bu yazı hesaplamalarını DeepSeek R1 üzerinden yapmış, ancak DeepSeek alışılmadık derecede verimli olduğu için OpenAI/Anthropic maliyet tahminleri için uygun değil

    • DeepSeek verimliliği MoE ve MLA attention sayesinde geliyor

      • Ancak OpenAI ya da Google'ın da benzer optimizasyonları muhtemelen çok önceden uygulamış olması kuvvetle muhtemel
      • GPT OSS fp4 kullanıyor, DeepSeek ise henüz kullanmıyor
    • DeepSeek'in piyasayı sarsmasının nedeni inference verimliliğinden çok 5 milyon dolarlık eğitim maliyeti iddiasıydı

    • Gerçekte GPT-5 ya da Claude 4'ün DeepSeek'ten daha verimsiz olduğunu düşünmek için güçlü bir neden yok

    • Amodei de DeepSeek'in yalnızca beklenen maliyet düşüş eğrisinin bir parçası olduğunu söyledi

      • Yani mesele devrim niteliğinde bir atılımdan çok, bunu ilk gösterenin Çinli bir şirket olmasıydı
  • Yazıda verilen günlük token sayıları fazla düşük

    • Ben günde ortalama 300 milyon~800 milyon token kullanıyorum; iş arkadaşlarım da yaklaşık 150 milyon~600 milyon token civarında
    • Ayrıca prompt caching hesaba katılmamış; bu, inference hacmini %85~95 azaltıyor
    • Doğru hesaplama için modelde ve KV cache'te hangi quantization yöntemi kullanıldığının da belirtilmesi gerekir
  • ChatGPT Pro fiyatı da yanlış aktarılmış

    • Gerçekte aylık 200 dolar ve Sam Altman bizzat "Pro abonelikte zarar ediyoruz" demişti

    • Çünkü insanlar beklenenden çok daha fazla kullanıyor

    • Ama yakın zamanda da "inference'ta kardayız" dedi

      • Yine de şirket halka açık olmadığı için hangi sözün gerçeğe daha yakın olduğunu anlamak zor
    • Kişisel olarak Sam'in açıklamalarına güvenmiyorum

      • Bana daha çok "ürünümüz çok değerli" türü bir pazarlama söylemi gibi geliyor
    • Gerçekte ilk %10'luk kullanıcı grubu kullanımın büyük kısmını üstleniyor olabilir; güç yasasına benzeyen bir dağılım olması muhtemel

      • Bu yüzden Pro abonelerinde zarar edilen bir yapı ortaya çıkabilir
  • Son raporlara göre Anthropic'in %60 marjı, OpenAI'nin ise ücretsiz kullanıcılar dahil %50 marjı olduğu söyleniyor

    • speculative decoding, caching gibi tekniklerle maliyet daha da düşüyor

    • Yazıda varsayılan 37 milyar parametre de gerçek model boyutuyla uyuşmuyor

    • Ancak yalnızca marja bakarak resmin tamamı görülemez

      • Azure ya da AWS'nin büyük ölçekli indirimler sağlıyor olması çok muhtemel
  • Sam Altman birçok röportajında, "Eğitim maliyetini çıkarırsanız kardayız" sözünü tekrarladı

    • Bunu temel alarak "OpenAI her istekte zarar ediyor" iddiasının yanlış olduğunu düşünenler var
    • Ama eğitim bedava olsaydı bunu herkes yapabilirdi; dolayısıyla bu başlı başına anlamlı bir varsayım değil
    • Dario Amodei de model bazında bakıldığında sonuçta karlılık olduğunu anlattı
    • Yine de Sam'in bu söylemleri yatırımcıları ikna etmeye yönelik olabilir ve gerçek karlılık belirsizliğini koruyor