OpenAI ve Anthropic çıkarımda gerçekten zarar mı ediyor?

(martinalderson.com)

4 puan yazan GN⁺ 2025-08-29 | 1 yorum | WhatsApp'ta paylaş

Sektörde sıkça öne sürülen iddiaların aksine, yapay zeka çıkarım maliyetleri sanıldığından daha düşük ve hatta yüksek kârlılığı mümkün kılıyor
Analize göre girdi token maliyeti fiilen ihmal edilebilir düzeyde (milyon token başına yaklaşık $0.005) iken, çıktı token maliyeti milyon token başına $3'ün üzerinde ve arada 1000 kat fark oluşuyor
Tüketici abonelik planları (ör. ChatGPT Pro aylık $20), gerçek çıkarım maliyetine göre 5-6 kat, geliştirici planları (Claude Code) ise 10-20 kat kadar gelir bırakıyor ve kârlılık çok yüksek
API fiyatlandırması, maliyete kıyasla %80-%95'in üzerinde marj bırakıyor ve yazılıma benzer bir gelir yapısı oluşturuyor
Sonuç olarak çıkarım, bir “para yutan canavar” değil; girdi-çıktı dengesizliği yapısını iyi kullanan durumlarda son derece kârlı bir iş

Giriş

Yapay zekanın, özellikle de çıkarımın (inference), devasa maliyet yarattığı sıkça söyleniyor; ancak buna şüpheci bir açıyla bakıldığında ekonomik analiz yapmak gerekiyor
- Yazarın büyük ölçekli frontier model işletme deneyimi yok; ancak bulut hizmetlerinin yüksek throughput'u ve hyperscaler'lara kıyasla bare metal maliyet yapısı konusundaki anlayışına dayanıyor
Analiz, kabaca peçete hesabı (napkin math) düzeyinde ve saf hesaplama maliyetine odaklanıyor
- Tek bir H100 GPU maliyeti saatlik $2 olarak alınmış; gerçekte büyük yapay zeka şirketleri bunu daha ucuza temin edebilir

Varsayımlar

Analiz yalnızca saf hesaplama maliyetine odaklanıyor; model geliştirmesi olmadan, mevcut modellerin kullanışlılığı üzerinden sürdürülemezlik testi yapıyor
- DeepSeek R1 mimarisi (toplam 671B parametre, 37B aktif) kullanılıyor; performansın Claude Sonnet 4 ve GPT-5'e benzer olduğu varsayılıyor
Reklam

H100 kullanan prodüksiyon ortamı

Prodüksiyon kurulumu: 72 adet H100 GPU'dan oluşan küme, saatlik maliyet $144
- Batch size 32, her 8 GPU için tensor paralelliğiyle aynı anda 9 model instance'ı çalıştırılıyor
Prefill aşaması (girdi işleme): H100'ün 3.35TB/s HBM bant genişliği temel alındığında, saniyede 45 forward pass işleniyor
- Batch başına 32 dizi (ortalama 1.000 token) ile saniyede 1.44 milyon girdi token'ı, saatte 46.8 milyar girdi token'ı işleniyor
- MoE modellerinde uzman yönlendirme nedeniyle throughput %30-%50 düşebilir; ancak verimli paralel işleme sayesinde etki sınırlı kalır
Decode aşaması (çıktı üretimi): Token'lar sıralı üretildiği için saniyede 1.440 çıktı token'ı, saatte 46.7 milyon çıktı token'ı üretiliyor
Token başına saf maliyet hesabı
- Girdi token'ı: $144 ÷ 46.8 milyar = milyon token başına yaklaşık $0.003
- Çıktı token'ı: $144 ÷ 46.7 milyon = milyon token başına yaklaşık $3.08
  - Asimetri: Girdi işlemeye kıyasla çıktı üretiminin maliyet farkı yaklaşık 1000 kat
Reklam

Hesaplama darboğazı

Genel olarak darboğaz bellek bant genişliği; ancak 128k+ uzun bağlam dizilerinde attention işlemleri darboğaza dönüşüyor ve maliyet 2-10 kat artıyor
- Claude Code, 200k token sınırı ile ucuz, bellek ağırlıklı rejimi koruyor ve yüksek maliyetli, hesaplama ağırlıklı senaryolardan kaçınıyor
- Uzun bağlam pencereleri için ek ücret alınması, bu ekonomik değişimi yansıtıyor

Gerçek kullanıcı ekonomisi

Tüketici planı (aylık $20 ChatGPT Pro): günlük 100 bin token (%70 girdi, %30 çıktı), gerçek maliyet ayda yaklaşık $3
- OpenAI'ın marjı 5-6 kat
Geliştirici kullanımı (Claude Code Max 5, aylık $100): günlük 2 milyon girdi, 30 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $4.92, marj 20.3 kat
- Max 10 (aylık $200): günlük 10 milyon girdi, 100 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $16.89, marj 11.8 kat
- Kodlama ajanları, girdi ağırlıklı (ucuz) kullanım deseni sayesinde ekonomiyi maksimize ediyor
Reklam
API gelir marjı: Mevcut fiyatlar (milyon token başına $3/$15) ile gerçek maliyet ($0.01/$3) karşılaştırıldığında, %80-%95 marj

Sonuç

Analiz çok sayıda varsayıma dayanıyor ve hata payı içeriyor; ancak 3 kat sapma varsayılsa bile kârlılık yüksek kalıyor
- Girdi işleme milyon token başına $0.005 ile ucuz, çıktı üretimi ise $3+ ile bin kat daha pahalı
Girdi ve çıktı token maliyetleri arasındaki asimetrik yapı kilit nokta; bunu iyi kullanan hizmetler yüksek kârlılığa ulaşabiliyor
- Girdi oranı yüksek iş yükleri (kodlama yardımcıları, belge analizi, araştırma vb.) → neredeyse ücretsiz sayılabilecek maliyet yapısı, çok yüksek kârlılık
- Çıktı oranı yüksek iş yükleri (ör. video üretimi) → az girdi, milyonlarca çıktı token'ı, elverişsiz maliyet yapısı nedeniyle yüksek fiyatlandırma kaçınılmaz
“Yapay zeka çıkarımı sürdürülemez derecede pahalıdır” iddiası gerçek maliyet yapısıyla örtüşmüyor. Bu, mevcut büyük oyuncuların rekabeti caydırma stratejisi olabilir. Gerçek marj yapısı zaten oldukça sağlam
Geçmişte bulut bilişim maliyetlerinin abartılması nasıl Big Tech'in aşırı kârlarını meşrulaştırdıysa, çıkarım maliyeti tartışmalarında da abartılı bir ‘maliyet korkusu pazarlaması’ işliyor olabilir
- Maliyet yapısına olgulara dayalı yaklaşmak gerekiyor

1 yorum

GN⁺ 2025-08-29

Hacker News görüşleri

Bu yazıdaki matematiksel hesaplar birçok açıdan yanlış
- Özellikle prefill aşamasının bant genişliğiyle sınırlı olduğu varsayımı yanlış
- Yazarın hesapladığı MFU açıldığında 13 PFLOPS/s çıkıyor; bu, gerçek donanımın azami performansının 7 katı olduğu için imkansız bir sayı
- 32 eşzamanlı istek, 8 GPU sınırı ve darboğazın yalnızca attention işlemi olduğu varsayımı gibi önkabullerin hepsi de yanlış
- HN'de bu yazıyı eleştirenlerin temel hatalar yerine yalnızca küçük ayrıntılara takılmaları üzücü
- Bu yazı doğruysa bile OpenAI ya da Anthropic'in inference tarafında zarar ettiği iddiasının dayanağı zayıf
- Çıkış token maliyeti kısmı da ciddi biçimde yanlış
  - Gerçekte yalnızca güçlü bir GPU kümesi ile büyük modelleri düşük maliyetle decode etmek mümkün
  - Örnek olarak 4 ay önce itibarıyla 1 milyon çıkış token başına yaklaşık 0,2 dolar seviyesindeydi; sonrasında B200 GPU ve kod optimizasyonlarıyla daha da ucuzladı
- Matematiğin yanlış olduğuna dair uyarılar için teşekkürler, ama o halde doğru sayıları da birlikte vermek beklentileri ayarlamaya yardımcı olurdu
Ben bunu defalarca modelledim; GPU amortismanı ve kaynak kullanımının optimizasyonuna bağlı olarak inference'ta %50'nin üzerinde marj mümkün görünüyor
- Ancak sonucun ne çıkacağı, model eğitim maliyetini dahil edip etmediğinize göre büyük ölçüde değişiyor
- Eğitim maliyetini aktifleştirmezseniz marj iyi görünüyor, ama amortize edip dahil ederseniz karlılık hızla bozuluyor
- Eğitimin neden hariç tutulduğu sorusu var
  - Modeller birkaç yıl kullanılan varlıklar değil; rekabetçi kalmak için birkaç ayda bir yeniden eğitilmeleri gerekiyor
- Büyük ölçekli bir yapay zeka araştırma laboratuvarı için yüksek marj mümkün olabilir, ama sıradan şirketler için durum farklı
  - Örneğin DeepSeek ekibinin yayımladığı verilere bakılırsa, 8x H200 SXM üzerinde vLLM ile yaklaşık 12K tok/s alınıyor
  - Ama 100K~200K tok/s işlemek için inanılmaz sayıda GPU gerekiyor ve bunların çoğu boşta kalıyor
  - Bu nedenle %100 kullanım oranı, ücretsiz girdi işleme, ağ darboğazı yok gibi varsayımlar gerçekçi değil
- GPU'ları 5 yılda amorti ettiğinizi varsaysanız bile pazar payı kaybı yüzünden kullanım oranı düşerse bu ölümcül olabilir
- Eğitim maliyeti IFRS/GAAP açısından da doğrudan gelire atfedilen bir gider olduğu için sonuçta satışların maliyetine dahil edilmek zorunda
Sam Altman, "Biz inference'tan kar ediyoruz; yalnızca eğitim maliyetini çıkarırsanız çok karlıyız" dedi
- Amodei de benzer şekilde, tek bir modeli bir şirket gibi ele alırsanız 100 milyon dolarlık eğitim maliyetine karşı 200 milyon dolar gelirle model bazında kara geçildiğini anlattı
- Ancak aynı anda daha pahalı yeni nesil modeller eğitildiği için şirketin tamamı zarar eden bir yapıya dönüşüyor
- Ama "eğitim maliyetini çıkarırsanız karda" sözü, fiilen tüm şirketlere uygulanabilecek basmakalıp bir ifade olduğu için çok anlamlı değil
- Gerçekte OpenAI'nin girişimlere yatırım yapıp kredi vermesiyle paranın döndüğü bir yapı var; bu yüzden gerçek karlılığı görmek zor
- NYT podcast'ine göre Sam, "Yalnızca inference'a bakarsak kardayız" dedi ama COO yanında muğlak bir tepki verdi
  - Yani gerçekte henüz yalnızca inference ile bile tam anlamıyla kara geçilmiş olmayabilir
Yazıda iddia edildiği kadar inference ucuzsa neden bu kadar çok aşırı ucuz API sağlayıcısı olmadığı sorusu var
- Pratikte düşük maliyetli sağlayıcıların çoğu yalnızca küçük modeller çalıştırıyor
- O halde neden DeepSeek-R1 gibi büyük modellerin ucuza kullanılamadığı merak ediliyor
- Aslında halihazırda birçok API sağlayıcısı var ve bazıları DeepSeek-R1'i ücretsiz bile sunuyor
- DeepInfra gibi yerler de var ve gerçek fiyatlar yazıda tahmin edilenden daha ucuz
- Ama model eğitimi, altyapı kurulumu, personel giderleri gibi devasa sabit maliyetler olduğu için yalnızca inference birim maliyetiyle karlılığı açıklamak mümkün değil
- 600B'lik bir modeli kendiniz çalıştırmak için on binlerce dolarlık GPU gerekiyor ve bunların çoğu boşta kaldığından verimsiz oluyor
  - Bu yüzden model sağlayıcıların GPU'ları bir araya getirip paylaşımlı altyapı olarak sunması mantıklı
GPU mimarisi deneyimi olan biri olarak bakınca, uzun bağlamlarda attention işlemi teoride O(n²) olarak artsa da
- Asıl darboğaz bellek aktarım hızı
- Örneğin HBM 2+TB/s olsa bile çekirdek başına gereken bant genişliğini karşılamak zor; çakışmalar da hesaba katılınca darboğaz binlerce kat daha ciddi hale geliyor
Bu yazı hesaplamalarını DeepSeek R1 üzerinden yapmış, ancak DeepSeek alışılmadık derecede verimli olduğu için OpenAI/Anthropic maliyet tahminleri için uygun değil
- DeepSeek verimliliği MoE ve MLA attention sayesinde geliyor
  - Ancak OpenAI ya da Google'ın da benzer optimizasyonları muhtemelen çok önceden uygulamış olması kuvvetle muhtemel
  - GPT OSS fp4 kullanıyor, DeepSeek ise henüz kullanmıyor
- DeepSeek'in piyasayı sarsmasının nedeni inference verimliliğinden çok 5 milyon dolarlık eğitim maliyeti iddiasıydı
- Gerçekte GPT-5 ya da Claude 4'ün DeepSeek'ten daha verimsiz olduğunu düşünmek için güçlü bir neden yok
- Amodei de DeepSeek'in yalnızca beklenen maliyet düşüş eğrisinin bir parçası olduğunu söyledi
  - Yani mesele devrim niteliğinde bir atılımdan çok, bunu ilk gösterenin Çinli bir şirket olmasıydı
Yazıda verilen günlük token sayıları fazla düşük
- Ben günde ortalama 300 milyon~800 milyon token kullanıyorum; iş arkadaşlarım da yaklaşık 150 milyon~600 milyon token civarında
- Ayrıca prompt caching hesaba katılmamış; bu, inference hacmini %85~95 azaltıyor
- Doğru hesaplama için modelde ve KV cache'te hangi quantization yöntemi kullanıldığının da belirtilmesi gerekir
ChatGPT Pro fiyatı da yanlış aktarılmış
- Gerçekte aylık 200 dolar ve Sam Altman bizzat "Pro abonelikte zarar ediyoruz" demişti
- Çünkü insanlar beklenenden çok daha fazla kullanıyor
- Ama yakın zamanda da "inference'ta kardayız" dedi
  - Yine de şirket halka açık olmadığı için hangi sözün gerçeğe daha yakın olduğunu anlamak zor
- Kişisel olarak Sam'in açıklamalarına güvenmiyorum
  - Bana daha çok "ürünümüz çok değerli" türü bir pazarlama söylemi gibi geliyor
- Gerçekte ilk %10'luk kullanıcı grubu kullanımın büyük kısmını üstleniyor olabilir; güç yasasına benzeyen bir dağılım olması muhtemel
  - Bu yüzden Pro abonelerinde zarar edilen bir yapı ortaya çıkabilir
Son raporlara göre Anthropic'in %60 marjı, OpenAI'nin ise ücretsiz kullanıcılar dahil %50 marjı olduğu söyleniyor
- speculative decoding, caching gibi tekniklerle maliyet daha da düşüyor
- Yazıda varsayılan 37 milyar parametre de gerçek model boyutuyla uyuşmuyor
- Ancak yalnızca marja bakarak resmin tamamı görülemez
  - Azure ya da AWS'nin büyük ölçekli indirimler sağlıyor olması çok muhtemel
Sam Altman birçok röportajında, "Eğitim maliyetini çıkarırsanız kardayız" sözünü tekrarladı
- Bunu temel alarak "OpenAI her istekte zarar ediyor" iddiasının yanlış olduğunu düşünenler var
- Ama eğitim bedava olsaydı bunu herkes yapabilirdi; dolayısıyla bu başlı başına anlamlı bir varsayım değil
- Dario Amodei de model bazında bakıldığında sonuçta karlılık olduğunu anlattı
- Yine de Sam'in bu söylemleri yatırımcıları ikna etmeye yönelik olabilir ve gerçek karlılık belirsizliğini koruyor

OpenAI ve Anthropic çıkarımda gerçekten zarar mı ediyor?

Giriş

Varsayımlar

H100 kullanan prodüksiyon ortamı

Hesaplama darboğazı

Gerçek kullanıcı ekonomisi

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri