OpenAI ve Anthropic çıkarımda gerçekten zarar mı ediyor?
(martinalderson.com)- Sektörde sıkça öne sürülen iddiaların aksine, yapay zeka çıkarım maliyetleri sanıldığından daha düşük ve hatta yüksek kârlılığı mümkün kılıyor
- Analize göre girdi token maliyeti fiilen ihmal edilebilir düzeyde (milyon token başına yaklaşık $0.005) iken, çıktı token maliyeti milyon token başına $3'ün üzerinde ve arada 1000 kat fark oluşuyor
- Tüketici abonelik planları (ör. ChatGPT Pro aylık $20), gerçek çıkarım maliyetine göre 5-6 kat, geliştirici planları (Claude Code) ise 10-20 kat kadar gelir bırakıyor ve kârlılık çok yüksek
- API fiyatlandırması, maliyete kıyasla %80-%95'in üzerinde marj bırakıyor ve yazılıma benzer bir gelir yapısı oluşturuyor
- Sonuç olarak çıkarım, bir “para yutan canavar” değil; girdi-çıktı dengesizliği yapısını iyi kullanan durumlarda son derece kârlı bir iş
Giriş
- Yapay zekanın, özellikle de çıkarımın (inference), devasa maliyet yarattığı sıkça söyleniyor; ancak buna şüpheci bir açıyla bakıldığında ekonomik analiz yapmak gerekiyor
- Yazarın büyük ölçekli frontier model işletme deneyimi yok; ancak bulut hizmetlerinin yüksek throughput'u ve hyperscaler'lara kıyasla bare metal maliyet yapısı konusundaki anlayışına dayanıyor
- Analiz, kabaca peçete hesabı (napkin math) düzeyinde ve saf hesaplama maliyetine odaklanıyor
- Tek bir H100 GPU maliyeti saatlik $2 olarak alınmış; gerçekte büyük yapay zeka şirketleri bunu daha ucuza temin edebilir
Varsayımlar
- Analiz yalnızca saf hesaplama maliyetine odaklanıyor; model geliştirmesi olmadan, mevcut modellerin kullanışlılığı üzerinden sürdürülemezlik testi yapıyor
- DeepSeek R1 mimarisi (toplam 671B parametre, 37B aktif) kullanılıyor; performansın Claude Sonnet 4 ve GPT-5'e benzer olduğu varsayılıyor
H100 kullanan prodüksiyon ortamı
- Prodüksiyon kurulumu: 72 adet H100 GPU'dan oluşan küme, saatlik maliyet $144
- Batch size 32, her 8 GPU için tensor paralelliğiyle aynı anda 9 model instance'ı çalıştırılıyor
- Prefill aşaması (girdi işleme): H100'ün 3.35TB/s HBM bant genişliği temel alındığında, saniyede 45 forward pass işleniyor
- Batch başına 32 dizi (ortalama 1.000 token) ile saniyede 1.44 milyon girdi token'ı, saatte 46.8 milyar girdi token'ı işleniyor
- MoE modellerinde uzman yönlendirme nedeniyle throughput %30-%50 düşebilir; ancak verimli paralel işleme sayesinde etki sınırlı kalır
- Decode aşaması (çıktı üretimi): Token'lar sıralı üretildiği için saniyede 1.440 çıktı token'ı, saatte 46.7 milyon çıktı token'ı üretiliyor
- Token başına saf maliyet hesabı
- Girdi token'ı: $144 ÷ 46.8 milyar = milyon token başına yaklaşık $0.003
- Çıktı token'ı: $144 ÷ 46.7 milyon = milyon token başına yaklaşık $3.08
- Asimetri: Girdi işlemeye kıyasla çıktı üretiminin maliyet farkı yaklaşık 1000 kat
Hesaplama darboğazı
- Genel olarak darboğaz bellek bant genişliği; ancak 128k+ uzun bağlam dizilerinde attention işlemleri darboğaza dönüşüyor ve maliyet 2-10 kat artıyor
- Claude Code, 200k token sınırı ile ucuz, bellek ağırlıklı rejimi koruyor ve yüksek maliyetli, hesaplama ağırlıklı senaryolardan kaçınıyor
- Uzun bağlam pencereleri için ek ücret alınması, bu ekonomik değişimi yansıtıyor
Gerçek kullanıcı ekonomisi
- Tüketici planı (aylık $20 ChatGPT Pro): günlük 100 bin token (%70 girdi, %30 çıktı), gerçek maliyet ayda yaklaşık $3
- OpenAI'ın marjı 5-6 kat
- Geliştirici kullanımı (Claude Code Max 5, aylık $100): günlük 2 milyon girdi, 30 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $4.92, marj 20.3 kat
- Max 10 (aylık $200): günlük 10 milyon girdi, 100 bin çıktı token'ı, gerçek maliyet ayda yaklaşık $16.89, marj 11.8 kat
- Kodlama ajanları, girdi ağırlıklı (ucuz) kullanım deseni sayesinde ekonomiyi maksimize ediyor
- API gelir marjı: Mevcut fiyatlar (milyon token başına $3/$15) ile gerçek maliyet ($0.01/$3) karşılaştırıldığında, %80-%95 marj
Sonuç
- Analiz çok sayıda varsayıma dayanıyor ve hata payı içeriyor; ancak 3 kat sapma varsayılsa bile kârlılık yüksek kalıyor
- Girdi işleme milyon token başına $0.005 ile ucuz, çıktı üretimi ise $3+ ile bin kat daha pahalı
- Girdi ve çıktı token maliyetleri arasındaki asimetrik yapı kilit nokta; bunu iyi kullanan hizmetler yüksek kârlılığa ulaşabiliyor
- Girdi oranı yüksek iş yükleri (kodlama yardımcıları, belge analizi, araştırma vb.) → neredeyse ücretsiz sayılabilecek maliyet yapısı, çok yüksek kârlılık
- Çıktı oranı yüksek iş yükleri (ör. video üretimi) → az girdi, milyonlarca çıktı token'ı, elverişsiz maliyet yapısı nedeniyle yüksek fiyatlandırma kaçınılmaz
- “Yapay zeka çıkarımı sürdürülemez derecede pahalıdır” iddiası gerçek maliyet yapısıyla örtüşmüyor. Bu, mevcut büyük oyuncuların rekabeti caydırma stratejisi olabilir. Gerçek marj yapısı zaten oldukça sağlam
- Geçmişte bulut bilişim maliyetlerinin abartılması nasıl Big Tech'in aşırı kârlarını meşrulaştırdıysa, çıkarım maliyeti tartışmalarında da abartılı bir ‘maliyet korkusu pazarlaması’ işliyor olabilir
- Maliyet yapısına olgulara dayalı yaklaşmak gerekiyor
1 yorum
Hacker News görüşleri
Bu yazıdaki matematiksel hesaplar birçok açıdan yanlış
Özellikle prefill aşamasının bant genişliğiyle sınırlı olduğu varsayımı yanlış
Yazarın hesapladığı MFU açıldığında 13 PFLOPS/s çıkıyor; bu, gerçek donanımın azami performansının 7 katı olduğu için imkansız bir sayı
32 eşzamanlı istek, 8 GPU sınırı ve darboğazın yalnızca attention işlemi olduğu varsayımı gibi önkabullerin hepsi de yanlış
HN'de bu yazıyı eleştirenlerin temel hatalar yerine yalnızca küçük ayrıntılara takılmaları üzücü
Bu yazı doğruysa bile OpenAI ya da Anthropic'in inference tarafında zarar ettiği iddiasının dayanağı zayıf
Çıkış token maliyeti kısmı da ciddi biçimde yanlış
Matematiğin yanlış olduğuna dair uyarılar için teşekkürler, ama o halde doğru sayıları da birlikte vermek beklentileri ayarlamaya yardımcı olurdu
Ben bunu defalarca modelledim; GPU amortismanı ve kaynak kullanımının optimizasyonuna bağlı olarak inference'ta %50'nin üzerinde marj mümkün görünüyor
Ancak sonucun ne çıkacağı, model eğitim maliyetini dahil edip etmediğinize göre büyük ölçüde değişiyor
Eğitim maliyetini aktifleştirmezseniz marj iyi görünüyor, ama amortize edip dahil ederseniz karlılık hızla bozuluyor
Eğitimin neden hariç tutulduğu sorusu var
Büyük ölçekli bir yapay zeka araştırma laboratuvarı için yüksek marj mümkün olabilir, ama sıradan şirketler için durum farklı
GPU'ları 5 yılda amorti ettiğinizi varsaysanız bile pazar payı kaybı yüzünden kullanım oranı düşerse bu ölümcül olabilir
Eğitim maliyeti IFRS/GAAP açısından da doğrudan gelire atfedilen bir gider olduğu için sonuçta satışların maliyetine dahil edilmek zorunda
Sam Altman, "Biz inference'tan kar ediyoruz; yalnızca eğitim maliyetini çıkarırsanız çok karlıyız" dedi
Amodei de benzer şekilde, tek bir modeli bir şirket gibi ele alırsanız 100 milyon dolarlık eğitim maliyetine karşı 200 milyon dolar gelirle model bazında kara geçildiğini anlattı
Ancak aynı anda daha pahalı yeni nesil modeller eğitildiği için şirketin tamamı zarar eden bir yapıya dönüşüyor
Ama "eğitim maliyetini çıkarırsanız karda" sözü, fiilen tüm şirketlere uygulanabilecek basmakalıp bir ifade olduğu için çok anlamlı değil
Gerçekte OpenAI'nin girişimlere yatırım yapıp kredi vermesiyle paranın döndüğü bir yapı var; bu yüzden gerçek karlılığı görmek zor
NYT podcast'ine göre Sam, "Yalnızca inference'a bakarsak kardayız" dedi ama COO yanında muğlak bir tepki verdi
Yazıda iddia edildiği kadar inference ucuzsa neden bu kadar çok aşırı ucuz API sağlayıcısı olmadığı sorusu var
Pratikte düşük maliyetli sağlayıcıların çoğu yalnızca küçük modeller çalıştırıyor
O halde neden DeepSeek-R1 gibi büyük modellerin ucuza kullanılamadığı merak ediliyor
Aslında halihazırda birçok API sağlayıcısı var ve bazıları DeepSeek-R1'i ücretsiz bile sunuyor
DeepInfra gibi yerler de var ve gerçek fiyatlar yazıda tahmin edilenden daha ucuz
Ama model eğitimi, altyapı kurulumu, personel giderleri gibi devasa sabit maliyetler olduğu için yalnızca inference birim maliyetiyle karlılığı açıklamak mümkün değil
600B'lik bir modeli kendiniz çalıştırmak için on binlerce dolarlık GPU gerekiyor ve bunların çoğu boşta kaldığından verimsiz oluyor
GPU mimarisi deneyimi olan biri olarak bakınca, uzun bağlamlarda attention işlemi teoride O(n²) olarak artsa da
Bu yazı hesaplamalarını DeepSeek R1 üzerinden yapmış, ancak DeepSeek alışılmadık derecede verimli olduğu için OpenAI/Anthropic maliyet tahminleri için uygun değil
DeepSeek verimliliği MoE ve MLA attention sayesinde geliyor
DeepSeek'in piyasayı sarsmasının nedeni inference verimliliğinden çok 5 milyon dolarlık eğitim maliyeti iddiasıydı
Gerçekte GPT-5 ya da Claude 4'ün DeepSeek'ten daha verimsiz olduğunu düşünmek için güçlü bir neden yok
Amodei de DeepSeek'in yalnızca beklenen maliyet düşüş eğrisinin bir parçası olduğunu söyledi
Yazıda verilen günlük token sayıları fazla düşük
ChatGPT Pro fiyatı da yanlış aktarılmış
Gerçekte aylık 200 dolar ve Sam Altman bizzat "Pro abonelikte zarar ediyoruz" demişti
Çünkü insanlar beklenenden çok daha fazla kullanıyor
Ama yakın zamanda da "inference'ta kardayız" dedi
Kişisel olarak Sam'in açıklamalarına güvenmiyorum
Gerçekte ilk %10'luk kullanıcı grubu kullanımın büyük kısmını üstleniyor olabilir; güç yasasına benzeyen bir dağılım olması muhtemel
Son raporlara göre Anthropic'in %60 marjı, OpenAI'nin ise ücretsiz kullanıcılar dahil %50 marjı olduğu söyleniyor
speculative decoding, caching gibi tekniklerle maliyet daha da düşüyor
Yazıda varsayılan 37 milyar parametre de gerçek model boyutuyla uyuşmuyor
Ancak yalnızca marja bakarak resmin tamamı görülemez
Sam Altman birçok röportajında, "Eğitim maliyetini çıkarırsanız kardayız" sözünü tekrarladı