LLM’ler Gerçekten Ucuz

(snellman.net)

26 puan yazan GN⁺ 2025-06-10 | 4 yorum | WhatsApp'ta paylaş

İnsanların çoğu LLM (büyük dil modeli) kullanım maliyetini abartma eğiliminde, ancak gerçekte maliyetler hızla düştü ve web aramasından bile daha ucuz bir seviyeye ulaştı
- Üretken yapay zeka çılgınlığının ilk döneminde çıkarım maliyeti yüksekti, ancak son 2 yılda maliyetler neredeyse 1000 kat azaldı
LLM API’lerinin gerçek birim fiyatını web arama API’leriyle doğrudan karşılaştırdığınızda, düşük maliyetli LLM modellerinin en ucuz arama API’sinden bile 10 kattan fazla ucuz olduğu, orta fiyatlı modellerin de oldukça rekabetçi bir fiyat yapısına sahip olduğu görülüyor
Model operatörlerinin API fiyatlarını aşırı biçimde sübvanse ettiğine dair kanıt zayıf; hatta GPU maliyetine göre %80 marja ulaşan örnekler de var
OpenAI gibi büyük yapay zeka şirketlerinin zarar etmesinin nedeni maliyet değil, düşük gelir elde etme politikaları; kullanıcı başına ayda yalnızca 1 dolar alınsa bile kâra geçilebilecek bir yapı söz konusu
Gelecekte maliyet yükünün odağı LLM’in kendisi değil, dış backend servislerine (ör. çeşitli veri sağlayıcıları) kayacak. LLM çalıştırmak giderek ucuzluyor ve iş modeli de fazlasıyla sürdürülebilir görünüyor

LLM maliyetine dair yanlış algı ve gerçekler

Birçok kişi ChatGPT gibi LLM’leri çalıştırmanın çok pahalı olduğunu sanıyor
Bu yüzden, yapay zeka şirketlerinin iş modelinin belirsiz olduğu ya da tüketiciye yönelik yapay zeka hizmetlerinin gelir elde etmesinin zor olduğu yönünde hatalı analizler tekrarlanıyor
LLM’lerin hâlâ pahalı olduğu düşüncesi bir algı hatası
- Yapay zeka patlamasının ilk döneminde çıkarım (inference) maliyeti çok yüksekti, ancak son 2 yılda maliyetler neredeyse 1000 kat düştü
- Pek çok tartışma, geçmişteki maliyet yapısını temel aldığı için yanlış öngörüler üretiyor
Sık kullanılan "1 milyon token başına fiyat" modeli sezgisel olarak anlaşılması zor bir yaklaşım

Web arama API’leri ile LLM API fiyatlarının karşılaştırması

Öne çıkan web arama API ücretleri
- Google Search: $35/1000 sorgu
- Bing Search: $15/1000 sorgu
- Brave Search: $5~9/1000 sorgu; birim maliyet arttıkça fiyatın da arttığı bir yapı
- Genel olarak web arama API’leri ucuz değil; hizmet kalitesi daha iyi olanlar daha pahalı
LLM API ücretleri (1k token bazında)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 vb.
- Aramayla karşılaştırılabilir bir yöntem için, sorgu başına üretilen token sayısı + token başına fiyat üzerinden LLM maliyetini hesaplamak gerekir
- 500~1000 token, sorgu başına ortalama tüketim olarak doğrudan karşılaştırılabilir
Düşük maliyetli LLM modelleri, en ucuz arama API’sine kıyasla 10~25 kat daha ucuz
- Orta kalite bandındaki LLM’ler de aynı aralıkta aramadan çok daha düşük maliyetli
- Toplu işleme, yoğun olmayan saatlerde indirim gibi ek indirim koşulları dikkate alındığında maliyet daha da düşüyor

Maliyetlerin düşük olmasının gerçek nedeni

Model sağlayıcılarının API birim fiyatlarını sübvanse ettiği iddiasının dayanağı zayıf
- API pazar payını büyütme teşviki de zayıf ve çok sayıda üçüncü taraf API sağlayıcısının fiyatları da rekabetçi biçimde oluşuyor
- Deepseek’in ölçüm verilerine göre GPU bazında marj %80’e ulaşıyor
Eğitim (Training) maliyeti ile çıkarım (Inference) maliyeti
- Büyük ölçekli çıkarım trafiği sayesinde eğitim maliyeti etkin biçimde amorti ediliyor
- Asıl sorun, üçüncü taraf backend servisleri kullanıldığında ortaya çıkan maliyetler olabilir

“LLM API’leri zararına çalışıyordur” iddiasına yanıt

OpenAI gibi büyük oyuncuların zarar etmesi, düşük gelir elde etme stratejisinin sonucu
- Ayda 1 dolar seviyesinde gelir elde edilse bile kâra geçmek mümkün
- Ücretsiz kullanıcı trafiğini veri toplama amacıyla kullanmak gibi başka hedefler de bulunuyor
Gelecekteki gerçek maliyet sorunu LLM değil, dış backend olacak
- Örneğin bir yapay zeka ajanı bilet rezervasyonu gibi işler için harici API çağırdığında, asıl maliyet yükü üçüncü tarafın üzerinde oluşabilir
- Hizmet sağlayıcılar buna crawler engelleme, mobile yönelme, giriş zorunluluğunu artırma gibi yollarla yanıt verebilir

Neden önemli?

Geleceğe dair pek çok öngörü, LLM’lerin pahalı olduğu yönündeki yanlış varsayıma dayanıyor
Gerçekte ise maliyet düşüşü ve talep artışı aynı anda yaşanıyor; fiyatların daha da gerilemesi ve pazarın canlanması bekleniyor
Frontier yapay zeka şirketleri gelir elde etmekten çok pazar payı kazanmaya odaklanıyor ve gerçekten de LLM hizmet birim fiyatları özellikle düşük
Gerçek maliyet sorunu LLM’in kendisi değil, arkadaki harici entegrasyon servislerinde (ör. biletleme siteleri vb.) yatıyor
Bu dış servislerin gelir elde edemediği bir yapıda, gelecekte yapay zeka ile backend servisleri arasında yeni gelir modelleri veya teknik çatışmalar ortaya çıkabilir

Sonuç ve görünüm

LLM çıkarım maliyeti artık yapay zeka işinin özsel bir kısıtı değil
- Düşük çalıştırma maliyeti ve çeşitli gelir seçenekleriyle (ör. reklam, abonelik vb.) iş açısından yeterince uygulanabilir bir yapı var
- Bundan sonra asıl mesele LLM değil, yapay zekanın kullandığı dış veri sağlayıcılarının maliyet ve altyapı sorunları olacak
Pazar ve teknoloji değişimine uygun, gerçekçi bir maliyet algısı ve iş stratejisi dönüşümü gerekli

4 yorum

click 2025-06-12

On-prem olarak ekran kartı altyapısı kurup kullanma ya da bulutta GPU kiralama senaryolarıyla simülasyon yaptığımda bunun inanılmaz pahalı olduğunu düşünmüştüm.
Ama ölçek ekonomisine ulaşınca epey yapılabilir hale geliyor galiba.

ethanhur 2025-06-11

LLM ile monetization yapılabileceğinden şüpheliydim ama bunun olumlu olması şaşırtıcı.

mhj5730 2025-06-11

Düşündüğümden daha sarsıcı bir araştırma sonucu... Onlarca trilyon won yatırılan modellerin kullanım maliyetinin düşük olması ve bununla bile yeterince gelir elde edilebilecek düzeyde olması...

GN⁺ 2025-06-10

Hacker News görüşleri

Kâr eden arama API’leri ile zarar etmeyi göze alıp pazar payı peşinde koşan bulut tabanlı LLM API’lerini karşılaştırmanın doğru olmadığını düşünüyorum
Mevcut veriler, şirketlerin yapay zekada üstünlük kurmak için devasa sermaye harcamaları (capex) yaptığı ama henüz kârlılık aşamasına gelmediği bir tabloyu gösteriyor
İki ürün de tamamen farklı olgunluk aşamalarında ve kullanım oranı düşen 10 yıllık bir hizmette sürekli zarar etmeyi meşrulaştıramayacağımız gerçeğini göz ardı edemeyiz
Ayrıca arama sorguları CPU ve yüksek cache isabet oranıyla işlenebilirken, LLM inference çoğunlukla GPU gerektiriyor ve her token çıktısı büyük olduğu için kullanıcılar arasında cache paylaşımı zor bir ortam oluşuyor
- inference hizmetlerinin kârsız olduğuna dair bir kanıt olmadığını söylüyorlar ama aslında AWS gibi barındırma sağlayıcılarında inference maliyetini doğrudan ödeyen herkes bunu anlayabilir
  AWS’nin dış modelleri çalıştıran hizmetleri sonsuza kadar sübvanse etmesi beklenemez; ayrıca sermaye harcaması capex olsa da inference çalıştırma maliyetinin opex (işletme gideri) olması daha da önemli
- Bugünlerde açık kaynak modelleri barındıran API sağlayıcıları, API ücretiyle gerçek inference donanım maliyeti arasında yeterince yüksek marj bırakıyor
  Elbette mesele sadece bu değil ama kendi inference optimizasyonları da hesaba katılırsa marj daha da büyüyebilir
  OpenAI ya da Anthropic gibi kapalı model sağlayıcılarında da, açıklanan model özelliklerine dayanarak tahmin edecek olursak, Anthropic’in API fiyatı ile donanım maliyeti arasında oldukça iyi bir marjı olduğuna inanıyorum
  Bu modelleri gerçekten production’da çalıştırdıysanız bunu doğrudan doğrulayabilirsiniz
- Perplexity’nin kâr marjı yüksekmiş gibi görünmek için COGS’u muhasebede R&D’ye kaydırarak oynama yaptığına dair işaretler var
  Link
- DeepSeek’in API hizmeti analizine göre şirket yalnızca %500 kâr marjı elde etmekle kalmıyor, aynı modeli sunan ABD’li şirketlerden çok daha düşük fiyatla hizmet veriyor
  OpenAI ya da Anthropic’in de bundan çok daha yüksek marjlar elde ediyor olması gayet mümkün
  GPU’lar genel olarak CPU’lardan hem maliyet hem enerji verimliliği açısından daha iyi ve Anthropic 24k token sistem prompt’unda KV-cache caching kullanıyor
- LLM API’lerinin zararına satılıp pazar kapma stratejisi olduğu fikrine katılmıyorum
  Şu anda zaten openrouter gibi modelin ya da sağlayıcının serbestçe değiştirilebildiği hizmetler var; lock-in etkisi yok, dolayısıyla pazar payı kapma stratejisinin ekonomik anlamı da yok
  ChatGPT web gibi arayüz üzerinden sunulan ürünler için belki anlamlı olabilir ama API’yi zararına satmak aptalca olur
  Hatta VC’lerin bile API’nin zararına satılmasını kabul etmeyeceğini düşünüyorum
Arama motorları ile LLM’leri yalnızca basit olgu sorguları (ör. "ABD’nin başkenti nedir?") için kullanılıyor varsayarak karşılaştırmak, iki hizmetin de temel kullanım senaryolarından çok uzak bir benzetme gibi geliyor
Arama motoru kullanıyorsam odak noktam web indeksine erişim olur; basit cevap almak API’nin amacı değil, arayüzün/ürünün işidir
LLM kullanırken ise büyük veri analizi, görüntü tanıma, karmaşık akıl yürütme, programlama gibi daha karmaşık işlerde kullanırım; bu durumda token tüketimi basit bir arama cevabından çok daha büyüktür
Yazarın yaptığı kıyas bana "Honda Civic ucuz çünkü elma ile pound başına fiyatı benzer" gibi hatalı bir karşılaştırma gibi geliyor
- Geleneksel arama motoru modelinin giderek daha az işe yarar hale geldiğini hissediyorum
  Uzmanlar arama motorlarını daha az kullanıyor, sıradan kullanıcılar da artık onları web indeksi taramak için değil, sanki bir insana sorar gibi konuşmalı şekilde kullanıyor
  "ABD’nin başkenti nedir?" gibi gereksiz parçalar içeren sorgular için arama motorundan çok LLM daha uygun,
  ayrıca SEO spam siteleri yüzünden arama kalitesinin bozulması da büyük bir sorun
  LLM’ler doğal soruları daha iyi işliyor ve gereksiz uzun açıklamalar, spam ya da reklamlar olmadan istenen cevabı seçip verdiği için gelecekte daha da kullanışlı olacaklarını düşünüyorum
- Yazarın "arama ve LLM karşılaştırması yalnızca basit olgu sorgularıyla sınırlı kalıyor" eleştirisine katılmıyorum ama analizin asıl noktası gerçekten 'arama motoru ile LLM’yi karşılaştırmak' değil,
  sadece birim başına (token/sorgu) fiyat ve maliyet farkını karşılaştırıp marj hesaplamak
  API’lerin sübvansiyonla ayakta durup durmadığını tartışırken arama motorlarıyla kıyas yapmak şart değil diye düşünüyorum
- LLM’lerin büyük veri analizi ve bileşik amaçlarla kullanıldığı doğru ama bunun daha çok power user kategorisine girdiğini kabul ediyorum
- Arama motorlarının web indeksini bulmak için kullanıldığı tespiti iyi bir nokta
  Ama LLM’ler de istenen bilgiyi daha doğru, tekrarsız ve hızlı bulabiliyor; bu yüzden geleneksel aramanın her durumda daha iyi olduğunu söyleyemeyiz
  LLM doğrudan cevap verip hatta doğrulama için linkler de eklerse, kullanıcı memnuniyeti daha da yüksek olabilir
  Google’ın arama sonuçlarını giderek gömme eğiliminin nedeni de indeks tabanlı sonuçların giderek daha az işe yarıyor olması olabilir
- OpenAI’nin 2024’te çok büyük bir zarar yazmadığına ve aylık ziyaret/kullanım hacmi dikkate alındığında inference maliyetlerinin aslında o kadar da yüksek olmadığına dair bir argüman da var
  ChatGPT’nin her ay dünyanın en çok ziyaret edilen sitelerinden biri olduğu ve trafiğin büyük kısmının ücretsiz kullanımdan geldiği düşünülürse, gerçek maliyet sanıldığından düşük olabilir
LLM ile ilgili maliyet tahminlerinin dayanağının net olmadığı konusunda şüphe var
Örneğin uçakta kabin bagajı ölçüleri gibi güncel bilgiler için, kaynak doğrulaması yapabilmesi adına LLM’ye web arama özelliği eklemek daha güvenilir olur
Bu durumda token tüketimi hızla artabilir ve maliyet tahmini sapabilir,
özellikle çok turlu konuşmalarda bağlam biriktikçe toplam token kullanımı ciddi biçimde yükselir
Gerçek kullanım verisi olmadan yalnızca tahminle maliyet hesabı yapmanın zor olduğunu kabul ediyorum
- Ben LLM’ye güncel haberleri soruyorum, o da birden çok web sayfasını doğrudan okuyup özetleyerek anlatıyor
  Güncel sorular için web araması yapıp referans linkleri de eklediği için bu biçimde kullanılabileceğini düşünüyorum
- "ABD havayolu DFW-CDG hattında kabin bagajı ölçüsü nedir" diye sorduğumda web araması kullanarak doğru yanıt verdi ve resmi web sitesi ile FAA linklerini de gösterdi
  Bu yaklaşımın kullanım açısından verimli olduğunu düşünüyorum
Çip tedarikinin zor olduğu, elektriğin ve ekipmanın pahalı olduğu mevcut ortamda büyük oyuncuların API tabanlı LLM hizmetlerini hemen kârlı hale getirebileceğine inanmıyorum
Donanım fiyatı ve enerji sorunu çözülmeden bir süre büyük kârlar görmek zor olur
Örnek olarak, YouTube 20 yıldır çalışmasına rağmen Alphabet’in hâlâ net şekilde kâr edip etmediğini açıklamamasını veriyorum
- Alphabet’in (Google) büyük kârlılığı arama pazarındaki ezici payı ve reklam gelirlerinden geliyor
  Yapay zeka şirketleri de bir gün pazar payını gelire dönüştürebileceklerine dair bahis oynuyor
  Stickiness oluşursa pazar payından kâra geçişin gayet mümkün olduğunu düşünüyorum
- Hisse fiyatındaki artışın da bir anlamda şirket kârlılığının bir ölçüsü olabileceğini söylüyor ve Amazon’un 10 yılı aşkın süre benzer bir strateji izlediğini hatırlatıyor
OpenAI’nin 2024’te 500 milyon dolar zarar ve 500 milyon MAU verisinden hareketle "500 milyon ücretsiz kullanıcıyı yıllık ortalama 10 dolar ARPU’ya çevirirsek başa baş noktasına ulaşılır" mantığı pratikte gerçekleştirilmesi zor bir varsayım
Ücretsiz kullanıcılardan 1 dolar bile talep edilse çoğunun ayrılması beklenir,
dolayısıyla "sadece" kelimesi gerçek dünyayı fazla basitleştiriyor
- Aslında öneri kullanıcıları ayda 1 dolara ücretli hale getirmek değil; bugünlerde LLM çalıştırmanın çok ucuzladığı ve reklam temelli modelle de rahatça para kazanılabileceği savunuluyor
  Aynı kullanıcı ölçeğindeki reklam tabanlı hizmetlerle karşılaştırınca, LLM’nin bugünkü birim maliyeti çok daha düşük; abonelik tek seçenek değil
- 500 milyon kişinin ücretli kullanıcıya dönüşmesi, kullanım kalıplarını ve maliyet yapısını tamamen değiştirip giderleri patlatabilir
  Bunun yerine yalnızca %1’inin ücretliye dönüşmesi bile yılda 1 milyar dolar getirebilir gibi basit bir varsayım kurulabilir
- Ben bu hizmetlerin zararına çalışmasının nedeninin, kullanıcı verisinin değerinin abonelik ücretinden çok daha yüksek olması olduğunu düşünüyorum
- Gerçekte herkesin ücretli olması gerekmiyor; ücretli kullanıcıların bir kısmının geri kalanları sübvanse ettiği bir yapı bile yeterli olabilir
Zamanla pazar payı yoğunlaşması ve regülasyonlardan sonra yatırımcılara vaat edilen fiyat artışlarının gerçeğe dönüşeceği öngörülüyor
- Ya da reklamdan para kazanma ihtimali yüksek
  Ne sorarsan sor, cevapların arasına Coca-Cola reklamı girer,
  yapay zeka kodlama projelerine otomatik reklam eklenir,
  yapay zekanın gönderdiği her 10. e-postaya sigorta reklamı yerleştirilir
  Yani sonsuz gelir yaratma fırsatı var
Şirket içinde LLM işletme maliyetini elektrik tüketimi merkezli hesapladığımızda, iç kullanıcıların burst tarzı isteklerine rağmen 1 milyon token başına ancak 10 küsur dolar seviyesine geldiğini gördük
Sunucu yükü yüksek değildi; dolayısıyla büyük ölçekte çalıştırılırsa maliyet daha da düşebilir
- Bu hesabın yalnızca elektrik tüketimine mi dayandığı soruluyor
LLM’den alınan tek bir token çıktısının, arama motorundaki tek bir sonuçla aynı düzlemde kıyaslanıp kıyaslanamayacağı konusunda şüphe var
Yazar, 1.000 LLM çağrısını (yaklaşık 1 milyon token) 1.000 arama sorgusuyla karşılaştırıyor ama
gerçekte burada 1.000 katlık bir hata olabileceği düşünülüyor
(Sonraki düzeltme: yazarın yöntemine tekrar bakınca fiyatın gerçekten 1.000 API kullanımı bazında kıyaslandığını ve ilk yorumun yanlış anlama olduğunu gördüm)
- Yazarın gerçekten 1.000 LLM kullanımı (toplam 1 milyon token) ile 1.000 arama sorgusunun birim fiyatını karşılaştırdığını düzeltiyorum
- Gemini 2.0 Flash 1 milyon token için 0,4 dolar ve Bing Search API 1.000 sorgu için 15 dolar ise, bu hesaba göre LLM tarafı 37 kat daha ucuz oluyor
Verimlilik artışı ve 100 kat maliyet düşüşü bekleniyorsa neden şu anda bu kadar agresif şekilde veri merkezi kuruluyor diye merak ediyorum
Makine yenileme döngüleriyle mevcut veri merkezleri zaten yeterince kullanılabilir olmaz mıydı diye düşünüyorum,
ayrıca bugünkü yatırım coşkusunun gerçekten bir balon olabileceği ihtimalini de dile getiriyorum
İlgili bir performans karşılaştırma yazısı paylaşılıyor
Link
Salt liste fiyatına bakınca bunun pahalı olduğunu düşünüyorum,
özellikle de pazar payı için aşırı sert rekabet varken bu rakamları tek başına yorumlamak zor