- İnsanların çoğu LLM (büyük dil modeli) kullanım maliyetini abartma eğiliminde, ancak gerçekte maliyetler hızla düştü ve web aramasından bile daha ucuz bir seviyeye ulaştı
- Üretken yapay zeka çılgınlığının ilk döneminde çıkarım maliyeti yüksekti, ancak son 2 yılda maliyetler neredeyse 1000 kat azaldı
- LLM API’lerinin gerçek birim fiyatını web arama API’leriyle doğrudan karşılaştırdığınızda, düşük maliyetli LLM modellerinin en ucuz arama API’sinden bile 10 kattan fazla ucuz olduğu, orta fiyatlı modellerin de oldukça rekabetçi bir fiyat yapısına sahip olduğu görülüyor
- Model operatörlerinin API fiyatlarını aşırı biçimde sübvanse ettiğine dair kanıt zayıf; hatta GPU maliyetine göre %80 marja ulaşan örnekler de var
- OpenAI gibi büyük yapay zeka şirketlerinin zarar etmesinin nedeni maliyet değil, düşük gelir elde etme politikaları; kullanıcı başına ayda yalnızca 1 dolar alınsa bile kâra geçilebilecek bir yapı söz konusu
- Gelecekte maliyet yükünün odağı LLM’in kendisi değil, dış backend servislerine (ör. çeşitli veri sağlayıcıları) kayacak. LLM çalıştırmak giderek ucuzluyor ve iş modeli de fazlasıyla sürdürülebilir görünüyor
LLM maliyetine dair yanlış algı ve gerçekler
- Birçok kişi ChatGPT gibi LLM’leri çalıştırmanın çok pahalı olduğunu sanıyor
- Bu yüzden, yapay zeka şirketlerinin iş modelinin belirsiz olduğu ya da tüketiciye yönelik yapay zeka hizmetlerinin gelir elde etmesinin zor olduğu yönünde hatalı analizler tekrarlanıyor
- LLM’lerin hâlâ pahalı olduğu düşüncesi bir algı hatası
- Yapay zeka patlamasının ilk döneminde çıkarım (inference) maliyeti çok yüksekti, ancak son 2 yılda maliyetler neredeyse 1000 kat düştü
- Pek çok tartışma, geçmişteki maliyet yapısını temel aldığı için yanlış öngörüler üretiyor
- Sık kullanılan "1 milyon token başına fiyat" modeli sezgisel olarak anlaşılması zor bir yaklaşım
Web arama API’leri ile LLM API fiyatlarının karşılaştırması
- Öne çıkan web arama API ücretleri
- Google Search: $35/1000 sorgu
- Bing Search: $15/1000 sorgu
- Brave Search: $5~9/1000 sorgu; birim maliyet arttıkça fiyatın da arttığı bir yapı
- Genel olarak web arama API’leri ucuz değil; hizmet kalitesi daha iyi olanlar daha pahalı
- LLM API ücretleri (1k token bazında)
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 vb.
- Aramayla karşılaştırılabilir bir yöntem için, sorgu başına üretilen token sayısı + token başına fiyat üzerinden LLM maliyetini hesaplamak gerekir
- 500~1000 token, sorgu başına ortalama tüketim olarak doğrudan karşılaştırılabilir
- Düşük maliyetli LLM modelleri, en ucuz arama API’sine kıyasla 10~25 kat daha ucuz
- Orta kalite bandındaki LLM’ler de aynı aralıkta aramadan çok daha düşük maliyetli
- Toplu işleme, yoğun olmayan saatlerde indirim gibi ek indirim koşulları dikkate alındığında maliyet daha da düşüyor
Maliyetlerin düşük olmasının gerçek nedeni
- Model sağlayıcılarının API birim fiyatlarını sübvanse ettiği iddiasının dayanağı zayıf
- API pazar payını büyütme teşviki de zayıf ve çok sayıda üçüncü taraf API sağlayıcısının fiyatları da rekabetçi biçimde oluşuyor
- Deepseek’in ölçüm verilerine göre GPU bazında marj %80’e ulaşıyor
- Eğitim (Training) maliyeti ile çıkarım (Inference) maliyeti
- Büyük ölçekli çıkarım trafiği sayesinde eğitim maliyeti etkin biçimde amorti ediliyor
- Asıl sorun, üçüncü taraf backend servisleri kullanıldığında ortaya çıkan maliyetler olabilir
“LLM API’leri zararına çalışıyordur” iddiasına yanıt
- OpenAI gibi büyük oyuncuların zarar etmesi, düşük gelir elde etme stratejisinin sonucu
- Ayda 1 dolar seviyesinde gelir elde edilse bile kâra geçmek mümkün
- Ücretsiz kullanıcı trafiğini veri toplama amacıyla kullanmak gibi başka hedefler de bulunuyor
- Gelecekteki gerçek maliyet sorunu LLM değil, dış backend olacak
- Örneğin bir yapay zeka ajanı bilet rezervasyonu gibi işler için harici API çağırdığında, asıl maliyet yükü üçüncü tarafın üzerinde oluşabilir
- Hizmet sağlayıcılar buna crawler engelleme, mobile yönelme, giriş zorunluluğunu artırma gibi yollarla yanıt verebilir
Neden önemli?
- Geleceğe dair pek çok öngörü, LLM’lerin pahalı olduğu yönündeki yanlış varsayıma dayanıyor
- Gerçekte ise maliyet düşüşü ve talep artışı aynı anda yaşanıyor; fiyatların daha da gerilemesi ve pazarın canlanması bekleniyor
- Frontier yapay zeka şirketleri gelir elde etmekten çok pazar payı kazanmaya odaklanıyor ve gerçekten de LLM hizmet birim fiyatları özellikle düşük
- Gerçek maliyet sorunu LLM’in kendisi değil, arkadaki harici entegrasyon servislerinde (ör. biletleme siteleri vb.) yatıyor
- Bu dış servislerin gelir elde edemediği bir yapıda, gelecekte yapay zeka ile backend servisleri arasında yeni gelir modelleri veya teknik çatışmalar ortaya çıkabilir
Sonuç ve görünüm
- LLM çıkarım maliyeti artık yapay zeka işinin özsel bir kısıtı değil
- Düşük çalıştırma maliyeti ve çeşitli gelir seçenekleriyle (ör. reklam, abonelik vb.) iş açısından yeterince uygulanabilir bir yapı var
- Bundan sonra asıl mesele LLM değil, yapay zekanın kullandığı dış veri sağlayıcılarının maliyet ve altyapı sorunları olacak
- Pazar ve teknoloji değişimine uygun, gerçekçi bir maliyet algısı ve iş stratejisi dönüşümü gerekli
4 yorum
On-prem olarak ekran kartı altyapısı kurup kullanma ya da bulutta GPU kiralama senaryolarıyla simülasyon yaptığımda bunun inanılmaz pahalı olduğunu düşünmüştüm.
Ama ölçek ekonomisine ulaşınca epey yapılabilir hale geliyor galiba.
LLM ile monetization yapılabileceğinden şüpheliydim ama bunun olumlu olması şaşırtıcı.
Düşündüğümden daha sarsıcı bir araştırma sonucu... Onlarca trilyon won yatırılan modellerin kullanım maliyetinin düşük olması ve bununla bile yeterince gelir elde edilebilecek düzeyde olması...
Hacker News görüşleri
Kâr eden arama API’leri ile zarar etmeyi göze alıp pazar payı peşinde koşan bulut tabanlı LLM API’lerini karşılaştırmanın doğru olmadığını düşünüyorum
Mevcut veriler, şirketlerin yapay zekada üstünlük kurmak için devasa sermaye harcamaları (capex) yaptığı ama henüz kârlılık aşamasına gelmediği bir tabloyu gösteriyor
İki ürün de tamamen farklı olgunluk aşamalarında ve kullanım oranı düşen 10 yıllık bir hizmette sürekli zarar etmeyi meşrulaştıramayacağımız gerçeğini göz ardı edemeyiz
Ayrıca arama sorguları CPU ve yüksek cache isabet oranıyla işlenebilirken, LLM inference çoğunlukla GPU gerektiriyor ve her token çıktısı büyük olduğu için kullanıcılar arasında cache paylaşımı zor bir ortam oluşuyor
inference hizmetlerinin kârsız olduğuna dair bir kanıt olmadığını söylüyorlar ama aslında AWS gibi barındırma sağlayıcılarında inference maliyetini doğrudan ödeyen herkes bunu anlayabilir
AWS’nin dış modelleri çalıştıran hizmetleri sonsuza kadar sübvanse etmesi beklenemez; ayrıca sermaye harcaması capex olsa da inference çalıştırma maliyetinin opex (işletme gideri) olması daha da önemli
Bugünlerde açık kaynak modelleri barındıran API sağlayıcıları, API ücretiyle gerçek inference donanım maliyeti arasında yeterince yüksek marj bırakıyor
Elbette mesele sadece bu değil ama kendi inference optimizasyonları da hesaba katılırsa marj daha da büyüyebilir
OpenAI ya da Anthropic gibi kapalı model sağlayıcılarında da, açıklanan model özelliklerine dayanarak tahmin edecek olursak, Anthropic’in API fiyatı ile donanım maliyeti arasında oldukça iyi bir marjı olduğuna inanıyorum
Bu modelleri gerçekten production’da çalıştırdıysanız bunu doğrudan doğrulayabilirsiniz
Perplexity’nin kâr marjı yüksekmiş gibi görünmek için COGS’u muhasebede R&D’ye kaydırarak oynama yaptığına dair işaretler var
Link
DeepSeek’in API hizmeti analizine göre şirket yalnızca %500 kâr marjı elde etmekle kalmıyor, aynı modeli sunan ABD’li şirketlerden çok daha düşük fiyatla hizmet veriyor
OpenAI ya da Anthropic’in de bundan çok daha yüksek marjlar elde ediyor olması gayet mümkün
GPU’lar genel olarak CPU’lardan hem maliyet hem enerji verimliliği açısından daha iyi ve Anthropic 24k token sistem prompt’unda KV-cache caching kullanıyor
LLM API’lerinin zararına satılıp pazar kapma stratejisi olduğu fikrine katılmıyorum
Şu anda zaten openrouter gibi modelin ya da sağlayıcının serbestçe değiştirilebildiği hizmetler var; lock-in etkisi yok, dolayısıyla pazar payı kapma stratejisinin ekonomik anlamı da yok
ChatGPT web gibi arayüz üzerinden sunulan ürünler için belki anlamlı olabilir ama API’yi zararına satmak aptalca olur
Hatta VC’lerin bile API’nin zararına satılmasını kabul etmeyeceğini düşünüyorum
Arama motorları ile LLM’leri yalnızca basit olgu sorguları (ör. "ABD’nin başkenti nedir?") için kullanılıyor varsayarak karşılaştırmak, iki hizmetin de temel kullanım senaryolarından çok uzak bir benzetme gibi geliyor
Arama motoru kullanıyorsam odak noktam web indeksine erişim olur; basit cevap almak API’nin amacı değil, arayüzün/ürünün işidir
LLM kullanırken ise büyük veri analizi, görüntü tanıma, karmaşık akıl yürütme, programlama gibi daha karmaşık işlerde kullanırım; bu durumda token tüketimi basit bir arama cevabından çok daha büyüktür
Yazarın yaptığı kıyas bana "Honda Civic ucuz çünkü elma ile pound başına fiyatı benzer" gibi hatalı bir karşılaştırma gibi geliyor
Geleneksel arama motoru modelinin giderek daha az işe yarar hale geldiğini hissediyorum
Uzmanlar arama motorlarını daha az kullanıyor, sıradan kullanıcılar da artık onları web indeksi taramak için değil, sanki bir insana sorar gibi konuşmalı şekilde kullanıyor
"ABD’nin başkenti nedir?" gibi gereksiz parçalar içeren sorgular için arama motorundan çok LLM daha uygun,
ayrıca SEO spam siteleri yüzünden arama kalitesinin bozulması da büyük bir sorun
LLM’ler doğal soruları daha iyi işliyor ve gereksiz uzun açıklamalar, spam ya da reklamlar olmadan istenen cevabı seçip verdiği için gelecekte daha da kullanışlı olacaklarını düşünüyorum
Yazarın "arama ve LLM karşılaştırması yalnızca basit olgu sorgularıyla sınırlı kalıyor" eleştirisine katılmıyorum ama analizin asıl noktası gerçekten 'arama motoru ile LLM’yi karşılaştırmak' değil,
sadece birim başına (token/sorgu) fiyat ve maliyet farkını karşılaştırıp marj hesaplamak
API’lerin sübvansiyonla ayakta durup durmadığını tartışırken arama motorlarıyla kıyas yapmak şart değil diye düşünüyorum
LLM’lerin büyük veri analizi ve bileşik amaçlarla kullanıldığı doğru ama bunun daha çok power user kategorisine girdiğini kabul ediyorum
Arama motorlarının web indeksini bulmak için kullanıldığı tespiti iyi bir nokta
Ama LLM’ler de istenen bilgiyi daha doğru, tekrarsız ve hızlı bulabiliyor; bu yüzden geleneksel aramanın her durumda daha iyi olduğunu söyleyemeyiz
LLM doğrudan cevap verip hatta doğrulama için linkler de eklerse, kullanıcı memnuniyeti daha da yüksek olabilir
Google’ın arama sonuçlarını giderek gömme eğiliminin nedeni de indeks tabanlı sonuçların giderek daha az işe yarıyor olması olabilir
OpenAI’nin 2024’te çok büyük bir zarar yazmadığına ve aylık ziyaret/kullanım hacmi dikkate alındığında inference maliyetlerinin aslında o kadar da yüksek olmadığına dair bir argüman da var
ChatGPT’nin her ay dünyanın en çok ziyaret edilen sitelerinden biri olduğu ve trafiğin büyük kısmının ücretsiz kullanımdan geldiği düşünülürse, gerçek maliyet sanıldığından düşük olabilir
LLM ile ilgili maliyet tahminlerinin dayanağının net olmadığı konusunda şüphe var
Örneğin uçakta kabin bagajı ölçüleri gibi güncel bilgiler için, kaynak doğrulaması yapabilmesi adına LLM’ye web arama özelliği eklemek daha güvenilir olur
Bu durumda token tüketimi hızla artabilir ve maliyet tahmini sapabilir,
özellikle çok turlu konuşmalarda bağlam biriktikçe toplam token kullanımı ciddi biçimde yükselir
Gerçek kullanım verisi olmadan yalnızca tahminle maliyet hesabı yapmanın zor olduğunu kabul ediyorum
Ben LLM’ye güncel haberleri soruyorum, o da birden çok web sayfasını doğrudan okuyup özetleyerek anlatıyor
Güncel sorular için web araması yapıp referans linkleri de eklediği için bu biçimde kullanılabileceğini düşünüyorum
"ABD havayolu DFW-CDG hattında kabin bagajı ölçüsü nedir" diye sorduğumda web araması kullanarak doğru yanıt verdi ve resmi web sitesi ile FAA linklerini de gösterdi
Bu yaklaşımın kullanım açısından verimli olduğunu düşünüyorum
Çip tedarikinin zor olduğu, elektriğin ve ekipmanın pahalı olduğu mevcut ortamda büyük oyuncuların API tabanlı LLM hizmetlerini hemen kârlı hale getirebileceğine inanmıyorum
Donanım fiyatı ve enerji sorunu çözülmeden bir süre büyük kârlar görmek zor olur
Örnek olarak, YouTube 20 yıldır çalışmasına rağmen Alphabet’in hâlâ net şekilde kâr edip etmediğini açıklamamasını veriyorum
Alphabet’in (Google) büyük kârlılığı arama pazarındaki ezici payı ve reklam gelirlerinden geliyor
Yapay zeka şirketleri de bir gün pazar payını gelire dönüştürebileceklerine dair bahis oynuyor
Stickiness oluşursa pazar payından kâra geçişin gayet mümkün olduğunu düşünüyorum
Hisse fiyatındaki artışın da bir anlamda şirket kârlılığının bir ölçüsü olabileceğini söylüyor ve Amazon’un 10 yılı aşkın süre benzer bir strateji izlediğini hatırlatıyor
OpenAI’nin 2024’te 500 milyon dolar zarar ve 500 milyon MAU verisinden hareketle "500 milyon ücretsiz kullanıcıyı yıllık ortalama 10 dolar ARPU’ya çevirirsek başa baş noktasına ulaşılır" mantığı pratikte gerçekleştirilmesi zor bir varsayım
Ücretsiz kullanıcılardan 1 dolar bile talep edilse çoğunun ayrılması beklenir,
dolayısıyla "sadece" kelimesi gerçek dünyayı fazla basitleştiriyor
Aslında öneri kullanıcıları ayda 1 dolara ücretli hale getirmek değil; bugünlerde LLM çalıştırmanın çok ucuzladığı ve reklam temelli modelle de rahatça para kazanılabileceği savunuluyor
Aynı kullanıcı ölçeğindeki reklam tabanlı hizmetlerle karşılaştırınca, LLM’nin bugünkü birim maliyeti çok daha düşük; abonelik tek seçenek değil
500 milyon kişinin ücretli kullanıcıya dönüşmesi, kullanım kalıplarını ve maliyet yapısını tamamen değiştirip giderleri patlatabilir
Bunun yerine yalnızca %1’inin ücretliye dönüşmesi bile yılda 1 milyar dolar getirebilir gibi basit bir varsayım kurulabilir
Ben bu hizmetlerin zararına çalışmasının nedeninin, kullanıcı verisinin değerinin abonelik ücretinden çok daha yüksek olması olduğunu düşünüyorum
Gerçekte herkesin ücretli olması gerekmiyor; ücretli kullanıcıların bir kısmının geri kalanları sübvanse ettiği bir yapı bile yeterli olabilir
Zamanla pazar payı yoğunlaşması ve regülasyonlardan sonra yatırımcılara vaat edilen fiyat artışlarının gerçeğe dönüşeceği öngörülüyor
Ne sorarsan sor, cevapların arasına Coca-Cola reklamı girer,
yapay zeka kodlama projelerine otomatik reklam eklenir,
yapay zekanın gönderdiği her 10. e-postaya sigorta reklamı yerleştirilir
Yani sonsuz gelir yaratma fırsatı var
Şirket içinde LLM işletme maliyetini elektrik tüketimi merkezli hesapladığımızda, iç kullanıcıların burst tarzı isteklerine rağmen 1 milyon token başına ancak 10 küsur dolar seviyesine geldiğini gördük
Sunucu yükü yüksek değildi; dolayısıyla büyük ölçekte çalıştırılırsa maliyet daha da düşebilir
LLM’den alınan tek bir token çıktısının, arama motorundaki tek bir sonuçla aynı düzlemde kıyaslanıp kıyaslanamayacağı konusunda şüphe var
Yazar, 1.000 LLM çağrısını (yaklaşık 1 milyon token) 1.000 arama sorgusuyla karşılaştırıyor ama
gerçekte burada 1.000 katlık bir hata olabileceği düşünülüyor
(Sonraki düzeltme: yazarın yöntemine tekrar bakınca fiyatın gerçekten 1.000 API kullanımı bazında kıyaslandığını ve ilk yorumun yanlış anlama olduğunu gördüm)
Yazarın gerçekten 1.000 LLM kullanımı (toplam 1 milyon token) ile 1.000 arama sorgusunun birim fiyatını karşılaştırdığını düzeltiyorum
Gemini 2.0 Flash 1 milyon token için 0,4 dolar ve Bing Search API 1.000 sorgu için 15 dolar ise, bu hesaba göre LLM tarafı 37 kat daha ucuz oluyor
Verimlilik artışı ve 100 kat maliyet düşüşü bekleniyorsa neden şu anda bu kadar agresif şekilde veri merkezi kuruluyor diye merak ediyorum
Makine yenileme döngüleriyle mevcut veri merkezleri zaten yeterince kullanılabilir olmaz mıydı diye düşünüyorum,
ayrıca bugünkü yatırım coşkusunun gerçekten bir balon olabileceği ihtimalini de dile getiriyorum
İlgili bir performans karşılaştırma yazısı paylaşılıyor
Link
Salt liste fiyatına bakınca bunun pahalı olduğunu düşünüyorum,
özellikle de pazar payı için aşırı sert rekabet varken bu rakamları tek başına yorumlamak zor