26 puan yazan GN⁺ 2025-06-10 | 4 yorum | WhatsApp'ta paylaş
  • İnsanların çoğu LLM (büyük dil modeli) kullanım maliyetini abartma eğiliminde, ancak gerçekte maliyetler hızla düştü ve web aramasından bile daha ucuz bir seviyeye ulaştı
    • Üretken yapay zeka çılgınlığının ilk döneminde çıkarım maliyeti yüksekti, ancak son 2 yılda maliyetler neredeyse 1000 kat azaldı
  • LLM API’lerinin gerçek birim fiyatını web arama API’leriyle doğrudan karşılaştırdığınızda, düşük maliyetli LLM modellerinin en ucuz arama API’sinden bile 10 kattan fazla ucuz olduğu, orta fiyatlı modellerin de oldukça rekabetçi bir fiyat yapısına sahip olduğu görülüyor
  • Model operatörlerinin API fiyatlarını aşırı biçimde sübvanse ettiğine dair kanıt zayıf; hatta GPU maliyetine göre %80 marja ulaşan örnekler de var
  • OpenAI gibi büyük yapay zeka şirketlerinin zarar etmesinin nedeni maliyet değil, düşük gelir elde etme politikaları; kullanıcı başına ayda yalnızca 1 dolar alınsa bile kâra geçilebilecek bir yapı söz konusu
  • Gelecekte maliyet yükünün odağı LLM’in kendisi değil, dış backend servislerine (ör. çeşitli veri sağlayıcıları) kayacak. LLM çalıştırmak giderek ucuzluyor ve iş modeli de fazlasıyla sürdürülebilir görünüyor

LLM maliyetine dair yanlış algı ve gerçekler

  • Birçok kişi ChatGPT gibi LLM’leri çalıştırmanın çok pahalı olduğunu sanıyor
  • Bu yüzden, yapay zeka şirketlerinin iş modelinin belirsiz olduğu ya da tüketiciye yönelik yapay zeka hizmetlerinin gelir elde etmesinin zor olduğu yönünde hatalı analizler tekrarlanıyor
  • LLM’lerin hâlâ pahalı olduğu düşüncesi bir algı hatası
    • Yapay zeka patlamasının ilk döneminde çıkarım (inference) maliyeti çok yüksekti, ancak son 2 yılda maliyetler neredeyse 1000 kat düştü
    • Pek çok tartışma, geçmişteki maliyet yapısını temel aldığı için yanlış öngörüler üretiyor
  • Sık kullanılan "1 milyon token başına fiyat" modeli sezgisel olarak anlaşılması zor bir yaklaşım

Web arama API’leri ile LLM API fiyatlarının karşılaştırması

  • Öne çıkan web arama API ücretleri
    • Google Search: $35/1000 sorgu
    • Bing Search: $15/1000 sorgu
    • Brave Search: $5~9/1000 sorgu; birim maliyet arttıkça fiyatın da arttığı bir yapı
    • Genel olarak web arama API’leri ucuz değil; hizmet kalitesi daha iyi olanlar daha pahalı
  • LLM API ücretleri (1k token bazında)
    • Gemma 3 27B: $0.20
    • Gemini 2.0 Flash: $0.40
    • GPT-4.1 nano: $0.40
    • Deepseek V3: $1.10
    • GPT-4.1: $8.00 vb.
    • Aramayla karşılaştırılabilir bir yöntem için, sorgu başına üretilen token sayısı + token başına fiyat üzerinden LLM maliyetini hesaplamak gerekir
    • 500~1000 token, sorgu başına ortalama tüketim olarak doğrudan karşılaştırılabilir
  • Düşük maliyetli LLM modelleri, en ucuz arama API’sine kıyasla 10~25 kat daha ucuz
    • Orta kalite bandındaki LLM’ler de aynı aralıkta aramadan çok daha düşük maliyetli
    • Toplu işleme, yoğun olmayan saatlerde indirim gibi ek indirim koşulları dikkate alındığında maliyet daha da düşüyor

Maliyetlerin düşük olmasının gerçek nedeni

  • Model sağlayıcılarının API birim fiyatlarını sübvanse ettiği iddiasının dayanağı zayıf
    • API pazar payını büyütme teşviki de zayıf ve çok sayıda üçüncü taraf API sağlayıcısının fiyatları da rekabetçi biçimde oluşuyor
    • Deepseek’in ölçüm verilerine göre GPU bazında marj %80’e ulaşıyor
  • Eğitim (Training) maliyeti ile çıkarım (Inference) maliyeti
    • Büyük ölçekli çıkarım trafiği sayesinde eğitim maliyeti etkin biçimde amorti ediliyor
    • Asıl sorun, üçüncü taraf backend servisleri kullanıldığında ortaya çıkan maliyetler olabilir

“LLM API’leri zararına çalışıyordur” iddiasına yanıt

  • OpenAI gibi büyük oyuncuların zarar etmesi, düşük gelir elde etme stratejisinin sonucu
    • Ayda 1 dolar seviyesinde gelir elde edilse bile kâra geçmek mümkün
    • Ücretsiz kullanıcı trafiğini veri toplama amacıyla kullanmak gibi başka hedefler de bulunuyor
  • Gelecekteki gerçek maliyet sorunu LLM değil, dış backend olacak
    • Örneğin bir yapay zeka ajanı bilet rezervasyonu gibi işler için harici API çağırdığında, asıl maliyet yükü üçüncü tarafın üzerinde oluşabilir
    • Hizmet sağlayıcılar buna crawler engelleme, mobile yönelme, giriş zorunluluğunu artırma gibi yollarla yanıt verebilir

Neden önemli?

  • Geleceğe dair pek çok öngörü, LLM’lerin pahalı olduğu yönündeki yanlış varsayıma dayanıyor
  • Gerçekte ise maliyet düşüşü ve talep artışı aynı anda yaşanıyor; fiyatların daha da gerilemesi ve pazarın canlanması bekleniyor
  • Frontier yapay zeka şirketleri gelir elde etmekten çok pazar payı kazanmaya odaklanıyor ve gerçekten de LLM hizmet birim fiyatları özellikle düşük
  • Gerçek maliyet sorunu LLM’in kendisi değil, arkadaki harici entegrasyon servislerinde (ör. biletleme siteleri vb.) yatıyor
  • Bu dış servislerin gelir elde edemediği bir yapıda, gelecekte yapay zeka ile backend servisleri arasında yeni gelir modelleri veya teknik çatışmalar ortaya çıkabilir

Sonuç ve görünüm

  • LLM çıkarım maliyeti artık yapay zeka işinin özsel bir kısıtı değil
    • Düşük çalıştırma maliyeti ve çeşitli gelir seçenekleriyle (ör. reklam, abonelik vb.) iş açısından yeterince uygulanabilir bir yapı var
    • Bundan sonra asıl mesele LLM değil, yapay zekanın kullandığı dış veri sağlayıcılarının maliyet ve altyapı sorunları olacak
  • Pazar ve teknoloji değişimine uygun, gerçekçi bir maliyet algısı ve iş stratejisi dönüşümü gerekli

4 yorum

 
click 2025-06-12

On-prem olarak ekran kartı altyapısı kurup kullanma ya da bulutta GPU kiralama senaryolarıyla simülasyon yaptığımda bunun inanılmaz pahalı olduğunu düşünmüştüm.
Ama ölçek ekonomisine ulaşınca epey yapılabilir hale geliyor galiba.

 
ethanhur 2025-06-11

LLM ile monetization yapılabileceğinden şüpheliydim ama bunun olumlu olması şaşırtıcı.

 
mhj5730 2025-06-11

Düşündüğümden daha sarsıcı bir araştırma sonucu... Onlarca trilyon won yatırılan modellerin kullanım maliyetinin düşük olması ve bununla bile yeterince gelir elde edilebilecek düzeyde olması...

 
GN⁺ 2025-06-10
Hacker News görüşleri
  • Kâr eden arama API’leri ile zarar etmeyi göze alıp pazar payı peşinde koşan bulut tabanlı LLM API’lerini karşılaştırmanın doğru olmadığını düşünüyorum
    Mevcut veriler, şirketlerin yapay zekada üstünlük kurmak için devasa sermaye harcamaları (capex) yaptığı ama henüz kârlılık aşamasına gelmediği bir tabloyu gösteriyor
    İki ürün de tamamen farklı olgunluk aşamalarında ve kullanım oranı düşen 10 yıllık bir hizmette sürekli zarar etmeyi meşrulaştıramayacağımız gerçeğini göz ardı edemeyiz
    Ayrıca arama sorguları CPU ve yüksek cache isabet oranıyla işlenebilirken, LLM inference çoğunlukla GPU gerektiriyor ve her token çıktısı büyük olduğu için kullanıcılar arasında cache paylaşımı zor bir ortam oluşuyor

    • inference hizmetlerinin kârsız olduğuna dair bir kanıt olmadığını söylüyorlar ama aslında AWS gibi barındırma sağlayıcılarında inference maliyetini doğrudan ödeyen herkes bunu anlayabilir
      AWS’nin dış modelleri çalıştıran hizmetleri sonsuza kadar sübvanse etmesi beklenemez; ayrıca sermaye harcaması capex olsa da inference çalıştırma maliyetinin opex (işletme gideri) olması daha da önemli

    • Bugünlerde açık kaynak modelleri barındıran API sağlayıcıları, API ücretiyle gerçek inference donanım maliyeti arasında yeterince yüksek marj bırakıyor
      Elbette mesele sadece bu değil ama kendi inference optimizasyonları da hesaba katılırsa marj daha da büyüyebilir
      OpenAI ya da Anthropic gibi kapalı model sağlayıcılarında da, açıklanan model özelliklerine dayanarak tahmin edecek olursak, Anthropic’in API fiyatı ile donanım maliyeti arasında oldukça iyi bir marjı olduğuna inanıyorum
      Bu modelleri gerçekten production’da çalıştırdıysanız bunu doğrudan doğrulayabilirsiniz

    • Perplexity’nin kâr marjı yüksekmiş gibi görünmek için COGS’u muhasebede R&D’ye kaydırarak oynama yaptığına dair işaretler var
      Link

    • DeepSeek’in API hizmeti analizine göre şirket yalnızca %500 kâr marjı elde etmekle kalmıyor, aynı modeli sunan ABD’li şirketlerden çok daha düşük fiyatla hizmet veriyor
      OpenAI ya da Anthropic’in de bundan çok daha yüksek marjlar elde ediyor olması gayet mümkün
      GPU’lar genel olarak CPU’lardan hem maliyet hem enerji verimliliği açısından daha iyi ve Anthropic 24k token sistem prompt’unda KV-cache caching kullanıyor

    • LLM API’lerinin zararına satılıp pazar kapma stratejisi olduğu fikrine katılmıyorum
      Şu anda zaten openrouter gibi modelin ya da sağlayıcının serbestçe değiştirilebildiği hizmetler var; lock-in etkisi yok, dolayısıyla pazar payı kapma stratejisinin ekonomik anlamı da yok
      ChatGPT web gibi arayüz üzerinden sunulan ürünler için belki anlamlı olabilir ama API’yi zararına satmak aptalca olur
      Hatta VC’lerin bile API’nin zararına satılmasını kabul etmeyeceğini düşünüyorum

  • Arama motorları ile LLM’leri yalnızca basit olgu sorguları (ör. "ABD’nin başkenti nedir?") için kullanılıyor varsayarak karşılaştırmak, iki hizmetin de temel kullanım senaryolarından çok uzak bir benzetme gibi geliyor
    Arama motoru kullanıyorsam odak noktam web indeksine erişim olur; basit cevap almak API’nin amacı değil, arayüzün/ürünün işidir
    LLM kullanırken ise büyük veri analizi, görüntü tanıma, karmaşık akıl yürütme, programlama gibi daha karmaşık işlerde kullanırım; bu durumda token tüketimi basit bir arama cevabından çok daha büyüktür
    Yazarın yaptığı kıyas bana "Honda Civic ucuz çünkü elma ile pound başına fiyatı benzer" gibi hatalı bir karşılaştırma gibi geliyor

    • Geleneksel arama motoru modelinin giderek daha az işe yarar hale geldiğini hissediyorum
      Uzmanlar arama motorlarını daha az kullanıyor, sıradan kullanıcılar da artık onları web indeksi taramak için değil, sanki bir insana sorar gibi konuşmalı şekilde kullanıyor
      "ABD’nin başkenti nedir?" gibi gereksiz parçalar içeren sorgular için arama motorundan çok LLM daha uygun,
      ayrıca SEO spam siteleri yüzünden arama kalitesinin bozulması da büyük bir sorun
      LLM’ler doğal soruları daha iyi işliyor ve gereksiz uzun açıklamalar, spam ya da reklamlar olmadan istenen cevabı seçip verdiği için gelecekte daha da kullanışlı olacaklarını düşünüyorum

    • Yazarın "arama ve LLM karşılaştırması yalnızca basit olgu sorgularıyla sınırlı kalıyor" eleştirisine katılmıyorum ama analizin asıl noktası gerçekten 'arama motoru ile LLM’yi karşılaştırmak' değil,
      sadece birim başına (token/sorgu) fiyat ve maliyet farkını karşılaştırıp marj hesaplamak
      API’lerin sübvansiyonla ayakta durup durmadığını tartışırken arama motorlarıyla kıyas yapmak şart değil diye düşünüyorum

    • LLM’lerin büyük veri analizi ve bileşik amaçlarla kullanıldığı doğru ama bunun daha çok power user kategorisine girdiğini kabul ediyorum

    • Arama motorlarının web indeksini bulmak için kullanıldığı tespiti iyi bir nokta
      Ama LLM’ler de istenen bilgiyi daha doğru, tekrarsız ve hızlı bulabiliyor; bu yüzden geleneksel aramanın her durumda daha iyi olduğunu söyleyemeyiz
      LLM doğrudan cevap verip hatta doğrulama için linkler de eklerse, kullanıcı memnuniyeti daha da yüksek olabilir
      Google’ın arama sonuçlarını giderek gömme eğiliminin nedeni de indeks tabanlı sonuçların giderek daha az işe yarıyor olması olabilir

    • OpenAI’nin 2024’te çok büyük bir zarar yazmadığına ve aylık ziyaret/kullanım hacmi dikkate alındığında inference maliyetlerinin aslında o kadar da yüksek olmadığına dair bir argüman da var
      ChatGPT’nin her ay dünyanın en çok ziyaret edilen sitelerinden biri olduğu ve trafiğin büyük kısmının ücretsiz kullanımdan geldiği düşünülürse, gerçek maliyet sanıldığından düşük olabilir

  • LLM ile ilgili maliyet tahminlerinin dayanağının net olmadığı konusunda şüphe var
    Örneğin uçakta kabin bagajı ölçüleri gibi güncel bilgiler için, kaynak doğrulaması yapabilmesi adına LLM’ye web arama özelliği eklemek daha güvenilir olur
    Bu durumda token tüketimi hızla artabilir ve maliyet tahmini sapabilir,
    özellikle çok turlu konuşmalarda bağlam biriktikçe toplam token kullanımı ciddi biçimde yükselir
    Gerçek kullanım verisi olmadan yalnızca tahminle maliyet hesabı yapmanın zor olduğunu kabul ediyorum

    • Ben LLM’ye güncel haberleri soruyorum, o da birden çok web sayfasını doğrudan okuyup özetleyerek anlatıyor
      Güncel sorular için web araması yapıp referans linkleri de eklediği için bu biçimde kullanılabileceğini düşünüyorum

    • "ABD havayolu DFW-CDG hattında kabin bagajı ölçüsü nedir" diye sorduğumda web araması kullanarak doğru yanıt verdi ve resmi web sitesi ile FAA linklerini de gösterdi
      Bu yaklaşımın kullanım açısından verimli olduğunu düşünüyorum

  • Çip tedarikinin zor olduğu, elektriğin ve ekipmanın pahalı olduğu mevcut ortamda büyük oyuncuların API tabanlı LLM hizmetlerini hemen kârlı hale getirebileceğine inanmıyorum
    Donanım fiyatı ve enerji sorunu çözülmeden bir süre büyük kârlar görmek zor olur
    Örnek olarak, YouTube 20 yıldır çalışmasına rağmen Alphabet’in hâlâ net şekilde kâr edip etmediğini açıklamamasını veriyorum

    • Alphabet’in (Google) büyük kârlılığı arama pazarındaki ezici payı ve reklam gelirlerinden geliyor
      Yapay zeka şirketleri de bir gün pazar payını gelire dönüştürebileceklerine dair bahis oynuyor
      Stickiness oluşursa pazar payından kâra geçişin gayet mümkün olduğunu düşünüyorum

    • Hisse fiyatındaki artışın da bir anlamda şirket kârlılığının bir ölçüsü olabileceğini söylüyor ve Amazon’un 10 yılı aşkın süre benzer bir strateji izlediğini hatırlatıyor

  • OpenAI’nin 2024’te 500 milyon dolar zarar ve 500 milyon MAU verisinden hareketle "500 milyon ücretsiz kullanıcıyı yıllık ortalama 10 dolar ARPU’ya çevirirsek başa baş noktasına ulaşılır" mantığı pratikte gerçekleştirilmesi zor bir varsayım
    Ücretsiz kullanıcılardan 1 dolar bile talep edilse çoğunun ayrılması beklenir,
    dolayısıyla "sadece" kelimesi gerçek dünyayı fazla basitleştiriyor

    • Aslında öneri kullanıcıları ayda 1 dolara ücretli hale getirmek değil; bugünlerde LLM çalıştırmanın çok ucuzladığı ve reklam temelli modelle de rahatça para kazanılabileceği savunuluyor
      Aynı kullanıcı ölçeğindeki reklam tabanlı hizmetlerle karşılaştırınca, LLM’nin bugünkü birim maliyeti çok daha düşük; abonelik tek seçenek değil

    • 500 milyon kişinin ücretli kullanıcıya dönüşmesi, kullanım kalıplarını ve maliyet yapısını tamamen değiştirip giderleri patlatabilir
      Bunun yerine yalnızca %1’inin ücretliye dönüşmesi bile yılda 1 milyar dolar getirebilir gibi basit bir varsayım kurulabilir

    • Ben bu hizmetlerin zararına çalışmasının nedeninin, kullanıcı verisinin değerinin abonelik ücretinden çok daha yüksek olması olduğunu düşünüyorum

    • Gerçekte herkesin ücretli olması gerekmiyor; ücretli kullanıcıların bir kısmının geri kalanları sübvanse ettiği bir yapı bile yeterli olabilir

  • Zamanla pazar payı yoğunlaşması ve regülasyonlardan sonra yatırımcılara vaat edilen fiyat artışlarının gerçeğe dönüşeceği öngörülüyor

    • Ya da reklamdan para kazanma ihtimali yüksek
      Ne sorarsan sor, cevapların arasına Coca-Cola reklamı girer,
      yapay zeka kodlama projelerine otomatik reklam eklenir,
      yapay zekanın gönderdiği her 10. e-postaya sigorta reklamı yerleştirilir
      Yani sonsuz gelir yaratma fırsatı var
  • Şirket içinde LLM işletme maliyetini elektrik tüketimi merkezli hesapladığımızda, iç kullanıcıların burst tarzı isteklerine rağmen 1 milyon token başına ancak 10 küsur dolar seviyesine geldiğini gördük
    Sunucu yükü yüksek değildi; dolayısıyla büyük ölçekte çalıştırılırsa maliyet daha da düşebilir

    • Bu hesabın yalnızca elektrik tüketimine mi dayandığı soruluyor
  • LLM’den alınan tek bir token çıktısının, arama motorundaki tek bir sonuçla aynı düzlemde kıyaslanıp kıyaslanamayacağı konusunda şüphe var
    Yazar, 1.000 LLM çağrısını (yaklaşık 1 milyon token) 1.000 arama sorgusuyla karşılaştırıyor ama
    gerçekte burada 1.000 katlık bir hata olabileceği düşünülüyor
    (Sonraki düzeltme: yazarın yöntemine tekrar bakınca fiyatın gerçekten 1.000 API kullanımı bazında kıyaslandığını ve ilk yorumun yanlış anlama olduğunu gördüm)

    • Yazarın gerçekten 1.000 LLM kullanımı (toplam 1 milyon token) ile 1.000 arama sorgusunun birim fiyatını karşılaştırdığını düzeltiyorum

    • Gemini 2.0 Flash 1 milyon token için 0,4 dolar ve Bing Search API 1.000 sorgu için 15 dolar ise, bu hesaba göre LLM tarafı 37 kat daha ucuz oluyor

  • Verimlilik artışı ve 100 kat maliyet düşüşü bekleniyorsa neden şu anda bu kadar agresif şekilde veri merkezi kuruluyor diye merak ediyorum
    Makine yenileme döngüleriyle mevcut veri merkezleri zaten yeterince kullanılabilir olmaz mıydı diye düşünüyorum,
    ayrıca bugünkü yatırım coşkusunun gerçekten bir balon olabileceği ihtimalini de dile getiriyorum

  • İlgili bir performans karşılaştırma yazısı paylaşılıyor
    Link
    Salt liste fiyatına bakınca bunun pahalı olduğunu düşünüyorum,
    özellikle de pazar payı için aşırı sert rekabet varken bu rakamları tek başına yorumlamak zor