1 puan yazan GN⁺ 3 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Yerel çıkarım maliyetinde elektrik faturasından çok cihaz fiyatı belirleyici; M5 Max MacBook Pro 64GB modelinin maliyeti $4,299 olarak hesaplanıyor
  • Yük altındaki Apple Silicon dizüstüler 50~100W tüketiyor ve kWh başına $0.20 baz alındığında elektrik maliyeti günde yalnızca yaklaşık $0.48 oluyor
  • Gemma4:31b, M5 Max üzerinde saniyede 10~40 token olarak gözlemlendi; bu da milyon token başına maliyetin yaklaşık $0.40~$4.79 aralığına açılmasına neden oluyor
  • OpenRouter'daki Gemma4 31b yaklaşık milyon token başına $0.38~$0.50 olduğundan, yalnızca çok iyimser koşullarda MacBook Pro Max ile benzer hale geliyor
  • Yerel çıkarım genel olarak OpenRouter'dan daha pahalı ve daha yavaş; muhasebe açısından Pro Max maliyetini milyon token başına yaklaşık 3 kat olarak almak daha uygun

Yerel çıkarım maliyetinin hesaplanması

  • Elektrik ücreti, Northern Virginia'daki son fatura temelinde kWh başına $0.18; hesaplamalarda ise daha yüksek alınarak kWh başına $0.20 kullanılıyor
  • EIA'nın 2025 ABD konut ortalama elektrik fiyatı kWh başına $0.1730
  • Apple Silicon dizüstüleri yük altında 50~100W tüketiyorsa elektrik maliyeti saat başına $0.009~$0.018 ediyor; kabaca saat başına $0.02 olarak hesaplanabilir
  • %100 çıkarımı sürekli çalıştırsa bile elektrik maliyeti günlük $0.48 seviyesinde kalıyor
  • 14 inç M5 Max MacBook Pro 64GB modeli Apple web sitesine göre $4,299 ve 64GB, Gemma 4 31b gibi modelleri çalıştırmak için yeterli kabul ediliyor
  • Donanım ömrü 3 yıl, 5 yıl ve 10 yıl olarak bölündüğünde yıllık maliyet sırasıyla $1,433, $860, $430 oluyor
  • Saatlik donanım maliyeti 3 yıl için $0.16358, 5 yıl için $0.09815, 10 yıl için $0.04908 olarak hesaplanıyor
  • Genel kullanımda 5 yıl makul bir ömür tahmini; 7 ya da 10 yıl da mümkün, ancak maksimum çıkarım yükünde 3 yıl da makul bir tahmin olabilir

Token başına maliyet ve OpenRouter karşılaştırması

  • Yerel model maliyetindeki temel değişken, saatte üretilebilen token sayısı; M5 Max testlerinde Gemma4:31b gibi modeller saniyede 10~40 token aralığındaydı
  • Saniyede 10 token, saatte 36,000 token demek; 3~10 yıllık ömür ve kWh başına $0.18 bazında milyon token başına maliyet $1.61~$4.79 olarak hesaplanıyor
  • Saniyede 40 token ise saatte 144,000 token ediyor ve milyon token başına maliyet $0.40~$1.20 seviyesine kadar düşüyor
  • Apple Silicon'da toplam maliyeti elektrikten çok donanım maliyeti belirliyor
  • OpenRouter'daki Gemma4 31b fiyatı milyon token başına yaklaşık $0.38~$0.50
  • 50W, saniyede 40 token ve 10 yıllık kullanım gibi iyimser koşullarda MacBook Pro Max, OpenRouter ile benzer maliyet seviyesine iniyor
  • 100W, saniyede 10 token ve 3 yıllık kullanım gibi kötümser koşullarda MacBook Pro Max, OpenRouter'dan 10 kat daha pahalı oluyor
  • Muhasebe bakış açısından Pro Max üzerindeki yerel çıkarım maliyetini OpenRouter'a kıyasla milyon token başına yaklaşık 3 kat kabul etmek uygun
  • Çoğu durumda maliyetten çok çıkarım hızı daha büyük değişken; yerel çıkarım, bulut çıkarımından daha yavaş
  • OpenRouter'daki bazı Gemma 4 sağlayıcıları saniyede 60~70 token'a ulaşabiliyor; bu, Pro Max üzerinde gözlemlenen saniyede 10~20 token'a göre 3~7 kat daha hızlı
  • İş amaçlı dizüstü kullanan çalışanların maaş maliyeti, yerelde üretilebilen token maliyetinden yaklaşık 1000 kat daha yüksek olduğundan, bu bağlamda maliyeti Anthropic'e ödemek daha mantıklı
  • Tüketici cihazlarında Anthropic Sonnet'e yakın performansa sahip bir modeli çalıştırabilmek yine de şaşırtıcı bir sonuç olmaya devam ediyor

1 yorum

 
GN⁺ 3 시간 전
Hacker News yorumları
  • Bu analiz pek iyi değil; çünkü tüm değerleri sürekli yukarı yuvarlayarak hesaplıyor. Elektrik ücretini %10 yüksek alıyor, güç tüketimi aralığında alt değerin 2 katı olan üst sınırı seçiyor, sonra bunu şişirilmiş elektrik ücretiyle çarpıyor
    Bir de yeni alınmış bir Mac’in çıkarım için 24 saat tam yükte çalıştırıldığı varsayılıyor. Neden böyle olsun ki? Apple Silicon hızlı ama, yazarın da belirttiği gibi saniyede yaklaşık 10–40 token civarı; kötü değil ama zaten asıl kullanım amacı bu değil
    Veri merkezleri ev tipi elektrik tarifesi ödemez, güç verimliliği daha iyi çipler kullanır ve Mac için tasarlanmamış çipler kullanır. Apple Silicon 24/7/365 token yakmıyorsa ve bu amaç için özel olarak yeni donanım almıyorsanız gayet iyi olabilir. Mac Studio’yu haftada birkaç kez gereken işler için kullanırken, tailnet üzerinden ollama’yı “bedavaya yakın” çalıştırabilirsiniz. Mac Studio’yu sıvı soğutmalı bir H100 kümesi gibi kullanmaya çalışmadığınız sürece ekonomik olabilir; çok kiracılı donanım ve ucuz elektrikle watt başına daha fazla token üreten tarafın neredeyse her zaman kazanması da zaten doğal

    • Her şeyi en iyimser ayarlarla aşağı çekseniz bile milyon token başına $0.40 çıkmış; OpenRouter’da aynı model milyon token başına $0.38
    • Yazının kendisi mantıksız. OpenRouter’ı genel amaçlı bir bilgisayar olarak kullanamazsınız; o halde neden tüm bir bilgisayarı tek amaçlı bir SaaS ile karşılaştırıyorsunuz
    • Saniyede 40 token rakamının nereden geldiğini bilmiyorum. M5 Max 128GB’de Gemma 4 31B çalıştırırken saniyede 95–100 token gördüm. Hatta aynı prompt ile Claude Opus 4.5’ten daha hızlı olduğu denemelerim de oldu
    • Aslında token’ların 24 saat üretildiğini varsaymak en iyi durum hesabı. Günde 8 saat gerçek kullanım üzerinden hesaplarsanız donanımın sabit maliyeti hâlâ bütçenin en büyük kısmı olur ama üretilen token sayısı 1/3’e düşer; dolayısıyla token başı maliyet 3 katına çıkar
  • Eğer yanlış anlamadıysam bu hesap, token üretim maliyetine tüm dizüstü bilgisayarın fiyatını dahil ediyor. Oysa ödediğiniz parayla sadece LLM çıktısı değil, bir dizüstü bilgisayar da almış oluyorsunuz
    Bu makineyi karanlık bir köşeye koyup yalnızca token yiyen bir sunucu gibi çalıştırmayı düşünüyorsanız, dizüstü bu amaç için gerçekten kötü bir teknik tercih. Ama dizüstüyü dizüstü olarak da kullanacaksanız, dizüstü sahibi olmak hiç sahip olmamaktan çok daha büyük bir avantaj
    Ayrıca gizlilik, sansürden bağımsızlık ve kullandığınız model üzerinde kontrol de elde ediyorsunuz. Belirli bir modelin özelliklerine göre iş akışı kurup 3 ay sonra o modelin bir anda ortadan kaybolması riskini yaşamazsınız

    • Daha iyi bir ölçüt, yerel modeli çalıştırmak için gereken dizüstü ile zaten alacağınız dizüstü arasındaki fiyat farkı olabilir
    • Model üzerinde kontrol kazanırsınız ama en yüksek performanslı modellere erişemez, yalnızca daha küçük modelleri çalıştırabilirsiniz
    • Sadece LLM çıktısı değil, dizüstü bilgisayarı da alıyorsunuz; ayrıca Mac ise yükseltme sırasında ikinci el değeri de epey kalacaktır
    • OpenRouter ile Cyberpunk 2077’yi 5K HDR en yüksek ayarlarda oynayamazsınız
    • Asıl yazı, Mac biriktirme takıntısı olan insanlara kıyasla mutlak en iyi senaryoyu göstermiş oluyor
      Bu kişilerden şaşırtıcı derecede çoğu Mac Studio’ya $10,000’dan fazla harcadı ama hâlâ hesaplama darboğazı yaşıyor ve Gemma 4’ten daha verimli seçenekleri de pek yok
  • Sınır yapay zeka şirketleri zararına satış yapıyor
    u/bastawhiz’in söylediği[0] her şeyi bir kenara bıraksak bile Claude, OpenAI, Gemini ve diğerleri kelimenin tam anlamıyla yüz milyarlarca dolar yakıyor; son hayatta kalan olmak umuduyla 1 dolarlık şeyi birkaç sente yeniden satıyorlar
    Ben portakal yetiştirmek için $10 harcayıp onu $1’a satıyorsam, elbette kendin yetiştirmek daha pahalı görünür. Bu modeller zamanla daha pahalı olmak zorunda ve bunlar sadece büyük zararına satış yapmayı bırakmadan önce pazarı ele geçirmeye çalışıyor
    [0]: https://news.ycombinator.com/item?id=48168433

    • Bu pek olası görünmüyor. OpenRouter’da açık modeller sunan birçok sağlayıcı var; bunların sattıkları her token’da para kaybettiklerini düşünmek zor
      Ayrıca ölçek büyüdükçe çıkarımın çok daha verimli hâle gelmesinin teknik nedenleri de var
    • Blog, Gemma4 31B çalıştırma maliyetini karşılaştırıyor; OpenRouter’da bu modeli sınır yapay zeka şirketleri değil, küçük ve tanınmayan çıkarım sağlayıcıları sunuyor. Oldukça adil bir karşılaştırma gibi görünüyor
    • Yine de ölçek verimliliği çok daha yüksek olabilir. Benim mevcut iş yükümle yerel modeli 24 saat %98 kullanımda tutamam ama büyük bulutlar tutabilir. Sunucumu doğru akımla da besleyemiyorum; alternatif akımı doğru akıma çevirmenin verimsizliği de var. Bu tür etkenler uzayıp gidiyor
    • Bu doğru değil. API token’ları zararına satılmıyor ve donanım zamanla daha verimli hâle geldiği için aynı model için çıkarım sunma maliyeti düşüyor
      LLAMA 3.1 405B, 2024’te milyon token başına $6/$12 idi ama 2026’da aynı model $3/$3. Belirli bir andaki en zeki modeller öncekilerden çok daha büyük olduğu için GPT5.5 token maliyetinin 5.4’ten yüksek olması normal. Ama 2 yıl sonra GPT5.5 boyutunda bir modeli sunmanın maliyeti muhtemelen bugünkü GPT5.5’ten daha düşük olacak. Distilasyon teknikleri, aynı benchmark puanı için gereken parametre sayısını azaltmada etkili olduğundan, 2 yıl sonra aynı düzeyde zekâyı daha ucuza elde etmek de mümkün olacaktır
    • Bunun kanıtı var mı? Anthropic CEO’su şirketin kârlı olduğunu söyledi, OpenAI de aynı şeyi söyledi
  • İyi bir dense model istiyorsanız qwen3.6 27B kullanmak daha mantıklı. Hem daha hızlı hem de bana göre daha akıllı; bana inanmıyorsanız, daha büyük, daha yavaş ve bellek verimliliği daha düşük Gemma ile karşılaştırıldığında OpenRouter fiyatları zaten bunu gösteriyor
    Daha hızlı bir model istiyorsanız qwen3.6 35B kullanabilirsiniz. Gemma modeli sizin işinize daha uygunsa gemma 4 26B de olur. İnsanların, ben dahil, özellikle 27B hakkında durmadan konuşmasının bir nedeni var. Yeterince küçük olduğu için iyi bir hızda çalışıyor; özellikle de llama.cpp’nin resmen desteklediği yerleşik MTP sayesinde. Birçok iş yükünde ve benim denediğim tüm benchmark’larda, aslında başa baş bile gelmemesi gereken modellerle yarışıyor ya da onları geçiyor
    Birkaç gün önce internet kesikken uyandım, pi üzerinde 27B’yi açtım, yönlendirici parolasını verip sorunun ne olduğunu teşhis etmesini istedim. Kahve alıp döndüğümde, nasıl ilerlemem gerektiğine dair öneriler içeren tam bir rapor hazırdı. OpenRouter’ı seviyorum ve birçok amaçla kullanıyorum ama daha ucuz değil
    Elbette bütün bunlar, bu modellerin hepsini kullanmış birinin öznel deneyimlerini de içeriyor. 31B Gemma’nın öne geçtiği durumlar olabilir ama ben bulamadım; adı geçen 4 modeli de yayınlandıktan birkaç saat sonra çeşitli işlerde sürekli çalıştırıyorum. Hatta benim hermes kurulumumda gemma 4 26B’den qwen3.5 9B’ye geçince sonuçlar daha iyi oldu; üstelik bu, büyük ölçüde iyileştirilmiş 3.6 serisi bile değildi. Böyle bir analiz yaparken mevcut tüketici donanımı açısından son teknoloji kabul edilen modelleri kullanmamak bana eski ya da seçmeci geliyor

    • Evet. Qwen 3.6 45b(6 parameter) sıradan bir RTX 5090 üzerinde çalışıyor; oyun seviyorsanız zaten elinizde olma ihtimali de yüksek. Çoğu kod üretme işi için fazlasıyla kullanılabilir
      Benzer şekilde DeepSeek V4 Flash da yerel model olarak oldukça erişilebilir ve DwarfStar 4 kullanırsanız 96GB MacBook’ta rahatça çalıştırabilirsiniz
      Çıkarım için para ödemek başlı başına sorun değil ama yerel modeller; tamamen çevrimdışı kullanım, kişisel tanımlayıcı bilgi veya hukuken gizli verilerle çalışma ve kullanım limitlerini hiç düşünmeden işlem yapma gibi gerçekten etkileyici olanaklar sunuyor
      Bir başka nokta da, kesinti ya da kapanma endişesi olmadan %100 çalışmaya devam edeceğinden emin olduğunuz hizmetler kurabilmeniz. Sınır modellerde şu an bu bir sorun. Benim yerel Qwen kurulumum tamamen öngörülebilir ve onu çalıştıracak donanımı bulabildiğim sürece çalışmaya devam eder
      Mantıklı strateji ikisini de kullanmak. Yerel çıkarım araçlarınız olsun, yanında ucuz ve pahalı bulut modelleri de kullanın. GPT-5.5 ve Opus-4.7’yi zor akıl yürütme işleri gibi gerçekten iyi oldukları alanlarda, ikincisini Claude aboneliğiyle dolaylı olarak daha ucuza kullanın; biraz daha az zorlu işler için DeepSeek V4 Pro, çoğu kod üretimi için V4 Flash, yerel model gereken işler için de yerel modeli kullanın
    • İddiaya katılıyorum ama qwen3.6 27B fiyatını öyle okumak doğru mu emin değilim
      O sağlayıcılar sanki Alibaba’nın 27B Dense ilk fiyatlandırmasını takip ediyor ve bence kişisel olarak biraz pahalı. Bunun nedeni Qwen modellerinin sınır modellerine ya da Gemma’ya kıyasla çıkarım verimliliğinin daha düşük olması ve uzun bağlam uzunluğu sunmanın pahalı olması olabilir
    • Kuantize edilmiş modelleri birbirine göre nasıl değerlendirdiğinizi merak ediyorum. Hâlâ gerçekten sevdiğim bir benchmark bulamadım
      27B ile hata ayıklama örneği güzelmiş. Belleği 4 kat fazla olan bir Mac aldıktan sonra ben de benzer başarı gördüm ve Qwen 35B A3B bir anda çok iyi sonuç vermeye başladı. Dizüstündeki 9B içinse iyi demek zordu
  • Burada asıl yazıdaki analiz sorunlarını ele alan çok yorum var ama daha geniş sonuç açısından bakınca bunun büyük kısmı “farksız ayrım” gibi geliyor. Gizliliği bir kenara bırakıp yalnızca maliyet ve performansa bakarsanız, bireysel geliştiricinin kendi barındırması yerine barındırılan bir hizmet kullanması daha mantıklı
    İşte işveren token maliyetini ödüyor; iş dışında ise çoğu geliştirici tercih ettiği sağlayıcının aylık $20/$100/$200 aboneliğini yeterli buluyor. Salt maliyet/performans açısından yerel model çalıştırmanın anlamlı olduğu koşullara giren geliştirici sayısı çok değil
    Daha da önemlisi, pratikte yerel model kurup çalıştırmak; para tasarrufu ya da üretkenlik artışından çok bir hobi, öğrenme aracı ya da gizlilik kontrolü gibi görünüyor

    • Model üreticilerinin hayalini kurduğu ana bilgisayar tarzı bilişim; OpenAI, Google, Anthropic ve Microsoft ne isterse istesin geri gelmeyecek. Kapıda içeri girmek isteyen çok fazla zeki teknoloji barbari var ve bunlar bilgisayar terminali dönemine geri dönmeye razı olmayacak
      Kişisel bilgisayarlar önceki terminal dönemini bitirdi; bu şirketlerin çoğu yok oldu, IBM ve birkaç kalıntı firma kaldı ama onlar da eski güçlerinin gölgesi
  • Yazar yalnızca çıktı token maliyetini karşılaştırmış ama tipik ajan tipi iş yüklerinde girdi token’ları da maliyetin büyük kısmını oluşturur. Yerel çıkarımda girdi token’ları temelde ücretsizdir
    Sadece daha uzun ilk token gecikmesi, daha yüksek güç tüketimi ve daha düşük çıktı token hızı gibi dolaylı maliyetler olur

    • Evet, bu nokta yazarın tezini tamamen çökertiyor
      OpenRouter etkinliğimde rastgele birkaç ajan oturumuna baktım; girdi maliyeti çıktı maliyetinin 10 katıydı. OpenRouter’ın prompt caching sistemi karmaşık ve güvenmesi zor; ama yerel donanımda llama-cpp ile çoğunlukla neredeyse bedava
    • Yerel kurulumun daha iyi caching avantajını görmezden gelseniz bile, Mac donanımı çoğu zaman girdi token’larını çıktı token’larından yaklaşık 10 kat daha hızlı işler. OpenRouter’da aynı model için fark yaklaşık 2 kat gibi görünüyor
  • Akıllıca davranırsanız öyle değil. MacBook M5 Max 128GB, 6 bin dolarlık premium bir dizüstü ama pek çok işi yapabilen ve gün boyu kullanılan harika bir ana makine
    Üstüne DeepSeek V4 Flash’ı çalıştırıp sansür ya da kısıtlama olmadan, internet bağlantısı gerektirmeden, çok hassas kişisel verilerle, küçümsenmeyecek iş yüklerini yerelde işleyebilirsiniz. Bu iyi bir anlaşma. OpenAI ve benzerlerini tamamen bırakmak için 25 bin dolarlık çift Mac Studio 512GB alırsanız hem performans hem maliyet açısından hayal kırıklığı yaşarsınız

    • Akıllı seçim, günlük kullanım için yaklaşık 48GB MacBook alıp yapay zeka abonelikleri veya token’lar için yılda yaklaşık $800 bütçe ayırmak olur. Sonunda benzer fiyat seviyesine gelirsiniz
      Blog yazarı olarak, bu yorumu MacBook M5 Max 128GB’den yazıyorum
    • Benim M4 Max 128GB sonunda oldukça mantıklı bir tercih oldu. Video düzenleme, makine öğrenimi modeli eğitimi, büyük açık yapay zeka modellerini çalıştırma, 3D modelleme, render ve CAD işleri yapıyorum
      Bunların hiçbirini sürekli %100 yapmıyorum. Geceleri makine öğrenimi eğitimini çalıştırıp sabah sonucu kontrol ediyorum, iş sırasında sunucu gibi açık bırakıp yerel modelleri çalıştırıyorum, boş zamanımda video düzenleme ve 3D modelleme yapıyorum. İnanılmaz derecede çok yönlü bir makine ve tüm bunlar veriyi cihaz içinde tutarak, iş akışım üzerinde tam kontrol sağlayarak oluyor
    • HN kullanıcıları için bir sır ama bu modellerin bazısı $200’lık rpi5 veya $500’lık AMD mini PC’de bile çalışabiliyor
      Bir başka herkesin bildiği sır da, bazı şirketlerin Gemini 3.1 ya da GLM 4.6 gibi gayet iyi modellerle on binlerce token’ı ücretsiz verdiği
  • Asıl yazı çeşitli yerlerde Gemma ile karşılaştırma yapıyor ama sonuçta Anthropic’e para vermenin daha iyi olduğunu söylüyor. Oysa Anthropic, milyon çıktı token’ı başına $15 istiyor; bu da OpenRouter ölçütüne göre bile 30–35 kat daha pahalı
    Bu, evdeki elektrikli bisiklet ile elektrikli bisiklet kiralamayı karşılaştırıp, benzer hızlara çıkabildikleri için gidip Toyota kiralamanız gerektiği sonucuna varmak gibi. Kötü yazıların bu kadar ilgi görmesinden yoruldum

  • Yazı son kısımda büyük bir hata yapıyor ve bu yüzden ciddi biçimde yanlış. Sadece üretilen token’lara bakıp bunun maliyet olduğunu söyleyemezsiniz. Ajan tipi kodlama işlerinde çok sayıda tur olduğu için sadece çıktı token’larının değil, her seferinde gönderilen tüm girdi token’larının da parasını ödüyorsunuz. Cache’lenirse 10 kat ucuzlaması da durumu değiştirmiyor. Bu yüzden bu hesap API maliyetini hiç doğru yansıtmıyor
    İkinci olarak, ajan ekipleri kullanırsanız yerel token üretimini ciddi biçimde artırabilirsiniz. Tek bir konuşma bellek bant genişliğiyle sınırlı kalır ve hesaplama kaynaklarını tam kullanamaz. Birden fazla ajanın token’ını batch edebilirseniz token üretimini rahatlıkla 5 kat artırabilirsiniz

  • Bulut yapay zekâ ile asla idare edemem. Benim için hız ya da en gelişmiş modellerden daha önemli olan şey gizlilik ve tam kontrol

    • Öngörülebilirlik, dayanıklılık ve egemenlik de var. Başkalarının kesintileri, beklenmedik talebin tam kötü bir anda sizi etkilemesi, birinin modelinizi budaması, maliyetlerin öngörülemez biçimde değişmesi ya da beklenmedik bir hatanın size dev bir fatura çıkarması gibi şeyleri dert etmenize gerek kalmaz
      Benim için bu çatı üstü güneş enerjisi ile aynı kategoride. Eğer altyapı üzerinde kontrol ve bağımlılıkların azalmasından iç huzuru bulan biriyseniz, katı ekonomik mantığın birebir tutması şart değil