Apple Silicon, OpenRouter'dan daha maliyetli
(williamangel.net)- Yerel çıkarım maliyetinde elektrik faturasından çok cihaz fiyatı belirleyici; M5 Max MacBook Pro 64GB modelinin maliyeti $4,299 olarak hesaplanıyor
- Yük altındaki Apple Silicon dizüstüler 50~100W tüketiyor ve kWh başına $0.20 baz alındığında elektrik maliyeti günde yalnızca yaklaşık $0.48 oluyor
- Gemma4:31b, M5 Max üzerinde saniyede 10~40 token olarak gözlemlendi; bu da milyon token başına maliyetin yaklaşık $0.40~$4.79 aralığına açılmasına neden oluyor
- OpenRouter'daki Gemma4 31b yaklaşık milyon token başına $0.38~$0.50 olduğundan, yalnızca çok iyimser koşullarda MacBook Pro Max ile benzer hale geliyor
- Yerel çıkarım genel olarak OpenRouter'dan daha pahalı ve daha yavaş; muhasebe açısından Pro Max maliyetini milyon token başına yaklaşık 3 kat olarak almak daha uygun
Yerel çıkarım maliyetinin hesaplanması
- Elektrik ücreti, Northern Virginia'daki son fatura temelinde kWh başına $0.18; hesaplamalarda ise daha yüksek alınarak kWh başına $0.20 kullanılıyor
- EIA'nın 2025 ABD konut ortalama elektrik fiyatı kWh başına $0.1730
- Apple Silicon dizüstüleri yük altında 50~100W tüketiyorsa elektrik maliyeti saat başına $0.009~$0.018 ediyor; kabaca saat başına $0.02 olarak hesaplanabilir
- %100 çıkarımı sürekli çalıştırsa bile elektrik maliyeti günlük $0.48 seviyesinde kalıyor
- 14 inç M5 Max MacBook Pro 64GB modeli Apple web sitesine göre $4,299 ve 64GB, Gemma 4 31b gibi modelleri çalıştırmak için yeterli kabul ediliyor
- Donanım ömrü 3 yıl, 5 yıl ve 10 yıl olarak bölündüğünde yıllık maliyet sırasıyla $1,433, $860, $430 oluyor
- Saatlik donanım maliyeti 3 yıl için $0.16358, 5 yıl için $0.09815, 10 yıl için $0.04908 olarak hesaplanıyor
- Genel kullanımda 5 yıl makul bir ömür tahmini; 7 ya da 10 yıl da mümkün, ancak maksimum çıkarım yükünde 3 yıl da makul bir tahmin olabilir
Token başına maliyet ve OpenRouter karşılaştırması
- Yerel model maliyetindeki temel değişken, saatte üretilebilen token sayısı; M5 Max testlerinde Gemma4:31b gibi modeller saniyede 10~40 token aralığındaydı
- Saniyede 10 token, saatte 36,000 token demek; 3~10 yıllık ömür ve kWh başına $0.18 bazında milyon token başına maliyet $1.61~$4.79 olarak hesaplanıyor
- Saniyede 40 token ise saatte 144,000 token ediyor ve milyon token başına maliyet $0.40~$1.20 seviyesine kadar düşüyor
- Apple Silicon'da toplam maliyeti elektrikten çok donanım maliyeti belirliyor
- OpenRouter'daki Gemma4 31b fiyatı milyon token başına yaklaşık $0.38~$0.50
- 50W, saniyede 40 token ve 10 yıllık kullanım gibi iyimser koşullarda MacBook Pro Max, OpenRouter ile benzer maliyet seviyesine iniyor
- 100W, saniyede 10 token ve 3 yıllık kullanım gibi kötümser koşullarda MacBook Pro Max, OpenRouter'dan 10 kat daha pahalı oluyor
- Muhasebe bakış açısından Pro Max üzerindeki yerel çıkarım maliyetini OpenRouter'a kıyasla milyon token başına yaklaşık 3 kat kabul etmek uygun
- Çoğu durumda maliyetten çok çıkarım hızı daha büyük değişken; yerel çıkarım, bulut çıkarımından daha yavaş
- OpenRouter'daki bazı Gemma 4 sağlayıcıları saniyede 60~70 token'a ulaşabiliyor; bu, Pro Max üzerinde gözlemlenen saniyede 10~20 token'a göre 3~7 kat daha hızlı
- İş amaçlı dizüstü kullanan çalışanların maaş maliyeti, yerelde üretilebilen token maliyetinden yaklaşık 1000 kat daha yüksek olduğundan, bu bağlamda maliyeti Anthropic'e ödemek daha mantıklı
- Tüketici cihazlarında Anthropic Sonnet'e yakın performansa sahip bir modeli çalıştırabilmek yine de şaşırtıcı bir sonuç olmaya devam ediyor
1 yorum
Hacker News yorumları
Bu analiz pek iyi değil; çünkü tüm değerleri sürekli yukarı yuvarlayarak hesaplıyor. Elektrik ücretini %10 yüksek alıyor, güç tüketimi aralığında alt değerin 2 katı olan üst sınırı seçiyor, sonra bunu şişirilmiş elektrik ücretiyle çarpıyor
Bir de yeni alınmış bir Mac’in çıkarım için 24 saat tam yükte çalıştırıldığı varsayılıyor. Neden böyle olsun ki? Apple Silicon hızlı ama, yazarın da belirttiği gibi saniyede yaklaşık 10–40 token civarı; kötü değil ama zaten asıl kullanım amacı bu değil
Veri merkezleri ev tipi elektrik tarifesi ödemez, güç verimliliği daha iyi çipler kullanır ve Mac için tasarlanmamış çipler kullanır. Apple Silicon 24/7/365 token yakmıyorsa ve bu amaç için özel olarak yeni donanım almıyorsanız gayet iyi olabilir. Mac Studio’yu haftada birkaç kez gereken işler için kullanırken, tailnet üzerinden ollama’yı “bedavaya yakın” çalıştırabilirsiniz. Mac Studio’yu sıvı soğutmalı bir H100 kümesi gibi kullanmaya çalışmadığınız sürece ekonomik olabilir; çok kiracılı donanım ve ucuz elektrikle watt başına daha fazla token üreten tarafın neredeyse her zaman kazanması da zaten doğal
Eğer yanlış anlamadıysam bu hesap, token üretim maliyetine tüm dizüstü bilgisayarın fiyatını dahil ediyor. Oysa ödediğiniz parayla sadece LLM çıktısı değil, bir dizüstü bilgisayar da almış oluyorsunuz
Bu makineyi karanlık bir köşeye koyup yalnızca token yiyen bir sunucu gibi çalıştırmayı düşünüyorsanız, dizüstü bu amaç için gerçekten kötü bir teknik tercih. Ama dizüstüyü dizüstü olarak da kullanacaksanız, dizüstü sahibi olmak hiç sahip olmamaktan çok daha büyük bir avantaj
Ayrıca gizlilik, sansürden bağımsızlık ve kullandığınız model üzerinde kontrol de elde ediyorsunuz. Belirli bir modelin özelliklerine göre iş akışı kurup 3 ay sonra o modelin bir anda ortadan kaybolması riskini yaşamazsınız
Bu kişilerden şaşırtıcı derecede çoğu Mac Studio’ya $10,000’dan fazla harcadı ama hâlâ hesaplama darboğazı yaşıyor ve Gemma 4’ten daha verimli seçenekleri de pek yok
Sınır yapay zeka şirketleri zararına satış yapıyor
u/bastawhiz’in söylediği[0] her şeyi bir kenara bıraksak bile Claude, OpenAI, Gemini ve diğerleri kelimenin tam anlamıyla yüz milyarlarca dolar yakıyor; son hayatta kalan olmak umuduyla 1 dolarlık şeyi birkaç sente yeniden satıyorlar
Ben portakal yetiştirmek için $10 harcayıp onu $1’a satıyorsam, elbette kendin yetiştirmek daha pahalı görünür. Bu modeller zamanla daha pahalı olmak zorunda ve bunlar sadece büyük zararına satış yapmayı bırakmadan önce pazarı ele geçirmeye çalışıyor
[0]: https://news.ycombinator.com/item?id=48168433
Ayrıca ölçek büyüdükçe çıkarımın çok daha verimli hâle gelmesinin teknik nedenleri de var
LLAMA 3.1 405B, 2024’te milyon token başına $6/$12 idi ama 2026’da aynı model $3/$3. Belirli bir andaki en zeki modeller öncekilerden çok daha büyük olduğu için GPT5.5 token maliyetinin 5.4’ten yüksek olması normal. Ama 2 yıl sonra GPT5.5 boyutunda bir modeli sunmanın maliyeti muhtemelen bugünkü GPT5.5’ten daha düşük olacak. Distilasyon teknikleri, aynı benchmark puanı için gereken parametre sayısını azaltmada etkili olduğundan, 2 yıl sonra aynı düzeyde zekâyı daha ucuza elde etmek de mümkün olacaktır
İyi bir dense model istiyorsanız qwen3.6 27B kullanmak daha mantıklı. Hem daha hızlı hem de bana göre daha akıllı; bana inanmıyorsanız, daha büyük, daha yavaş ve bellek verimliliği daha düşük Gemma ile karşılaştırıldığında OpenRouter fiyatları zaten bunu gösteriyor
Daha hızlı bir model istiyorsanız qwen3.6 35B kullanabilirsiniz. Gemma modeli sizin işinize daha uygunsa gemma 4 26B de olur. İnsanların, ben dahil, özellikle 27B hakkında durmadan konuşmasının bir nedeni var. Yeterince küçük olduğu için iyi bir hızda çalışıyor; özellikle de llama.cpp’nin resmen desteklediği yerleşik MTP sayesinde. Birçok iş yükünde ve benim denediğim tüm benchmark’larda, aslında başa baş bile gelmemesi gereken modellerle yarışıyor ya da onları geçiyor
Birkaç gün önce internet kesikken uyandım, pi üzerinde 27B’yi açtım, yönlendirici parolasını verip sorunun ne olduğunu teşhis etmesini istedim. Kahve alıp döndüğümde, nasıl ilerlemem gerektiğine dair öneriler içeren tam bir rapor hazırdı. OpenRouter’ı seviyorum ve birçok amaçla kullanıyorum ama daha ucuz değil
Elbette bütün bunlar, bu modellerin hepsini kullanmış birinin öznel deneyimlerini de içeriyor. 31B Gemma’nın öne geçtiği durumlar olabilir ama ben bulamadım; adı geçen 4 modeli de yayınlandıktan birkaç saat sonra çeşitli işlerde sürekli çalıştırıyorum. Hatta benim hermes kurulumumda gemma 4 26B’den qwen3.5 9B’ye geçince sonuçlar daha iyi oldu; üstelik bu, büyük ölçüde iyileştirilmiş 3.6 serisi bile değildi. Böyle bir analiz yaparken mevcut tüketici donanımı açısından son teknoloji kabul edilen modelleri kullanmamak bana eski ya da seçmeci geliyor
Benzer şekilde DeepSeek V4 Flash da yerel model olarak oldukça erişilebilir ve DwarfStar 4 kullanırsanız 96GB MacBook’ta rahatça çalıştırabilirsiniz
Çıkarım için para ödemek başlı başına sorun değil ama yerel modeller; tamamen çevrimdışı kullanım, kişisel tanımlayıcı bilgi veya hukuken gizli verilerle çalışma ve kullanım limitlerini hiç düşünmeden işlem yapma gibi gerçekten etkileyici olanaklar sunuyor
Bir başka nokta da, kesinti ya da kapanma endişesi olmadan %100 çalışmaya devam edeceğinden emin olduğunuz hizmetler kurabilmeniz. Sınır modellerde şu an bu bir sorun. Benim yerel Qwen kurulumum tamamen öngörülebilir ve onu çalıştıracak donanımı bulabildiğim sürece çalışmaya devam eder
Mantıklı strateji ikisini de kullanmak. Yerel çıkarım araçlarınız olsun, yanında ucuz ve pahalı bulut modelleri de kullanın. GPT-5.5 ve Opus-4.7’yi zor akıl yürütme işleri gibi gerçekten iyi oldukları alanlarda, ikincisini Claude aboneliğiyle dolaylı olarak daha ucuza kullanın; biraz daha az zorlu işler için DeepSeek V4 Pro, çoğu kod üretimi için V4 Flash, yerel model gereken işler için de yerel modeli kullanın
O sağlayıcılar sanki Alibaba’nın 27B Dense ilk fiyatlandırmasını takip ediyor ve bence kişisel olarak biraz pahalı. Bunun nedeni Qwen modellerinin sınır modellerine ya da Gemma’ya kıyasla çıkarım verimliliğinin daha düşük olması ve uzun bağlam uzunluğu sunmanın pahalı olması olabilir
27B ile hata ayıklama örneği güzelmiş. Belleği 4 kat fazla olan bir Mac aldıktan sonra ben de benzer başarı gördüm ve Qwen 35B A3B bir anda çok iyi sonuç vermeye başladı. Dizüstündeki 9B içinse iyi demek zordu
Burada asıl yazıdaki analiz sorunlarını ele alan çok yorum var ama daha geniş sonuç açısından bakınca bunun büyük kısmı “farksız ayrım” gibi geliyor. Gizliliği bir kenara bırakıp yalnızca maliyet ve performansa bakarsanız, bireysel geliştiricinin kendi barındırması yerine barındırılan bir hizmet kullanması daha mantıklı
İşte işveren token maliyetini ödüyor; iş dışında ise çoğu geliştirici tercih ettiği sağlayıcının aylık $20/$100/$200 aboneliğini yeterli buluyor. Salt maliyet/performans açısından yerel model çalıştırmanın anlamlı olduğu koşullara giren geliştirici sayısı çok değil
Daha da önemlisi, pratikte yerel model kurup çalıştırmak; para tasarrufu ya da üretkenlik artışından çok bir hobi, öğrenme aracı ya da gizlilik kontrolü gibi görünüyor
Kişisel bilgisayarlar önceki terminal dönemini bitirdi; bu şirketlerin çoğu yok oldu, IBM ve birkaç kalıntı firma kaldı ama onlar da eski güçlerinin gölgesi
Yazar yalnızca çıktı token maliyetini karşılaştırmış ama tipik ajan tipi iş yüklerinde girdi token’ları da maliyetin büyük kısmını oluşturur. Yerel çıkarımda girdi token’ları temelde ücretsizdir
Sadece daha uzun ilk token gecikmesi, daha yüksek güç tüketimi ve daha düşük çıktı token hızı gibi dolaylı maliyetler olur
OpenRouter etkinliğimde rastgele birkaç ajan oturumuna baktım; girdi maliyeti çıktı maliyetinin 10 katıydı. OpenRouter’ın prompt caching sistemi karmaşık ve güvenmesi zor; ama yerel donanımda llama-cpp ile çoğunlukla neredeyse bedava
Akıllıca davranırsanız öyle değil. MacBook M5 Max 128GB, 6 bin dolarlık premium bir dizüstü ama pek çok işi yapabilen ve gün boyu kullanılan harika bir ana makine
Üstüne DeepSeek V4 Flash’ı çalıştırıp sansür ya da kısıtlama olmadan, internet bağlantısı gerektirmeden, çok hassas kişisel verilerle, küçümsenmeyecek iş yüklerini yerelde işleyebilirsiniz. Bu iyi bir anlaşma. OpenAI ve benzerlerini tamamen bırakmak için 25 bin dolarlık çift Mac Studio 512GB alırsanız hem performans hem maliyet açısından hayal kırıklığı yaşarsınız
Blog yazarı olarak, bu yorumu MacBook M5 Max 128GB’den yazıyorum
Bunların hiçbirini sürekli %100 yapmıyorum. Geceleri makine öğrenimi eğitimini çalıştırıp sabah sonucu kontrol ediyorum, iş sırasında sunucu gibi açık bırakıp yerel modelleri çalıştırıyorum, boş zamanımda video düzenleme ve 3D modelleme yapıyorum. İnanılmaz derecede çok yönlü bir makine ve tüm bunlar veriyi cihaz içinde tutarak, iş akışım üzerinde tam kontrol sağlayarak oluyor
Bir başka herkesin bildiği sır da, bazı şirketlerin Gemini 3.1 ya da GLM 4.6 gibi gayet iyi modellerle on binlerce token’ı ücretsiz verdiği
Asıl yazı çeşitli yerlerde Gemma ile karşılaştırma yapıyor ama sonuçta Anthropic’e para vermenin daha iyi olduğunu söylüyor. Oysa Anthropic, milyon çıktı token’ı başına $15 istiyor; bu da OpenRouter ölçütüne göre bile 30–35 kat daha pahalı
Bu, evdeki elektrikli bisiklet ile elektrikli bisiklet kiralamayı karşılaştırıp, benzer hızlara çıkabildikleri için gidip Toyota kiralamanız gerektiği sonucuna varmak gibi. Kötü yazıların bu kadar ilgi görmesinden yoruldum
Yazı son kısımda büyük bir hata yapıyor ve bu yüzden ciddi biçimde yanlış. Sadece üretilen token’lara bakıp bunun maliyet olduğunu söyleyemezsiniz. Ajan tipi kodlama işlerinde çok sayıda tur olduğu için sadece çıktı token’larının değil, her seferinde gönderilen tüm girdi token’larının da parasını ödüyorsunuz. Cache’lenirse 10 kat ucuzlaması da durumu değiştirmiyor. Bu yüzden bu hesap API maliyetini hiç doğru yansıtmıyor
İkinci olarak, ajan ekipleri kullanırsanız yerel token üretimini ciddi biçimde artırabilirsiniz. Tek bir konuşma bellek bant genişliğiyle sınırlı kalır ve hesaplama kaynaklarını tam kullanamaz. Birden fazla ajanın token’ını batch edebilirseniz token üretimini rahatlıkla 5 kat artırabilirsiniz
Bulut yapay zekâ ile asla idare edemem. Benim için hız ya da en gelişmiş modellerden daha önemli olan şey gizlilik ve tam kontrol
Benim için bu çatı üstü güneş enerjisi ile aynı kategoride. Eğer altyapı üzerinde kontrol ve bağımlılıkların azalmasından iç huzuru bulan biriyseniz, katı ekonomik mantığın birebir tutması şart değil