- Yerel modeller, geliştirme işlerinin yaklaşık %90’ını yeterince yapabilir, ancak kalan %10’luk hassas işlerde ticari hizmetler hâlâ üstün
- Maliyet tasarrufu, güvenlik ve erişilebilirlik açısından yerel modellerin avantajı büyük; özellikle kişisel projelerde veya çevrimdışı ortamlarda faydalı
- Ancak araç uyumluluğu, bellek kısıtları ve kurulum karmaşıklığı, gerçek iş ortamında kullanıma yönelik başlıca engeller olarak gösteriliyor
- Yerel modeller hobi projeleri için yararlı olsa da, prodüksiyon ortamı veya kurumsal kullanım için uygun değil; frontier araçların yardımcı unsuru olarak kullanılması daha gerçekçi
- Google’ın ücretsiz yapay zeka kodlama araçlarının (Gemini CLI, Jules vb.) ortaya çıkmasıyla yerel modellerin maliyet tasarrufu etkisi büyük ölçüde dengelendi
Orijinal Metin Düzeltme Duyurusu
- İlk hipotezin yanlış olduğunu kabul ediyor ve okurların finansal kararlarını etkileyebileceği için düzeltme yayımlıyor
- Yerel modellerin kodlama işlerinde gördüğünden de fazla ölçüde yeterince yetkin olduğu görüşü hâlâ geçerli
- Ancak kodlama aboneliklerini iptal edip MacBook Pro satın alma tavsiyesi geri çekiliyor
- Ampirik doğrulama olmadan iddia öne sürülmesi, hatanın temel nedeni oldu
-
Hipotezin Yanlış Olmasının Somut Nedenleri
- Yerel modeller yazılım geliştirme işlerinin yaklaşık %90’ını yapabiliyor, ancak son %10 en kritik kısım ve bunun için frontier model maliyetini ödemeye değer
- Yaklaşım hobi geliştirici bakış açısından ele alınmıştı; ancak prodüksiyon ortamında şirketlerin çalışanlarına Claude Code gibi araçlar sağlaması öneriliyor
- Docker gibi RAM tüketen başka geliştirme araçları da birlikte çalıştırıldığında model boyutunu küçültmek gerekiyor ve performans ciddi biçimde düşüyor
- Sonuç olarak yerel modeller frontier modeller için yardımcı araç olarak veya abonelik katmanını düşürmek için kullanılabilir; ancak geçim kaynağıyla doğrudan bağlantılı durumlarda harcanan çabaya göre değeri düşük
Yerel Modellerin Değeri ve Avantajları
- Yerel modellerin en büyük avantajı maliyet tasarrufu; kendi donanımınızı kullanırsanız bulut abonelik ücreti ödemeniz gerekmez
- Her ay $100’dan fazla abonelik ödemek yerine donanım yükseltmesine yatırım yaparak uzun vadede maliyet düşürülebilir
- Güvenilirlik ve güvenlik açısından da avantaj sağlıyor
- Bulut hizmetlerindeki performans düşüşü veya erişim kısıtlarından etkilenmez ve veri dışarı sızmaz
- Şirket içi fikri mülkiyetin (IP) korunmasının gerekli olduğu ortamlarda da kullanılabilir
- Her zaman kullanılabilir olması da bir diğer artı; internetin kısıtlı olduğu ortamlarda (uçak, güvenli ağ vb.) da çalışır
Bellek Yapısı ve Optimizasyon
- Yerel model çalıştırmak için modelin kendisi ve bağlam penceresi bellek tüketir
- Örnek: 30B parametreli bir model yaklaşık 60GB RAM gerektirir
- Bağlam penceresinin kod tabanını kapsaması gerektiğinden 64.000 token ve üzeri önerilir
- Model boyutu büyüdükçe token başına bellek gereksinimi de artar
- 80B model, 30B modele göre yaklaşık 2 kat daha fazla RAM ister
- Hybrid Attention yapısı veya Quantization ile bellek tasarrufu sağlanabilir
- 16 bit→8 bit quantization durumunda performans kaybı azdır, ancak KV cache quantization daha büyük performans kaybına yol açabilir
Model Seçimi ve Sunum Araçları
- Instruct modeller etkileşimli kodlama araçları için uygundur; non-instruct modeller ise otomatik tamamlama için daha uygundur
- Yerel model sunum araçları arasında Ollama ve MLX öne çıkıyor
- Ollama daha genel amaçlıdır, kurulumu basittir ve OpenAI API uyumluluğu sunar
- MLX yalnızca Mac içindir, daha hızlı token işleme sunar ancak kurulumu daha karmaşıktır
- Gerçek kullanımda ilk token yanıt süresi ve saniye başına token işleme hızı önemlidir
- MLX, Ollama’ya kıyasla yaklaşık %20 daha hızlı yanıt verdi
Yerel Kodlama Ortamı Kurulumu
- Önerilen kodlama araçları: OpenCode, Aider, Qwen Code, Roo Code, Continue
- Bunların hepsi OpenAI API standardını desteklediği için model değiştirmek kolaydır
- Deneylerde Qwen Code ile Qwen3-Coder modeli kombinasyonu en istikrarlı seçenek oldu
- GPT-OSS modelinde çok sayıda istek reddi vakası görüldü
- MacBook’un birleşik bellek yapısı, CPU ile GPU arasında bellek paylaşımına olanak tanıdığı için yerel model çalıştırmada avantaj sağlar
- MLX kurulduktan sonra
mlx-lm.server komutuyla model, OpenAI uyumlu API olarak sunulabilir
- RAM kapasitesine göre 4B ile 80B arasında model seçilebilir
- Bellek kullanımını izlemek zorunludur; swap bellek kullanıldığında hız keskin biçimde düşer
Deney Sonuçları ve Sonuç
- İlk hipotez: “Aylık $100 abonelik yerine donanım yükseltmesi daha ekonomiktir”
- Düzeltilmiş sonuç: “Hayır”; pratik iş ortamında abonelik tabanlı araçlar hâlâ daha verimli
- Yerel modeller yardımcı rol için uygundur ve yüksek performanslı modellerin ücretsiz katmanlarıyla birlikte kullanıldığında maliyet tasarrufu sağlayabilir
- Qwen3-Coder modeli, ticari araçlara kıyasla yaklaşık yarım nesil geride performans sunuyor
- Google Gemini 3 Flash’ın ücretsiz sunulmasıyla yerel modellerin ekonomik cazibesi azaldı
- Gelecekte yerel modellerde performans artışı ve küçülme bekleniyor; bu nedenle bireysel geliştiriciler için hâlâ çekici bir seçenek
Temel Dersler
- Yerel modeller maliyet tasarrufu, daha güçlü güvenlik ve çevrimdışı erişim açısından güçlü yanlara sahip
- Ancak araç kararlılığı, bellek sınırları ve kurulum karmaşıklığı, gerçek iş kullanımındaki başlıca kısıtlar
- Bulut modelleriyle birlikte kullanım, en gerçekçi yaklaşım
- Yerel modeller bir “ikame” değil, tamamlayıcı olarak daha yüksek değere sahip
3 yorum
Sorun tam da bu yüzden Mac appa'da.
Uzak sorun mu?
Hacker News görüşleri
Bu yazıya hobi geliştiricisi açısından baktım. Yani prodüksiyon ortamı değil, kişisel proje yapanlardan söz ediyorum
Bugünlerde kişisel kullanım için aylık $100~$200’lık kodlama aracı abonelikleri ödeyen çok insan var, ama aslında çoğunun buna ihtiyacı yok
Sadece OpenAI veya Anthropic’in $20/ay planıyla bile epey yol alınabiliyor. Özellikle OpenAI’de Codex ücretlendirmesi çok daha ucuz, bu yüzden fiyat/performans açısından iyi
$100’den fazla harcama noktası, genelde $20 planın limitlerini tüketip zorlanmaya başladığınız zaman geliyor. O noktada durumu kendiniz değerlendirip yükseltirsiniz
Cimri olduğum için değil; çıkarım maliyetlerindeki düşüşün sonunda her şeyi bu noktaya getireceğini düşünüyorum
Eskiden elle yaptığım doküman aramasını
$ what-man "soru"gibi komutlarla otomatikleştirdim. Yerelde bir manpage embedding veritabanı kurup LLM’in dokümanları bulup özetlemesini sağladımModele ‘düşünme’ yaptırmıyor, sadece metin işleme görevi veriyorum; bu yüzden çok kararlı
Doküman yazarları önemli bayrakları derinlere saklama eğiliminde oluyor; bu yöntem o sorunu çözüyor
Ama ben çoğunlukla yalnızca kod arama veya refaktör işleri yaptırdığım için bana yetiyor
Buna karşılık LLM’e kodu doğrudan yazdırdığınızda token’lar anında eriyor. “vibecoding” tarzı geliştirmeyi deneyince token israfı ciddi boyuta ulaşıyor
Basit bir React uygulaması seviyesinde sorun yok ama eğitim verisinde olmayan alanlara gidince modelin sürekli debelendiğini görebiliyorsunuz
OpenAI’ye para vermek istemiyorum
Proje henüz gelir üretmiyor ama bunu öğrenme yatırımı olarak görüyorum
Buna karşılık Claude çok üretken
Ayrıca çoğu insanın, ihtiyaç duyduğunda yükseltme yapacak kadar akıllı olduğunu düşünüyorum. Kimse ille de pahalı plandan başlamıyor
Üstelik bu yazının konusu yerel modeller; abonelik planı tavsiyesi biraz konu dışı kalıyor
$5.000’lık bir dizüstünün önümüzdeki 5 yıl boyunca SOTA modellerle rekabet edeceğini düşünmeye hangi hesabın yol açtığını merak ettim
Gerçekte bu hayalin iki gün içinde dağıldığını düşünüyorum. Ben de parlak donanıma kapılıp benzer şeyler yaptım
Sonuçta yerel modeller hobi veya mahremiyet takıntısı için. Gerçek mahremiyet gerekiyorsa sunucu kiralamanın daha iyi olduğunu düşünüyorum
Kusursuz bir karşılaştırma değil ama yerel modellerin gelişim hızına bakınca oldukça anlamlı bir seviye
Zaten bir dizüstüne ihtiyacınız var; o halde yerel modeller için yeterli özellikte bir şey almak daha mantıklı
Bu yazıda yazarın kendi yanlış varsayımını kabul etmesi ilginçti
Ama “5 yıl Mac kullanırım” varsayımı gerçekçi değil. Model ilerleme hızı çok yüksek
Kurumsal ortamda Mac Studio 512GB RAM gibi yüksek özellikli bir makine gerekebilir
İlgili tartışma önceki başlıkta da vardı
Yazıda sadece MLX ve Ollama’dan söz edilip LM Studio’nun atlanması üzücüydü
LM Studio, hem MLX hem GGUF modellerini destekliyor ve Ollama’ya göre özellik açısından daha zengin bir macOS GUI sunuyor
Model kataloğu da resmi sayfada aktif biçimde güncelleniyor
Yazıda “80B modeli 128GB RAM’de çalıştırıyorum” denirken, 8GB RAM varsa 4B model deneyin önerisi biraz tuhaftı
Kalite düşüşü hakkında hiçbir tartışma yok
Ben aylık $20’lık Cursor planında 260 milyon token kullandım. İlk ücretli aboneliğimdi ama bu yazıdaki yaklaşımı anlayamıyorum
Açıkçası sanki bir şeyler eksik ve hâlâ çok soru işaretim var
Mac amortismanı, aylık abonelik ücretinden daha yüksek olduğu için maliyet düşürme mantığının zayıf olduğunu düşünüyorum
Yerel model kullanmak için başka nedenler olabilir ama maliyet verimliliği düşük
Üstelik donanımın hızla sınıra dayanma riski de büyük. Sonuçta aynı mantık çevrimiçi araçlarda küçük modeller kullanınca da geçerli
En yeni modeller (Opus 4.5, GPT 5.2) bile daha yeni ancak önüme attığım sorunları zar zor takip edebiliyor
Yerel modellerin geliştirici zamanını boşa harcatmayacak seviyeye gelmesi için hâlâ 1~2 yıl gerektiğini düşünüyorum
Böyle durumlarda prompt’u daha spesifik yazmanız gerekiyor ama bu da hızı düşürüyor
Tam donanımlı MacBook Pro, sunduğu hesaplama gücüne göre fazla pahalı. Apple özellikle RAM fiyatını aşırı şişiriyor
Aynı özelliklerde bir Linux masaüstü yarı fiyatına toplanabilir
Taşınabilirlik önemliyse Apple dışı dizüstüler de daha ucuz bir alternatif
Linux tarafında NVidia Spark veya AMD Ryzen AI serisi var ama 128GB RAM modelleri nadir
Yükseltme de zor, fiyatlar da yüksek
Aslında Mac’in ana avantajı bu. Artık Exo ile 512GB üstü de mümkün
Geliştirme PC’mde yerel model çalıştırmıyorum. Ayrı bir makinede çalıştırmanın daha iyi olduğunu düşünüyorum
Fan sesi azalıyor ve çalışma PC’sinin performansı da etkilenmiyor
LLM için birkaç yüz ms gecikme sorun değil. Seyahatte çevrimdışı çalışma gerekmiyorsa bunun için özel bir neden yok