Yerel Kodlama Modelleri Rehberi

(aiforswes.com)

20 puan yazan GN⁺ 2025-12-22 | 3 yorum | WhatsApp'ta paylaş

Yerel modeller, geliştirme işlerinin yaklaşık %90’ını yeterince yapabilir, ancak kalan %10’luk hassas işlerde ticari hizmetler hâlâ üstün
Maliyet tasarrufu, güvenlik ve erişilebilirlik açısından yerel modellerin avantajı büyük; özellikle kişisel projelerde veya çevrimdışı ortamlarda faydalı
Ancak araç uyumluluğu, bellek kısıtları ve kurulum karmaşıklığı, gerçek iş ortamında kullanıma yönelik başlıca engeller olarak gösteriliyor
Yerel modeller hobi projeleri için yararlı olsa da, prodüksiyon ortamı veya kurumsal kullanım için uygun değil; frontier araçların yardımcı unsuru olarak kullanılması daha gerçekçi
Google’ın ücretsiz yapay zeka kodlama araçlarının (Gemini CLI, Jules vb.) ortaya çıkmasıyla yerel modellerin maliyet tasarrufu etkisi büyük ölçüde dengelendi

Orijinal Metin Düzeltme Duyurusu

İlk hipotezin yanlış olduğunu kabul ediyor ve okurların finansal kararlarını etkileyebileceği için düzeltme yayımlıyor
Yerel modellerin kodlama işlerinde gördüğünden de fazla ölçüde yeterince yetkin olduğu görüşü hâlâ geçerli
Ancak kodlama aboneliklerini iptal edip MacBook Pro satın alma tavsiyesi geri çekiliyor
Ampirik doğrulama olmadan iddia öne sürülmesi, hatanın temel nedeni oldu
Hipotezin Yanlış Olmasının Somut Nedenleri
- Yerel modeller yazılım geliştirme işlerinin yaklaşık %90’ını yapabiliyor, ancak son %10 en kritik kısım ve bunun için frontier model maliyetini ödemeye değer
- Yaklaşım hobi geliştirici bakış açısından ele alınmıştı; ancak prodüksiyon ortamında şirketlerin çalışanlarına Claude Code gibi araçlar sağlaması öneriliyor
- Docker gibi RAM tüketen başka geliştirme araçları da birlikte çalıştırıldığında model boyutunu küçültmek gerekiyor ve performans ciddi biçimde düşüyor
- Sonuç olarak yerel modeller frontier modeller için yardımcı araç olarak veya abonelik katmanını düşürmek için kullanılabilir; ancak geçim kaynağıyla doğrudan bağlantılı durumlarda harcanan çabaya göre değeri düşük

Yerel Modellerin Değeri ve Avantajları

Yerel modellerin en büyük avantajı maliyet tasarrufu; kendi donanımınızı kullanırsanız bulut abonelik ücreti ödemeniz gerekmez
- Her ay $100’dan fazla abonelik ödemek yerine donanım yükseltmesine yatırım yaparak uzun vadede maliyet düşürülebilir
Güvenilirlik ve güvenlik açısından da avantaj sağlıyor
- Bulut hizmetlerindeki performans düşüşü veya erişim kısıtlarından etkilenmez ve veri dışarı sızmaz
- Şirket içi fikri mülkiyetin (IP) korunmasının gerekli olduğu ortamlarda da kullanılabilir
Her zaman kullanılabilir olması da bir diğer artı; internetin kısıtlı olduğu ortamlarda (uçak, güvenli ağ vb.) da çalışır

Bellek Yapısı ve Optimizasyon

Yerel model çalıştırmak için modelin kendisi ve bağlam penceresi bellek tüketir
- Örnek: 30B parametreli bir model yaklaşık 60GB RAM gerektirir
Bağlam penceresinin kod tabanını kapsaması gerektiğinden 64.000 token ve üzeri önerilir
Model boyutu büyüdükçe token başına bellek gereksinimi de artar
- 80B model, 30B modele göre yaklaşık 2 kat daha fazla RAM ister
Hybrid Attention yapısı veya Quantization ile bellek tasarrufu sağlanabilir
- 16 bit→8 bit quantization durumunda performans kaybı azdır, ancak KV cache quantization daha büyük performans kaybına yol açabilir

Model Seçimi ve Sunum Araçları

Instruct modeller etkileşimli kodlama araçları için uygundur; non-instruct modeller ise otomatik tamamlama için daha uygundur
Yerel model sunum araçları arasında Ollama ve MLX öne çıkıyor
- Ollama daha genel amaçlıdır, kurulumu basittir ve OpenAI API uyumluluğu sunar
- MLX yalnızca Mac içindir, daha hızlı token işleme sunar ancak kurulumu daha karmaşıktır
Gerçek kullanımda ilk token yanıt süresi ve saniye başına token işleme hızı önemlidir
- MLX, Ollama’ya kıyasla yaklaşık %20 daha hızlı yanıt verdi

Yerel Kodlama Ortamı Kurulumu

Önerilen kodlama araçları: OpenCode, Aider, Qwen Code, Roo Code, Continue
- Bunların hepsi OpenAI API standardını desteklediği için model değiştirmek kolaydır
Deneylerde Qwen Code ile Qwen3-Coder modeli kombinasyonu en istikrarlı seçenek oldu
- GPT-OSS modelinde çok sayıda istek reddi vakası görüldü
MacBook’un birleşik bellek yapısı, CPU ile GPU arasında bellek paylaşımına olanak tanıdığı için yerel model çalıştırmada avantaj sağlar
MLX kurulduktan sonra mlx-lm.server komutuyla model, OpenAI uyumlu API olarak sunulabilir
- RAM kapasitesine göre 4B ile 80B arasında model seçilebilir
Bellek kullanımını izlemek zorunludur; swap bellek kullanıldığında hız keskin biçimde düşer

Deney Sonuçları ve Sonuç

İlk hipotez: “Aylık $100 abonelik yerine donanım yükseltmesi daha ekonomiktir”
- Düzeltilmiş sonuç: “Hayır”; pratik iş ortamında abonelik tabanlı araçlar hâlâ daha verimli
Yerel modeller yardımcı rol için uygundur ve yüksek performanslı modellerin ücretsiz katmanlarıyla birlikte kullanıldığında maliyet tasarrufu sağlayabilir
Qwen3-Coder modeli, ticari araçlara kıyasla yaklaşık yarım nesil geride performans sunuyor
Google Gemini 3 Flash’ın ücretsiz sunulmasıyla yerel modellerin ekonomik cazibesi azaldı
Gelecekte yerel modellerde performans artışı ve küçülme bekleniyor; bu nedenle bireysel geliştiriciler için hâlâ çekici bir seçenek

Temel Dersler

Yerel modeller maliyet tasarrufu, daha güçlü güvenlik ve çevrimdışı erişim açısından güçlü yanlara sahip
Ancak araç kararlılığı, bellek sınırları ve kurulum karmaşıklığı, gerçek iş kullanımındaki başlıca kısıtlar
Bulut modelleriyle birlikte kullanım, en gerçekçi yaklaşım
Yerel modeller bir “ikame” değil, tamamlayıcı olarak daha yüksek değere sahip

3 yorum

ahwjdekf 2025-12-23

Sorun tam da bu yüzden Mac appa'da.

skageektp 2025-12-24

Uzak sorun mu?

GN⁺ 2025-12-22

Hacker News görüşleri

Bu yazıya hobi geliştiricisi açısından baktım. Yani prodüksiyon ortamı değil, kişisel proje yapanlardan söz ediyorum
Bugünlerde kişisel kullanım için aylık $100~$200’lık kodlama aracı abonelikleri ödeyen çok insan var, ama aslında çoğunun buna ihtiyacı yok
Sadece OpenAI veya Anthropic’in $20/ay planıyla bile epey yol alınabiliyor. Özellikle OpenAI’de Codex ücretlendirmesi çok daha ucuz, bu yüzden fiyat/performans açısından iyi
$100’den fazla harcama noktası, genelde $20 planın limitlerini tüketip zorlanmaya başladığınız zaman geliyor. O noktada durumu kendiniz değerlendirip yükseltirsiniz
- Ben yerel modelleri ve OpenRouter’ın ücretsiz modellerini kullanıyorum. Aylık yapay zeka model masrafım $1’i bile bulmuyor
  Cimri olduğum için değil; çıkarım maliyetlerindeki düşüşün sonunda her şeyi bu noktaya getireceğini düşünüyorum
  Eskiden elle yaptığım doküman aramasını $ what-man "soru" gibi komutlarla otomatikleştirdim. Yerelde bir manpage embedding veritabanı kurup LLM’in dokümanları bulup özetlemesini sağladım
  Modele ‘düşünme’ yaptırmıyor, sadece metin işleme görevi veriyorum; bu yüzden çok kararlı
  Doküman yazarları önemli bayrakları derinlere saklama eğiliminde oluyor; bu yöntem o sorunu çözüyor
- Büyük bir kod tabanını gezerken $20/ay planın limiti 10~20 dakika içinde tükeniyor
  Ama ben çoğunlukla yalnızca kod arama veya refaktör işleri yaptırdığım için bana yetiyor
  Buna karşılık LLM’e kodu doğrudan yazdırdığınızda token’lar anında eriyor. “vibecoding” tarzı geliştirmeyi deneyince token israfı ciddi boyuta ulaşıyor
  Basit bir React uygulaması seviyesinde sorun yok ama eğitim verisinde olmayan alanlara gidince modelin sürekli debelendiğini görebiliyorsunuz
- Ben de kişisel projelerde bu araçları kullanıyorum. Claude Code limiti bir saat içinde bitiyor ama buna değiyor
  OpenAI’ye para vermek istemiyorum
- Ben de kişisel kodlama için Claude Max kullanıyorum. $20 planın limiti çok hızlı bittiği için yükselttim
  Proje henüz gelir üretmiyor ama bunu öğrenme yatırımı olarak görüyorum
- OpenAI Codex benim ortamımda sadece token israf ediyor. Node sürümü değiştirme gibi basit işlerde bile döngüye giriyor
  Buna karşılık Claude çok üretken
  Ayrıca çoğu insanın, ihtiyaç duyduğunda yükseltme yapacak kadar akıllı olduğunu düşünüyorum. Kimse ille de pahalı plandan başlamıyor
  Üstelik bu yazının konusu yerel modeller; abonelik planı tavsiyesi biraz konu dışı kalıyor
$5.000’lık bir dizüstünün önümüzdeki 5 yıl boyunca SOTA modellerle rekabet edeceğini düşünmeye hangi hesabın yol açtığını merak ettim
Gerçekte bu hayalin iki gün içinde dağıldığını düşünüyorum. Ben de parlak donanıma kapılıp benzer şeyler yaptım
Sonuçta yerel modeller hobi veya mahremiyet takıntısı için. Gerçek mahremiyet gerekiyorsa sunucu kiralamanın daha iyi olduğunu düşünüyorum
- Yine de bunu bizzat denemek isteyenlere saygım var. Bana 80~90’lar hacker kültürünü hatırlatıyor
- 2023 model MacBook Pro’mda (M2 Max) bile 1,5 yıl önceki SOTA seviyesinde modelleri yerelde çalıştırabiliyorum
  Kusursuz bir karşılaştırma değil ama yerel modellerin gelişim hızına bakınca oldukça anlamlı bir seviye
- Donanım aynı kalıyor ama modeller giderek daha verimli oluyor; bu yüzden 5 yıl boyunca çevrimiçi model aboneliği ödemekle dizüstü almak benzer görünüyor
  Zaten bir dizüstüne ihtiyacınız var; o halde yerel modeller için yeterli özellikte bir şey almak daha mantıklı
- Gerçekten öyle mi? Epoch.ai’nin yakın tarihli analizine göre tüketici GPU’ları bir yıl içinde Frontier AI performansına yaklaşıyor. Açık ağırlıklı modelleri küçümsememek gerektiğini düşünüyorum
- Ben de katılıyorum. Kodlama için SOTA’dan bir kademe daha zayıf model bile katlanması zor geliyor
Bu yazıda yazarın kendi yanlış varsayımını kabul etmesi ilginçti
Ama “5 yıl Mac kullanırım” varsayımı gerçekçi değil. Model ilerleme hızı çok yüksek
Kurumsal ortamda Mac Studio 512GB RAM gibi yüksek özellikli bir makine gerekebilir
İlgili tartışma önceki başlıkta da vardı
Yazıda sadece MLX ve Ollama’dan söz edilip LM Studio’nun atlanması üzücüydü
LM Studio, hem MLX hem GGUF modellerini destekliyor ve Ollama’ya göre özellik açısından daha zengin bir macOS GUI sunuyor
Model kataloğu da resmi sayfada aktif biçimde güncelleniyor
- Bence LM Studio, Ollama’dan çok daha iyi. Bu kadar az popüler olması garip
- Biraz sponsorlu içerik hissi veriyor
- LM Studio’nun açık kaynak olmadığını da belirtmek gerekir. Yerel model kullanmanın nedeni güvendir; kapalı bir uygulama olunca anlamı azalıyor
- ramalama.ai de birlikte anılmayı hak ediyor
- LM Studio içeride llama.cpp kullanıyor
Yazıda “80B modeli 128GB RAM’de çalıştırıyorum” denirken, 8GB RAM varsa 4B model deneyin önerisi biraz tuhaftı
Kalite düşüşü hakkında hiçbir tartışma yok
- Bu, sanki “4 dönümlük çiftlikte kendi kendine yetme” yazısında bunun bir saksıyla ikame edilebileceğini söylemek gibi. Saçma
Ben aylık $20’lık Cursor planında 260 milyon token kullandım. İlk ücretli aboneliğimdi ama bu yazıdaki yaklaşımı anlayamıyorum
Açıkçası sanki bir şeyler eksik ve hâlâ çok soru işaretim var
Mac amortismanı, aylık abonelik ücretinden daha yüksek olduğu için maliyet düşürme mantığının zayıf olduğunu düşünüyorum
Yerel model kullanmak için başka nedenler olabilir ama maliyet verimliliği düşük
Üstelik donanımın hızla sınıra dayanma riski de büyük. Sonuçta aynı mantık çevrimiçi araçlarda küçük modeller kullanınca da geçerli
En yeni modeller (Opus 4.5, GPT 5.2) bile daha yeni ancak önüme attığım sorunları zar zor takip edebiliyor
Yerel modellerin geliştirici zamanını boşa harcatmayacak seviyeye gelmesi için hâlâ 1~2 yıl gerektiğini düşünüyorum
- Modeller mevcut verilerle eğitildiği için veriden uzaklaştıkça performans keskin biçimde düşüyor
  Böyle durumlarda prompt’u daha spesifik yazmanız gerekiyor ama bu da hızı düşürüyor
Tam donanımlı MacBook Pro, sunduğu hesaplama gücüne göre fazla pahalı. Apple özellikle RAM fiyatını aşırı şişiriyor
Aynı özelliklerde bir Linux masaüstü yarı fiyatına toplanabilir
Taşınabilirlik önemliyse Apple dışı dizüstüler de daha ucuz bir alternatif
- Ama birleşik bellek (unified RAM) gerekiyorsa seçenekler sınırlı
  Linux tarafında NVidia Spark veya AMD Ryzen AI serisi var ama 128GB RAM modelleri nadir
  Yükseltme de zor, fiyatlar da yüksek
- 512GB birleşik bellek destekleyen bir x86 sistem var mı?
  Aslında Mac’in ana avantajı bu. Artık Exo ile 512GB üstü de mümkün
Geliştirme PC’mde yerel model çalıştırmıyorum. Ayrı bir makinede çalıştırmanın daha iyi olduğunu düşünüyorum
Fan sesi azalıyor ve çalışma PC’sinin performansı da etkilenmiyor
LLM için birkaç yüz ms gecikme sorun değil. Seyahatte çevrimdışı çalışma gerekmiyorsa bunun için özel bir neden yok
- Bugünlerde Mac Studio veya Nvidia DGX gibi cihazlar sessiz ve daha erişilebilir olduğu için bu kaygı biraz azaldı

Yerel Kodlama Modelleri Rehberi

Orijinal Metin Düzeltme Duyurusu

Hipotezin Yanlış Olmasının Somut Nedenleri

Yerel Modellerin Değeri ve Avantajları

Bellek Yapısı ve Optimizasyon

Model Seçimi ve Sunum Araçları

Yerel Kodlama Ortamı Kurulumu

Deney Sonuçları ve Sonuç

Temel Dersler

İlgili okumalar

3 yorum

Hacker News görüşleri