20 puan yazan GN⁺ 2025-12-22 | 3 yorum | WhatsApp'ta paylaş
  • Yerel modeller, geliştirme işlerinin yaklaşık %90’ını yeterince yapabilir, ancak kalan %10’luk hassas işlerde ticari hizmetler hâlâ üstün
  • Maliyet tasarrufu, güvenlik ve erişilebilirlik açısından yerel modellerin avantajı büyük; özellikle kişisel projelerde veya çevrimdışı ortamlarda faydalı
  • Ancak araç uyumluluğu, bellek kısıtları ve kurulum karmaşıklığı, gerçek iş ortamında kullanıma yönelik başlıca engeller olarak gösteriliyor
  • Yerel modeller hobi projeleri için yararlı olsa da, prodüksiyon ortamı veya kurumsal kullanım için uygun değil; frontier araçların yardımcı unsuru olarak kullanılması daha gerçekçi
  • Google’ın ücretsiz yapay zeka kodlama araçlarının (Gemini CLI, Jules vb.) ortaya çıkmasıyla yerel modellerin maliyet tasarrufu etkisi büyük ölçüde dengelendi

Orijinal Metin Düzeltme Duyurusu

  • İlk hipotezin yanlış olduğunu kabul ediyor ve okurların finansal kararlarını etkileyebileceği için düzeltme yayımlıyor
  • Yerel modellerin kodlama işlerinde gördüğünden de fazla ölçüde yeterince yetkin olduğu görüşü hâlâ geçerli
  • Ancak kodlama aboneliklerini iptal edip MacBook Pro satın alma tavsiyesi geri çekiliyor
  • Ampirik doğrulama olmadan iddia öne sürülmesi, hatanın temel nedeni oldu
  • Hipotezin Yanlış Olmasının Somut Nedenleri

    • Yerel modeller yazılım geliştirme işlerinin yaklaşık %90’ını yapabiliyor, ancak son %10 en kritik kısım ve bunun için frontier model maliyetini ödemeye değer
    • Yaklaşım hobi geliştirici bakış açısından ele alınmıştı; ancak prodüksiyon ortamında şirketlerin çalışanlarına Claude Code gibi araçlar sağlaması öneriliyor
    • Docker gibi RAM tüketen başka geliştirme araçları da birlikte çalıştırıldığında model boyutunu küçültmek gerekiyor ve performans ciddi biçimde düşüyor
    • Sonuç olarak yerel modeller frontier modeller için yardımcı araç olarak veya abonelik katmanını düşürmek için kullanılabilir; ancak geçim kaynağıyla doğrudan bağlantılı durumlarda harcanan çabaya göre değeri düşük

Yerel Modellerin Değeri ve Avantajları

  • Yerel modellerin en büyük avantajı maliyet tasarrufu; kendi donanımınızı kullanırsanız bulut abonelik ücreti ödemeniz gerekmez
    • Her ay $100’dan fazla abonelik ödemek yerine donanım yükseltmesine yatırım yaparak uzun vadede maliyet düşürülebilir
  • Güvenilirlik ve güvenlik açısından da avantaj sağlıyor
    • Bulut hizmetlerindeki performans düşüşü veya erişim kısıtlarından etkilenmez ve veri dışarı sızmaz
    • Şirket içi fikri mülkiyetin (IP) korunmasının gerekli olduğu ortamlarda da kullanılabilir
  • Her zaman kullanılabilir olması da bir diğer artı; internetin kısıtlı olduğu ortamlarda (uçak, güvenli ağ vb.) da çalışır

Bellek Yapısı ve Optimizasyon

  • Yerel model çalıştırmak için modelin kendisi ve bağlam penceresi bellek tüketir
    • Örnek: 30B parametreli bir model yaklaşık 60GB RAM gerektirir
  • Bağlam penceresinin kod tabanını kapsaması gerektiğinden 64.000 token ve üzeri önerilir
  • Model boyutu büyüdükçe token başına bellek gereksinimi de artar
    • 80B model, 30B modele göre yaklaşık 2 kat daha fazla RAM ister
  • Hybrid Attention yapısı veya Quantization ile bellek tasarrufu sağlanabilir
    • 16 bit→8 bit quantization durumunda performans kaybı azdır, ancak KV cache quantization daha büyük performans kaybına yol açabilir

Model Seçimi ve Sunum Araçları

  • Instruct modeller etkileşimli kodlama araçları için uygundur; non-instruct modeller ise otomatik tamamlama için daha uygundur
  • Yerel model sunum araçları arasında Ollama ve MLX öne çıkıyor
    • Ollama daha genel amaçlıdır, kurulumu basittir ve OpenAI API uyumluluğu sunar
    • MLX yalnızca Mac içindir, daha hızlı token işleme sunar ancak kurulumu daha karmaşıktır
  • Gerçek kullanımda ilk token yanıt süresi ve saniye başına token işleme hızı önemlidir
    • MLX, Ollama’ya kıyasla yaklaşık %20 daha hızlı yanıt verdi

Yerel Kodlama Ortamı Kurulumu

  • Önerilen kodlama araçları: OpenCode, Aider, Qwen Code, Roo Code, Continue
    • Bunların hepsi OpenAI API standardını desteklediği için model değiştirmek kolaydır
  • Deneylerde Qwen Code ile Qwen3-Coder modeli kombinasyonu en istikrarlı seçenek oldu
    • GPT-OSS modelinde çok sayıda istek reddi vakası görüldü
  • MacBook’un birleşik bellek yapısı, CPU ile GPU arasında bellek paylaşımına olanak tanıdığı için yerel model çalıştırmada avantaj sağlar
  • MLX kurulduktan sonra mlx-lm.server komutuyla model, OpenAI uyumlu API olarak sunulabilir
    • RAM kapasitesine göre 4B ile 80B arasında model seçilebilir
  • Bellek kullanımını izlemek zorunludur; swap bellek kullanıldığında hız keskin biçimde düşer

Deney Sonuçları ve Sonuç

  • İlk hipotez: “Aylık $100 abonelik yerine donanım yükseltmesi daha ekonomiktir”
    • Düzeltilmiş sonuç: “Hayır”; pratik iş ortamında abonelik tabanlı araçlar hâlâ daha verimli
  • Yerel modeller yardımcı rol için uygundur ve yüksek performanslı modellerin ücretsiz katmanlarıyla birlikte kullanıldığında maliyet tasarrufu sağlayabilir
  • Qwen3-Coder modeli, ticari araçlara kıyasla yaklaşık yarım nesil geride performans sunuyor
  • Google Gemini 3 Flash’ın ücretsiz sunulmasıyla yerel modellerin ekonomik cazibesi azaldı
  • Gelecekte yerel modellerde performans artışı ve küçülme bekleniyor; bu nedenle bireysel geliştiriciler için hâlâ çekici bir seçenek

Temel Dersler

  • Yerel modeller maliyet tasarrufu, daha güçlü güvenlik ve çevrimdışı erişim açısından güçlü yanlara sahip
  • Ancak araç kararlılığı, bellek sınırları ve kurulum karmaşıklığı, gerçek iş kullanımındaki başlıca kısıtlar
  • Bulut modelleriyle birlikte kullanım, en gerçekçi yaklaşım
  • Yerel modeller bir “ikame” değil, tamamlayıcı olarak daha yüksek değere sahip

3 yorum

 
ahwjdekf 2025-12-23

Sorun tam da bu yüzden Mac appa'da.

 
skageektp 2025-12-24

Uzak sorun mu?

 
GN⁺ 2025-12-22
Hacker News görüşleri
  • Bu yazıya hobi geliştiricisi açısından baktım. Yani prodüksiyon ortamı değil, kişisel proje yapanlardan söz ediyorum
    Bugünlerde kişisel kullanım için aylık $100~$200’lık kodlama aracı abonelikleri ödeyen çok insan var, ama aslında çoğunun buna ihtiyacı yok
    Sadece OpenAI veya Anthropic’in $20/ay planıyla bile epey yol alınabiliyor. Özellikle OpenAI’de Codex ücretlendirmesi çok daha ucuz, bu yüzden fiyat/performans açısından iyi
    $100’den fazla harcama noktası, genelde $20 planın limitlerini tüketip zorlanmaya başladığınız zaman geliyor. O noktada durumu kendiniz değerlendirip yükseltirsiniz

    • Ben yerel modelleri ve OpenRouter’ın ücretsiz modellerini kullanıyorum. Aylık yapay zeka model masrafım $1’i bile bulmuyor
      Cimri olduğum için değil; çıkarım maliyetlerindeki düşüşün sonunda her şeyi bu noktaya getireceğini düşünüyorum
      Eskiden elle yaptığım doküman aramasını $ what-man "soru" gibi komutlarla otomatikleştirdim. Yerelde bir manpage embedding veritabanı kurup LLM’in dokümanları bulup özetlemesini sağladım
      Modele ‘düşünme’ yaptırmıyor, sadece metin işleme görevi veriyorum; bu yüzden çok kararlı
      Doküman yazarları önemli bayrakları derinlere saklama eğiliminde oluyor; bu yöntem o sorunu çözüyor
    • Büyük bir kod tabanını gezerken $20/ay planın limiti 10~20 dakika içinde tükeniyor
      Ama ben çoğunlukla yalnızca kod arama veya refaktör işleri yaptırdığım için bana yetiyor
      Buna karşılık LLM’e kodu doğrudan yazdırdığınızda token’lar anında eriyor. “vibecoding” tarzı geliştirmeyi deneyince token israfı ciddi boyuta ulaşıyor
      Basit bir React uygulaması seviyesinde sorun yok ama eğitim verisinde olmayan alanlara gidince modelin sürekli debelendiğini görebiliyorsunuz
    • Ben de kişisel projelerde bu araçları kullanıyorum. Claude Code limiti bir saat içinde bitiyor ama buna değiyor
      OpenAI’ye para vermek istemiyorum
    • Ben de kişisel kodlama için Claude Max kullanıyorum. $20 planın limiti çok hızlı bittiği için yükselttim
      Proje henüz gelir üretmiyor ama bunu öğrenme yatırımı olarak görüyorum
    • OpenAI Codex benim ortamımda sadece token israf ediyor. Node sürümü değiştirme gibi basit işlerde bile döngüye giriyor
      Buna karşılık Claude çok üretken
      Ayrıca çoğu insanın, ihtiyaç duyduğunda yükseltme yapacak kadar akıllı olduğunu düşünüyorum. Kimse ille de pahalı plandan başlamıyor
      Üstelik bu yazının konusu yerel modeller; abonelik planı tavsiyesi biraz konu dışı kalıyor
  • $5.000’lık bir dizüstünün önümüzdeki 5 yıl boyunca SOTA modellerle rekabet edeceğini düşünmeye hangi hesabın yol açtığını merak ettim
    Gerçekte bu hayalin iki gün içinde dağıldığını düşünüyorum. Ben de parlak donanıma kapılıp benzer şeyler yaptım
    Sonuçta yerel modeller hobi veya mahremiyet takıntısı için. Gerçek mahremiyet gerekiyorsa sunucu kiralamanın daha iyi olduğunu düşünüyorum

    • Yine de bunu bizzat denemek isteyenlere saygım var. Bana 80~90’lar hacker kültürünü hatırlatıyor
    • 2023 model MacBook Pro’mda (M2 Max) bile 1,5 yıl önceki SOTA seviyesinde modelleri yerelde çalıştırabiliyorum
      Kusursuz bir karşılaştırma değil ama yerel modellerin gelişim hızına bakınca oldukça anlamlı bir seviye
    • Donanım aynı kalıyor ama modeller giderek daha verimli oluyor; bu yüzden 5 yıl boyunca çevrimiçi model aboneliği ödemekle dizüstü almak benzer görünüyor
      Zaten bir dizüstüne ihtiyacınız var; o halde yerel modeller için yeterli özellikte bir şey almak daha mantıklı
    • Gerçekten öyle mi? Epoch.ai’nin yakın tarihli analizine göre tüketici GPU’ları bir yıl içinde Frontier AI performansına yaklaşıyor. Açık ağırlıklı modelleri küçümsememek gerektiğini düşünüyorum
    • Ben de katılıyorum. Kodlama için SOTA’dan bir kademe daha zayıf model bile katlanması zor geliyor
  • Bu yazıda yazarın kendi yanlış varsayımını kabul etmesi ilginçti
    Ama “5 yıl Mac kullanırım” varsayımı gerçekçi değil. Model ilerleme hızı çok yüksek
    Kurumsal ortamda Mac Studio 512GB RAM gibi yüksek özellikli bir makine gerekebilir
    İlgili tartışma önceki başlıkta da vardı

  • Yazıda sadece MLX ve Ollama’dan söz edilip LM Studio’nun atlanması üzücüydü
    LM Studio, hem MLX hem GGUF modellerini destekliyor ve Ollama’ya göre özellik açısından daha zengin bir macOS GUI sunuyor
    Model kataloğu da resmi sayfada aktif biçimde güncelleniyor

    • Bence LM Studio, Ollama’dan çok daha iyi. Bu kadar az popüler olması garip
    • Biraz sponsorlu içerik hissi veriyor
    • LM Studio’nun açık kaynak olmadığını da belirtmek gerekir. Yerel model kullanmanın nedeni güvendir; kapalı bir uygulama olunca anlamı azalıyor
    • ramalama.ai de birlikte anılmayı hak ediyor
    • LM Studio içeride llama.cpp kullanıyor
  • Yazıda “80B modeli 128GB RAM’de çalıştırıyorum” denirken, 8GB RAM varsa 4B model deneyin önerisi biraz tuhaftı
    Kalite düşüşü hakkında hiçbir tartışma yok

    • Bu, sanki “4 dönümlük çiftlikte kendi kendine yetme” yazısında bunun bir saksıyla ikame edilebileceğini söylemek gibi. Saçma
  • Ben aylık $20’lık Cursor planında 260 milyon token kullandım. İlk ücretli aboneliğimdi ama bu yazıdaki yaklaşımı anlayamıyorum
    Açıkçası sanki bir şeyler eksik ve hâlâ çok soru işaretim var

  • Mac amortismanı, aylık abonelik ücretinden daha yüksek olduğu için maliyet düşürme mantığının zayıf olduğunu düşünüyorum
    Yerel model kullanmak için başka nedenler olabilir ama maliyet verimliliği düşük
    Üstelik donanımın hızla sınıra dayanma riski de büyük. Sonuçta aynı mantık çevrimiçi araçlarda küçük modeller kullanınca da geçerli

  • En yeni modeller (Opus 4.5, GPT 5.2) bile daha yeni ancak önüme attığım sorunları zar zor takip edebiliyor
    Yerel modellerin geliştirici zamanını boşa harcatmayacak seviyeye gelmesi için hâlâ 1~2 yıl gerektiğini düşünüyorum

    • Modeller mevcut verilerle eğitildiği için veriden uzaklaştıkça performans keskin biçimde düşüyor
      Böyle durumlarda prompt’u daha spesifik yazmanız gerekiyor ama bu da hızı düşürüyor
  • Tam donanımlı MacBook Pro, sunduğu hesaplama gücüne göre fazla pahalı. Apple özellikle RAM fiyatını aşırı şişiriyor
    Aynı özelliklerde bir Linux masaüstü yarı fiyatına toplanabilir
    Taşınabilirlik önemliyse Apple dışı dizüstüler de daha ucuz bir alternatif

    • Ama birleşik bellek (unified RAM) gerekiyorsa seçenekler sınırlı
      Linux tarafında NVidia Spark veya AMD Ryzen AI serisi var ama 128GB RAM modelleri nadir
      Yükseltme de zor, fiyatlar da yüksek
    • 512GB birleşik bellek destekleyen bir x86 sistem var mı?
      Aslında Mac’in ana avantajı bu. Artık Exo ile 512GB üstü de mümkün
  • Geliştirme PC’mde yerel model çalıştırmıyorum. Ayrı bir makinede çalıştırmanın daha iyi olduğunu düşünüyorum
    Fan sesi azalıyor ve çalışma PC’sinin performansı da etkilenmiyor
    LLM için birkaç yüz ms gecikme sorun değil. Seyahatte çevrimdışı çalışma gerekmiyorsa bunun için özel bir neden yok

    • Bugünlerde Mac Studio veya Nvidia DGX gibi cihazlar sessiz ve daha erişilebilir olduğu için bu kaygı biraz azaldı