Ajan tabanlı kodlamada yerel LLM’lerden yararlanmak
(blog.alexewerlof.com)- Bulut amiral gemisi modellerin fiyatları hızla artarken, maliyet yükü olmadan kodlama çalışmalarını sürdürebilmek için yerel modellerden yararlanma yöntemleri derleniyor
- Yerel modeller SOTA modellerin performansına ulaşmasa da, fiyat/performans ve deterministik harness güçlendirmesiyle kaliteyi 6 kata kadar artırmak mümkün
- Kodlama için Gemma 4, genel işler ile kod üretimi arasında iyi bir denge sunuyor; Tools Use·Vision·Reasoning desteği sayesinde VS Code entegrasyonuna uygun
- LM Studio ile model sunucusunu ayağa kaldırıp bunu VS Code Copilot·Pi içindeki özel endpoint’e bağlamak için tam kurulum adımları veriliyor
- Donanım yetersizse OpenRouter ücretsiz modelleri alternatif olarak kullanılabiliyor; yerel modeller ise çevrimdışı çalışma ve gizlilik açısından hâlâ üstün
Fiyat artışlarının arka planı
- GitHub Copilot, kredi modelinden kullanıma dayalı ücretlendirmeye geçti ve mevcut ücretsiz modeller de artık ücretsiz değil
- GitHub bir token yeniden satıcısı olduğu için fiyat artışı daha sert hissediliyor. Amiral gemisi modeller, performans artış hızının fiyat artış hızını yakalayamadığı bir şekilde piyasaya sürülüyor
- Google Flash 3.5, Flash 2.5’e göre 3 kat daha pahalı
- GPT 5.5, GPT 5’e göre 3 kat daha pahalı
- Claude ise zaten fazla pahalı olduğu için aksine fiyatını düşürdü
Yerel modellerin gerçekliği ve güçlü yanları
- Yerel modeller Claude·GPT·Gemini gibi SOTA modellerin performansına yetişemese de bazı nüanslar var
- Fiyat/performans oranı: Bulut modellerde performans artışıyla birlikte maliyet üstel biçimde yükseliyor
- Deterministik harness: Daha iyi araçlar ve talimatlarla zayıf modellerin kalitesi 6 kata kadar iyileştirilebiliyor
- Benchmark tuzağı: Modelleri tek bir sayıya indirgemek zor ve her AI laboratuvarı kendisine avantaj sağlayan benchmark’lara odaklandığı için kendi iş yükünüzle doğrudan değerlendirme yapmak gerekiyor
- Jeopolitik etki: ABD laboratuvarlarının ücretsiz yayımladığı modeller en üst seviye değil. gpt-oss-20b artık fazla eski, Anthropic ise açık ağırlık yayımlamıyor. Gemma 4 tek ciddi model olarak öne çıkıyor; ayrıca Qwen·Kimi·GLM gibi Çin laboratuvarlarının yayımladığı güçlü modellere dikkat çekiliyor
- “brain rot” olgusu açısından bakıldığında, zayıf modeller kullanıcıdan daha fazla müdahale istediği için zihinsel sağlık açısından faydalı
- Bisiklete binmek gibi daha yavaş ama sağlık için iyi. Bilgi işçiliğinde “yavaş olan hızlıdır”
- Amaç, düşünmeyi makineye devredip otomasyonu azamiye çıkarmak değil. Kısa vadeli hız uğruna gelecekteki kendi değerinizi (relevance) feda etmeyin
- Zayıf modellerle çalışma teknikleri büyük modellere de uygulanabilir. Zayıf modellerle çalışmak hard mode oynamak gibidir; bunu öğrenince büyük araçları daha etkili kullanabilirsiniz
Model seçimi — Gemma 4
- Kodlama için Çin modelleri Huggingface liderlik tablosunda üst sıraları kaplıyor; Qwen·DeepSeek·Kimi·Llama·Gemma gibi seçenekler var
- Gemma 4 birkaç sürümden oluşuyor
- E2B: “E”, edge anlamına geliyor. 2B parametreyle çoğu donanımda çalışsa da halüsinasyon veya işi tamamlayamama riski yüksek
- E4B: E2B’nin iki katı büyüklükte. İndirme ve kurulum maliyeti düşük olduğu için başlangıç için öneriliyor
- 12B: Decoder olmadan görüntüleri yerel olarak anlayabiliyor, bu nedenle frontend ve görsel kodlama işlerinde daha hızlı. Sesi de yerel olarak destekliyor ancak kodlama iş yükleri için bu çok önemli değil
- 26B A4B: 26B parametrenin yalnızca 4B’sinin etkinleştiği MoE (mixture of experts) mimarisi. E4B’den daha akıllı ve 8~12GB VRAM’li ekran kartları için uygun (yazarın tercih ettiği model)
- 31B: Google’ın en büyük açık ağırlıklı modeli. MoE değil ve çok VRAM istiyor. AMD APU’da hızı 1~2 TPS olduğu için kullanılamayacak kadar yavaş
- QAT varyantları (ör. E4B QAT), daha az bellek kullanırken neredeyse aynı kaliteyi koruyor. Unsloth ek optimizasyonlar üzerinde çalışıyor
Yerel modeli çalıştırmak için gereken bileşenler
- Yerel model çalıştırmak için harness·model·runtime·model manager gerekiyor
- Harness: VS Code Copilot, Copilot CLI, Pi vb. Modelin (olasılıksal unsur) etrafını saran deterministik bileşenler (geleneksel kod)
- Model: Derin sinir ağı ağırlık dosyası. Quantization (Q8, Q4 vb.) görüntü çözünürlüğüne benzer bir kavram; biçimler ise GGUF·MLX gibi ayrılıyor
-
Runtime (çıkarım motoru)
- Llama.cpp: En popüler açık kaynak runtime; GGUF·MLX yükleyebiliyor. Meta’nın Llama modeliyle ilgisi yok; LM Studio bunu içeride kullanıyor
- MLX: Apple runtime’ı. M1·M2 gibi Mac sistemlerde kullanılıyor
- ONNX Runtime: transformers.js tabanlı; WebGPU üzerinden tarayıcıda çalışabiliyor, ayrıca iOS·Android mobil desteği var
- vLLM: UC Berkeley çıkışlı açık kaynak; çoğunlukla yüksek performanslı sunucular için, kurulumu zor
-
Model manager
- Ollama: Terminal CLI olarak başladı, sonra hafif bir GUI eklendi. Llama.cpp’yi saran bir Go wrapper’ı. Açık kaynak
- LM Studio: Ücretsiz ama açık kaynak değil. SDK (Python/TypeScript) ve REST API sağlıyor; yerel modellere özgü özellikleri (dinamik yükleme vb.) kontrol edebiliyor
- Jan: Ücretsiz ve açık kaynaklı, LM Studio’ya benzer bir alternatif ama özellikleri daha sınırlı
- OpenAI uyumlu API desteği temel özellik; çok sayıda AI uygulaması bu fiili standartla çalışıyor
LM Studio sunucu kurulumu
- “Developer” düğmesinden sunucu toggle ile başlatılıyor. Başka makine veya container üzerinde çalışacaksa Serve on Local Network, web uygulamasından erişilecekse Enable CORS ayarlanmalı
- LM Studio, istek anında modeli yükleyen JIT (Just In Time) loading kullanıyor. TTL ayarıyla bellekte ne kadar tutulacağını kontrol etmek mümkün
- Cold start: Model yüklü değilse ilk istek yaklaşık 10~30 saniye daha uzun sürüyor; AWS Lambda cold start’a benzer. TTFT (Time To First Token) metriğini etkiliyor
- Kısa context window: Varsayılan ayarda context window yalnızca 4k olabilir; elle artırmak gerekiyor. VS Code Copilot modellerinin çoğunda bu değer 200~400k
-
Context length ve bellek ayarları
- Context length’e göre VRAM gereksinimi: 262144 (maksimum) = 25.74GB, 4096 (varsayılan) = 18.16GB, 150000 (yazarın tercihi) = 22.45GB
- Kodlama için system prompt 20~40k token kapladığından en az 100k token yüklenmeli
- Context çok büyürse token üretim hızı düşüyor. En iyi nokta, harness’in context’i otomatik sıkıştırdığı yer
- İdeal olan tüm model katmanlarını GPU’da çalıştırmak; bu yüzden “GPU Offload” slider’ını en yükseğe getirmek öneriliyor. Katmanlar CPU’da çalışırsa Apple Silicon (UMA) dışındaki sistemlerde CPU-GPU arasında veri kopyalama gerekir
-
KV cache quantization hilesi
- K Cache Quantization Type
Q8_0, V Cache Quantization Type iseQ4_0olarak ayarlanmalı - Bu yöntem anahtarları değerlerden daha yüksek çözünürlükte tutuyor. Ayar, GPU bellek gereksinimini varsayılan 28.75GB’tan 22.45GB’a düşürüyor
- Ayarların kaydedilmesi şart. Kaydedilmezse bir sonraki model yüklemede varsayılan değerlere dönülüyor
- VS Code Copilot’ta özel context window talebi kavramı olmadığı için LM Studio’nun REST API çağrılarında bu ayarları hatırlaması gerekiyor
- K Cache Quantization Type
- TPS 10’un altındaysa kodlama için katlanmak zor; modelin düşünmesini beklemeye daha fazla zaman harcanıyor
Copilot’u özel endpoint’e bağlamak
- Güncel VS Code (yazı yazılırken 1.122.1) gerekiyor. Model seçici → dişli simgesi → “Add Models” → “Custom Endpoint” yoluyla ekleniyor
- Ad veriliyor (ör. “Local LM Studio”), API Key giriliyor (tanımlı değilse Enter), ardından çıkarım API biçimi seçiliyor
- Üç API türü içinde yalnızca Chat Completions sorunsuz çalışıyor
- JSON ayarında
url,maxInputTokens,maxOutputTokensgibi alanlar elle belirtiliyorthinkingseçeneği doğru ayarlanmalı (Gemma 4 destekliyor)supportsReasoningEffortdizisi modele göre değişiyor; 26B sürümü E4B’ye göre daha ayrıntılı kontrol sunuyor- 4B için maxInputTokens 64000 / maxOutputTokens 16000, 26B MoE için 100000 / 50000 ayarlanıyor
- İlk prompt’ta Copilot devasa bir system prompt ve tool tanımları gönderdiği için ilk etkileşimde 2~5 dakikalık gecikme oluşuyor. Modelin yüklenmesi 30 saniye, prompt girdisinin işlenmesi ise yaklaşık 5 dakika sürüyor
- Bu, oturum başına yalnızca bir kez oluyor ve LM Studio prompt caching uyguluyor. Pi’de system prompt küçük olduğu için bu sorun yok
-
Hızlı test ve ortam
- AGENTS.md veya SKILL olmadan tek atımlık prompt’la snake oyunu üretilerek Gemma 4 26B A4B performansı gösteriliyor
- Kullanılan ortam: Lenovo Thinkpad L16 Gen 2, AMD Ryzen 7 PRO 250 APU, 64GB DDR5 (5,600MT/s), Aurora Linux. 32GB’ın da yeterli olduğu düşünülüyor
Pi kurulumu
- Yerel LM Studio sunucusuna bağlanmak kolay ve
contextWindowayarı LM Studio yapılandırmasıyla daha iyi örtüşüyor baseUrlhttp://host.containers.internal:1234/v1,apiiseopenai-completionsolarak ayarlanıyor- 4B için contextWindow 64000 / maxTokens 16000, 26B MoE için 150000 / 50000 ayarlanıyor ve
thinkingLevelMapeşlemesi tanımlanıyor
- 4B için contextWindow 64000 / maxTokens 16000, 26B MoE için 150000 / 50000 ayarlanıyor ve
Yerel modellerin artı ve eksileri
- Artıları: Çevrimdışı çalışma, yüksek gizlilik, donanım·iş akışı·model·ayarlara bağlı olarak hızlı yanıt süresi
- Eksileri
- Açık ağırlıklı modeller, amiral gemisi kapalı modellere göre daha az akıllı; ancak uygun guardrail’lere (lint·test·AGENTS.md) sahip bir harness ile kodlama doğruluğu ciddi ölçüde artırılabiliyor
- LLM aynı makinede çalıştırıldığında donanım yükü nedeniyle yavaşlama yaşanıyor
- Cold start, ilk prompt girişinin işlenmesi (cache miss) ve yüksek ilk donanım yatırımı maliyeti
- LM Studio’ya alıştıktan sonra GUI olmadan doğrudan Llama.cpp kullanmak mümkün. Çoğu harness özel endpoint desteği verdiği için yerel LLM’lerle entegre edilebiliyor
OpenRouter ücretsiz model alternatifi
- OpenRouter, tek bir endpoint ve hesapla yüzlerce modeli sunan birleşik bir API ve yönlendirme hizmeti
- Copilot·Zed·Pi, OpenRouter’ı yerel olarak destekliyor; yalnızca API token oluşturup bağlamak yeterli
- Maliyet patlamasını önlemek için aylık $1 üst sınırına sahip özel bir guardrail oluşturup izin listesine yalnızca ücretsiz modeller eklenmeli
- Yeni API anahtarı oluştururken max credit’in 0 olarak ayarlanması öneriliyor
- Eksileri: Prompt ve veriler eğitimde kullanılabilir (ZDR ayarı var), internet bağlantısı gerekir, OpenRouter ücretsiz model sunmayı bırakabilir
- Artıları: Yerel indirme ve kurulum gerekmez, kullanım sırasında bilgisayar yavaşlamaz
-
2026-06-09 güncellemesi
- Deepseek V4 Pro benimsendi. Claude Opus 4.8’e neredeyse yakın performans sunarken 5 kat context window ve yaklaşık 17~86 kat daha düşük fiyat sağlıyor
- Pi ile OpenRouter arasında fiyatın yaklaşık 3 kat farklı çıkmasının nedeni, OpenRouter’ın istekleri daha pahalı bir endpoint’e (GMICloud) göndermesiydi
- Karmaşık işler için doğrudan Deepseek hesabı açılıyor. Basit işler, davranışı anlama ve gizliliğin önemli olduğu durumlarda ise yerel modeller hâlâ ilk tercih
3 yorum
Sonuçta yerel model kullanırken sonunda deepseek v4 pro'ya gidildiği sonucuna varılmış gibi görünüyor.
Her işte modeli sürekli değiştirerek kullanmak da kolay olmadığından, basit işlerde yereli kullanma yaklaşımı da pek sürdürülebilir gelmedi.
İlla local olmak zorunda değil; opencode, ollama, cursor gibi uygun fiyatlı pek çok abonelik alternatifi var.
Büyük LLM çağında ben buna uygun şekilde eklentiler yapıp kullanıyorum. Bunu daha önce GN SHOW'da da bir kez tanıtmıştım; bu şekilde kendi ihtiyacınıza göre hazırlayıp kullanmak da yöntemlerden biri gibi görünüyor.
https://github.com/hang-in/tunaLlama