Ajan tabanlı kodlamada yerel LLM’lerden yararlanmak

(blog.alexewerlof.com)

38 puan yazan GN⁺ 2026-06-15 | 8 yorum | WhatsApp'ta paylaş

Bulut amiral gemisi modellerin fiyatları hızla artarken, maliyet yükü olmadan kodlama çalışmalarını sürdürebilmek için yerel modellerden yararlanma yöntemleri derleniyor
Yerel modeller SOTA modellerin performansına ulaşmasa da, fiyat/performans ve deterministik harness güçlendirmesiyle kaliteyi 6 kata kadar artırmak mümkün
Kodlama için Gemma 4, genel işler ile kod üretimi arasında iyi bir denge sunuyor; Tools Use·Vision·Reasoning desteği sayesinde VS Code entegrasyonuna uygun
LM Studio ile model sunucusunu ayağa kaldırıp bunu VS Code Copilot·Pi içindeki özel endpoint’e bağlamak için tam kurulum adımları veriliyor
Donanım yetersizse OpenRouter ücretsiz modelleri alternatif olarak kullanılabiliyor; yerel modeller ise çevrimdışı çalışma ve gizlilik açısından hâlâ üstün

Fiyat artışlarının arka planı

GitHub Copilot, kredi modelinden kullanıma dayalı ücretlendirmeye geçti ve mevcut ücretsiz modeller de artık ücretsiz değil
GitHub bir token yeniden satıcısı olduğu için fiyat artışı daha sert hissediliyor. Amiral gemisi modeller, performans artış hızının fiyat artış hızını yakalayamadığı bir şekilde piyasaya sürülüyor
- Google Flash 3.5, Flash 2.5’e göre 3 kat daha pahalı
- GPT 5.5, GPT 5’e göre 3 kat daha pahalı
- Claude ise zaten fazla pahalı olduğu için aksine fiyatını düşürdü

Yerel modellerin gerçekliği ve güçlü yanları

Yerel modeller Claude·GPT·Gemini gibi SOTA modellerin performansına yetişemese de bazı nüanslar var
- Fiyat/performans oranı: Bulut modellerde performans artışıyla birlikte maliyet üstel biçimde yükseliyor
- Deterministik harness: Daha iyi araçlar ve talimatlarla zayıf modellerin kalitesi 6 kata kadar iyileştirilebiliyor
- Benchmark tuzağı: Modelleri tek bir sayıya indirgemek zor ve her AI laboratuvarı kendisine avantaj sağlayan benchmark’lara odaklandığı için kendi iş yükünüzle doğrudan değerlendirme yapmak gerekiyor
- Jeopolitik etki: ABD laboratuvarlarının ücretsiz yayımladığı modeller en üst seviye değil. gpt-oss-20b artık fazla eski, Anthropic ise açık ağırlık yayımlamıyor. Gemma 4 tek ciddi model olarak öne çıkıyor; ayrıca Qwen·Kimi·GLM gibi Çin laboratuvarlarının yayımladığı güçlü modellere dikkat çekiliyor
“brain rot” olgusu açısından bakıldığında, zayıf modeller kullanıcıdan daha fazla müdahale istediği için zihinsel sağlık açısından faydalı
- Bisiklete binmek gibi daha yavaş ama sağlık için iyi. Bilgi işçiliğinde “yavaş olan hızlıdır”
- Amaç, düşünmeyi makineye devredip otomasyonu azamiye çıkarmak değil. Kısa vadeli hız uğruna gelecekteki kendi değerinizi (relevance) feda etmeyin
- Zayıf modellerle çalışma teknikleri büyük modellere de uygulanabilir. Zayıf modellerle çalışmak hard mode oynamak gibidir; bunu öğrenince büyük araçları daha etkili kullanabilirsiniz

Model seçimi — Gemma 4

Kodlama için Çin modelleri Huggingface liderlik tablosunda üst sıraları kaplıyor; Qwen·DeepSeek·Kimi·Llama·Gemma gibi seçenekler var
Gemma 4 birkaç sürümden oluşuyor
- E2B: “E”, edge anlamına geliyor. 2B parametreyle çoğu donanımda çalışsa da halüsinasyon veya işi tamamlayamama riski yüksek
- E4B: E2B’nin iki katı büyüklükte. İndirme ve kurulum maliyeti düşük olduğu için başlangıç için öneriliyor
- 12B: Decoder olmadan görüntüleri yerel olarak anlayabiliyor, bu nedenle frontend ve görsel kodlama işlerinde daha hızlı. Sesi de yerel olarak destekliyor ancak kodlama iş yükleri için bu çok önemli değil
- 26B A4B: 26B parametrenin yalnızca 4B’sinin etkinleştiği MoE (mixture of experts) mimarisi. E4B’den daha akıllı ve 8~12GB VRAM’li ekran kartları için uygun (yazarın tercih ettiği model)
- 31B: Google’ın en büyük açık ağırlıklı modeli. MoE değil ve çok VRAM istiyor. AMD APU’da hızı 1~2 TPS olduğu için kullanılamayacak kadar yavaş
- QAT varyantları (ör. E4B QAT), daha az bellek kullanırken neredeyse aynı kaliteyi koruyor. Unsloth ek optimizasyonlar üzerinde çalışıyor

Yerel modeli çalıştırmak için gereken bileşenler

Yerel model çalıştırmak için harness·model·runtime·model manager gerekiyor
- Harness: VS Code Copilot, Copilot CLI, Pi vb. Modelin (olasılıksal unsur) etrafını saran deterministik bileşenler (geleneksel kod)
- Model: Derin sinir ağı ağırlık dosyası. Quantization (Q8, Q4 vb.) görüntü çözünürlüğüne benzer bir kavram; biçimler ise GGUF·MLX gibi ayrılıyor
Runtime (çıkarım motoru)
- Llama.cpp: En popüler açık kaynak runtime; GGUF·MLX yükleyebiliyor. Meta’nın Llama modeliyle ilgisi yok; LM Studio bunu içeride kullanıyor
- MLX: Apple runtime’ı. M1·M2 gibi Mac sistemlerde kullanılıyor
- ONNX Runtime: transformers.js tabanlı; WebGPU üzerinden tarayıcıda çalışabiliyor, ayrıca iOS·Android mobil desteği var
- vLLM: UC Berkeley çıkışlı açık kaynak; çoğunlukla yüksek performanslı sunucular için, kurulumu zor
Model manager
- Ollama: Terminal CLI olarak başladı, sonra hafif bir GUI eklendi. Llama.cpp’yi saran bir Go wrapper’ı. Açık kaynak
- LM Studio: Ücretsiz ama açık kaynak değil. SDK (Python/TypeScript) ve REST API sağlıyor; yerel modellere özgü özellikleri (dinamik yükleme vb.) kontrol edebiliyor
- Jan: Ücretsiz ve açık kaynaklı, LM Studio’ya benzer bir alternatif ama özellikleri daha sınırlı
- OpenAI uyumlu API desteği temel özellik; çok sayıda AI uygulaması bu fiili standartla çalışıyor

LM Studio sunucu kurulumu

“Developer” düğmesinden sunucu toggle ile başlatılıyor. Başka makine veya container üzerinde çalışacaksa Serve on Local Network, web uygulamasından erişilecekse Enable CORS ayarlanmalı
LM Studio, istek anında modeli yükleyen JIT (Just In Time) loading kullanıyor. TTL ayarıyla bellekte ne kadar tutulacağını kontrol etmek mümkün
- Cold start: Model yüklü değilse ilk istek yaklaşık 10~30 saniye daha uzun sürüyor; AWS Lambda cold start’a benzer. TTFT (Time To First Token) metriğini etkiliyor
- Kısa context window: Varsayılan ayarda context window yalnızca 4k olabilir; elle artırmak gerekiyor. VS Code Copilot modellerinin çoğunda bu değer 200~400k
Context length ve bellek ayarları
- Context length’e göre VRAM gereksinimi: 262144 (maksimum) = 25.74GB, 4096 (varsayılan) = 18.16GB, 150000 (yazarın tercihi) = 22.45GB
- Kodlama için system prompt 20~40k token kapladığından en az 100k token yüklenmeli
- Context çok büyürse token üretim hızı düşüyor. En iyi nokta, harness’in context’i otomatik sıkıştırdığı yer
- İdeal olan tüm model katmanlarını GPU’da çalıştırmak; bu yüzden “GPU Offload” slider’ını en yükseğe getirmek öneriliyor. Katmanlar CPU’da çalışırsa Apple Silicon (UMA) dışındaki sistemlerde CPU-GPU arasında veri kopyalama gerekir
KV cache quantization hilesi
- K Cache Quantization Type Q8_0, V Cache Quantization Type ise Q4_0 olarak ayarlanmalı
- Bu yöntem anahtarları değerlerden daha yüksek çözünürlükte tutuyor. Ayar, GPU bellek gereksinimini varsayılan 28.75GB’tan 22.45GB’a düşürüyor
- Ayarların kaydedilmesi şart. Kaydedilmezse bir sonraki model yüklemede varsayılan değerlere dönülüyor
- VS Code Copilot’ta özel context window talebi kavramı olmadığı için LM Studio’nun REST API çağrılarında bu ayarları hatırlaması gerekiyor
TPS 10’un altındaysa kodlama için katlanmak zor; modelin düşünmesini beklemeye daha fazla zaman harcanıyor

Copilot’u özel endpoint’e bağlamak

Güncel VS Code (yazı yazılırken 1.122.1) gerekiyor. Model seçici → dişli simgesi → “Add Models” → “Custom Endpoint” yoluyla ekleniyor
- Ad veriliyor (ör. “Local LM Studio”), API Key giriliyor (tanımlı değilse Enter), ardından çıkarım API biçimi seçiliyor
- Üç API türü içinde yalnızca Chat Completions sorunsuz çalışıyor
JSON ayarında url, maxInputTokens, maxOutputTokens gibi alanlar elle belirtiliyor
- thinking seçeneği doğru ayarlanmalı (Gemma 4 destekliyor)
- supportsReasoningEffort dizisi modele göre değişiyor; 26B sürümü E4B’ye göre daha ayrıntılı kontrol sunuyor
- 4B için maxInputTokens 64000 / maxOutputTokens 16000, 26B MoE için 100000 / 50000 ayarlanıyor
İlk prompt’ta Copilot devasa bir system prompt ve tool tanımları gönderdiği için ilk etkileşimde 2~5 dakikalık gecikme oluşuyor. Modelin yüklenmesi 30 saniye, prompt girdisinin işlenmesi ise yaklaşık 5 dakika sürüyor
- Bu, oturum başına yalnızca bir kez oluyor ve LM Studio prompt caching uyguluyor. Pi’de system prompt küçük olduğu için bu sorun yok
Hızlı test ve ortam
- AGENTS.md veya SKILL olmadan tek atımlık prompt’la snake oyunu üretilerek Gemma 4 26B A4B performansı gösteriliyor
- Kullanılan ortam: Lenovo Thinkpad L16 Gen 2, AMD Ryzen 7 PRO 250 APU, 64GB DDR5 (5,600MT/s), Aurora Linux. 32GB’ın da yeterli olduğu düşünülüyor

Pi kurulumu

Yerel LM Studio sunucusuna bağlanmak kolay ve contextWindow ayarı LM Studio yapılandırmasıyla daha iyi örtüşüyor
baseUrl http://host.containers.internal:1234/v1, api ise openai-completions olarak ayarlanıyor
- 4B için contextWindow 64000 / maxTokens 16000, 26B MoE için 150000 / 50000 ayarlanıyor ve thinkingLevelMap eşlemesi tanımlanıyor

Yerel modellerin artı ve eksileri

Artıları: Çevrimdışı çalışma, yüksek gizlilik, donanım·iş akışı·model·ayarlara bağlı olarak hızlı yanıt süresi
Eksileri
- Açık ağırlıklı modeller, amiral gemisi kapalı modellere göre daha az akıllı; ancak uygun guardrail’lere (lint·test·AGENTS.md) sahip bir harness ile kodlama doğruluğu ciddi ölçüde artırılabiliyor
- LLM aynı makinede çalıştırıldığında donanım yükü nedeniyle yavaşlama yaşanıyor
- Cold start, ilk prompt girişinin işlenmesi (cache miss) ve yüksek ilk donanım yatırımı maliyeti
LM Studio’ya alıştıktan sonra GUI olmadan doğrudan Llama.cpp kullanmak mümkün. Çoğu harness özel endpoint desteği verdiği için yerel LLM’lerle entegre edilebiliyor

OpenRouter ücretsiz model alternatifi

OpenRouter, tek bir endpoint ve hesapla yüzlerce modeli sunan birleşik bir API ve yönlendirme hizmeti
Copilot·Zed·Pi, OpenRouter’ı yerel olarak destekliyor; yalnızca API token oluşturup bağlamak yeterli
- Maliyet patlamasını önlemek için aylık $1 üst sınırına sahip özel bir guardrail oluşturup izin listesine yalnızca ücretsiz modeller eklenmeli
- Yeni API anahtarı oluştururken max credit’in 0 olarak ayarlanması öneriliyor
Eksileri: Prompt ve veriler eğitimde kullanılabilir (ZDR ayarı var), internet bağlantısı gerekir, OpenRouter ücretsiz model sunmayı bırakabilir
Artıları: Yerel indirme ve kurulum gerekmez, kullanım sırasında bilgisayar yavaşlamaz
2026-06-09 güncellemesi
- Deepseek V4 Pro benimsendi. Claude Opus 4.8’e neredeyse yakın performans sunarken 5 kat context window ve yaklaşık 17~86 kat daha düşük fiyat sağlıyor
- Pi ile OpenRouter arasında fiyatın yaklaşık 3 kat farklı çıkmasının nedeni, OpenRouter’ın istekleri daha pahalı bir endpoint’e (GMICloud) göndermesiydi
- Karmaşık işler için doğrudan Deepseek hesabı açılıyor. Basit işler, davranışı anlama ve gizliliğin önemli olduğu durumlarda ise yerel modeller hâlâ ilk tercih

8 yorum

emptybynature 2026-06-15

Öncelikle, 128 GB’lık m5 max MacBook’umda yerel LLM kullanmak için epey uğraşsam da vardığım sonuç, maliyet ve zaman açısından doğrudan deepseek kullanmanın çok daha iyi olduğu oldu. Yerel modelleri de epey çeşitli denedim ama sonuçta deepseek v4 flash en iyisiydi. Ama o bile bulut modelleriyle kıyaslanamaz. Mevcut LLM paradigmasını değiştirecek kadar büyük bir şey çıkmadığı sürece ve Çinli şirketler sağ olsun şu anki gibi düşük fiyatları koruduğu sürece, aslında yerel LLM’lerin ulaşabileceği en fazla nokta oyuncak kullanımı. Deepseek ve mimo gerçekten o kadar ucuz ki yerel LLM’lerin araya girip kendine yer açması mümkün olmuyor.

kirinonakar 2026-06-15

İlla local olmak zorunda değil; opencode, ollama, cursor gibi uygun fiyatlı pek çok abonelik alternatifi var.

click 2026-06-15

Sonuçta yerel model kullanırken sonunda deepseek v4 pro'ya gidildiği sonucuna varılmış gibi görünüyor.
Her işte modeli sürekli değiştirerek kullanmak da kolay olmadığından, basit işlerde yereli kullanma yaklaşımı da pek sürdürülebilir gelmedi.

b89kim 2026-06-16

Yalnızca Pi-coding-agent+Qwen3.6-27B-MTP-GGUF kullansanız bile Sonnet 4.5 seviyesinde bir performans alabiliyorsunuz. Basit bir uygulama yapmak için yeterli oluyor; gerektiğinde ücretsiz API'leri de (GLM5.1 vb.) ara sıra ekleyerek kullanıyorum. 4090/5090 sınıfı bir GPU'nuz varsa hız da gayet iyi oluyor ve rahatlıkla kullanılabiliyor. HN'ye bakınca da genelde benzer tepkiler görüyorum. Gemma4 12B QAT'ten itibaren performans biraz belirsizleşiyor, ama doküman özetleme veya basit kodlama için hâlâ sorun çıkarmadı.

ly0738 2026-06-15

Belirli bir amaç yoksa local LLM’ler şu an maliyet açısından verimsiz görünüyor.
Frontier modellerde sansür olduğu için, benden istenen bazı işleri reddettikleri oluyor.
DeepSeek ise daha gevşekti.

kaydash 2026-06-15

Ama yetenekleri çok yetersiz..

3ae3ae 2026-06-15

smallcode adında, küçük yerel modellere özel bir harness da varmış; kullanan var mı?
Bağlam uzunluğunu mümkün olduğunca kısa tutması ve tool call biçim hatalarını da belli ölçüde toparlaması etkileyici görünmüştü.

kurthong 2026-06-15

Büyük LLM çağında ben buna uygun şekilde eklentiler yapıp kullanıyorum. Bunu daha önce GN SHOW'da da bir kez tanıtmıştım; bu şekilde kendi ihtiyacınıza göre hazırlayıp kullanmak da yöntemlerden biri gibi görünüyor.

https://github.com/hang-in/tunaLlama

Ajan tabanlı kodlamada yerel LLM’lerden yararlanmak

Fiyat artışlarının arka planı

Yerel modellerin gerçekliği ve güçlü yanları

Model seçimi — Gemma 4

Yerel modeli çalıştırmak için gereken bileşenler

Runtime (çıkarım motoru)

Model manager

LM Studio sunucu kurulumu

Context length ve bellek ayarları

KV cache quantization hilesi

Copilot’u özel endpoint’e bağlamak

Hızlı test ve ortam

Pi kurulumu

Yerel modellerin artı ve eksileri

OpenRouter ücretsiz model alternatifi

2026-06-09 güncellemesi

İlgili okumalar

8 yorum