LM Studio Headless CLI ve Claude Code ile Google Gemma 4'ü Yerelde Çalıştırmak

(ai.georgeliu.com)

17 puan yazan GN⁺ 24 일 전 | 1 yorum | WhatsApp'ta paylaş

Gemma 4, mixture-of-experts yapısıyla parametrelerin yalnızca bir kısmını etkinleştirerek düşük donanımda da yüksek performanslı çıkarım sunuyor
LM Studio 0.4.0, yeni Headless CLI (llmster) ile masaüstü uygulaması olmadan model indirme, yükleme, sohbet ve API sunucusu çalıştırmayı mümkün kılıyor
OpenAI ve Anthropic uyumlu API sayesinde Gemma 4'ü yerel sunucu olarak sunmak ve Claude Code'u tamamen çevrimdışı bir kod asistanı olarak kullanmak mümkün
Bağlam uzunluğu, GPU offloading ve paralel istekler gibi ayrıntılı donanım ayarlarıyla performans ve bellek verimliliği ayarlanabiliyor
MoE model tabanlı yerel çıkarım, API maliyeti olmadan hızlı kod incelemesi ve prompt testi yapmayı mümkün kılıyor; ayrıca geliştiriciler için çevrimdışı yapay zeka ortamı kurmanın temel teknolojilerinden biri olarak öne çıkıyor

Google Gemma 4'ü yerelde çalıştırmak — LM Studio'nun yeni Headless CLI'ı ve Claude Code entegrasyonu

Yerelde çalıştırma neden gerekli?
- Bulut AI API'leri ücret, hız sınırı, gizlilik ve ağ gecikmesi gibi kısıtlamalara sahip
- Kod inceleme, taslak hazırlama ve prompt testi gibi hızlı yinelemeli işlerde yerel model çalıştırma daha avantajlı
- Yerel çalıştırma; 0 API maliyeti, verinin dışarı gönderilmemesi ve her zaman kullanılabilir olma gibi avantajlar sunuyor
- Gemma 4, mixture-of-experts (MoE) yapısı sayesinde 26B modelde yalnızca 4B parametreyi etkinleştirerek düşük donanımda da yüksek performansla çalışabiliyor
  - M4 Pro MacBook (48GB) üzerinde saniyede 51 token üretim hızına ulaşıyor; Claude Code içinde ise biraz daha yavaş çalışıyor
Gemma 4 model ailesi
- Google, Gemma 4'ü farklı donanımlar için optimize edilmiş 4 model ailesi olarak yayımladı
- E serisi (E2B, E4B), Per-Layer Embeddings kullanıyor ve ses girdisini (konuşma tanıma ve çeviri) destekliyor
- 31B dense model, MMLU Pro'da %85.2 ve AIME 2026'da %89.2 performans gösteriyor
- 26B-A4B modeli, 128 uzmandan yalnızca 8'ini (3.8B parametre) etkinleştirerek 10B sınıfı kaliteyi 4B sınıfı maliyetle sunuyor
- MMLU Pro'da %82.6, AIME'da %88.3 ile 31B dense modele yaklaşıyor ve Elo 1441 ile 400B+ modellerle rekabet ediyor
- 256K bağlam, görsel girdi, fonksiyon çağrısı ve çıkarım modu ayarı desteğiyle yerel çıkarım için uygun
LM Studio 0.4.0'daki başlıca değişiklikler
- llmster adlı bağımsız çıkarım motoru sayesinde masaüstü uygulaması olmadan CLI üzerinden tamamen çalıştırılabiliyor
  - lms CLI ile model indirme, yükleme, sohbet ve sunucu çalıştırma işlemlerinin tamamı yapılabiliyor
  - Başlıca özellikler:
  - llmster daemon: arka planda model yükleme ve çıkarımı yönetir
  - Paralel istek işleme: continuous batching ile birden çok isteği aynı anda işler
  - Stateful REST API: /v1/chat endpoint'i üzerinden sohbet geçmişini korur
  - MCP entegrasyonu: yerel Model Context Protocol desteği
Kurulum ve model indirme
- Kurulum komutu:
```
curl -fsSL https://lmstudio.ai/install.sh | bash
```
- Daemon başlatma: lms daemon up
- Runtime güncelleme: lms runtime update llama.cpp, lms runtime update mlx
- Gemma 4 26B modelini indirme: lms get google/gemma-4-26b-a4b
- Varsayılan quantization: Q4_K_M (17.99GB)
- İndirdikten sonra lms load google/gemma-4-26b-a4b ile yükleniyor
Yerel model yönetimi
- Kurulu model listesini görme: lms ls
- Örnek çıktıda Gemma 4, Qwen 3.5, GLM 4.7 Flash gibi çok sayıda MoE model yer alıyor
- MoE modeller, yalnızca etkin parametrelerin bir kısmını kullanarak verimli çıkarım sağlayabiliyor
Sohbet çalıştırma ve performans
- Sohbet başlatma: lms chat google/gemma-4-26b-a4b --stats
- Örnek çıktı:
```
Tokens/Second: 51.35
Time to First Token: 1.551s
```
- 51 tok/sn ve 1.5 saniyelik ilk yanıt süresi, etkileşimli kullanım için yeterli hız sunuyor
Model durumu ve bellek kontrolü
- Yüklenmiş modelleri görme: lms ps
- Örnek: 17.99GB bellek kullanımı, 48K bağlam, 2 paralel istek, 1 saat TTL
- JSON çıktısında (lms ps --json | jq) görülebilen başlıca alanlar:
  - "architecture": "gemma4"
  - "quantization": {"name": "Q4_K_M", "bits": 4}
  - "vision": true, "trainedForToolUse": true
  - "maxContextLength": 262144, "parallel": 2
Bağlam uzunluğuna göre bellek tahmini
- --estimate-only seçeneğiyle bellek gereksinimi önceden tahmin edilebiliyor
- Temel model yaklaşık 17.6GiB, bağlam her 2 katına çıktığında 3–4GiB artıyor
- 48K bağlamda yaklaşık 21GiB, 256K'de ise 37.48GiB gerekiyor
- Komut örneği:
```
lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
```
- Bağlam uzunluğu ile bellek arasındaki doğrusal ilişki, kapasite planlaması için kullanışlı
Donanıma göre yükleme ayarı
- Bağlam uzunluğu
  - İşletim sisteminin kullanacağı 4–6GB çıkarıldıktan sonra kalan bellek sınırına göre ayarlanmalı
  - Örnek: lms load google/gemma-4-26b-a4b --context-length 128000
- GPU offloading
  - Apple Silicon, birleşik bellek mimarisi kullandığı için --gpu=1.0 ile tüm GPU kullanılabiliyor
  - NVIDIA sistemlerde VRAM sınırına göre --gpu=0.5 gibi bölüştürme yapılabiliyor
- Paralel istekler
  - Continuous batching sayesinde birden çok istek aynı anda işlenebiliyor
  - GUI'de Max Concurrent Predictions ayarı bulunuyor (varsayılan 4)
  - Gemma 4 için 48GB sistemde 48K bağlam ve 2 paralel istek uygun görülüyor
- TTL ile otomatik unload
  - --ttl 1800 ile 30 dakika hareketsizlik sonrası otomatik kaldırma yapılabiliyor
  - Varsayılan 1 saat; 0 veya -1 ile devre dışı bırakılabiliyor
- Model bazında varsayılanları kaydetme
  - Masaüstü uygulamasında My Models → ayarlar simgesi üzerinden GPU, bağlam ve Flash Attention varsayılanları kaydedilebiliyor
- Speculative Decoding
  - MoE modellerde verimsiz olduğundan Gemma 4 için devre dışı bırakılması öneriliyor
  - Mixtral testlerinde kod işlerinde %39 iyileşme, matematik işlerinde %54 düşüş görülmüş
- Flash Attention
  - KV cache belleğini azaltarak uzun bağlam desteği sağlıyor
  - Apple Silicon'da etkinleştirildiğinde bellek tasarrufu sağlayabiliyor
LM Studio masaüstü uygulaması
- GUI üzerinden sunucu durumu, model yükleme, API endpoint'leri ve log akışı görselleştirilebiliyor
- Anthropic protokolü (POST /v1/messages) de destekleniyor
- Görsel yetenekleri ile görsel analizi yapılabiliyor
- Örnek: Timezone Scheduler görseli analizinde 504 token üretildi, 54.51 tok/sn hız elde edildi
- Sistem izleme sonuçları:
  - Bellek kullanımı 46.69GB/48GB, swap 27.49GB
  - GPU %90 kullanım, CPU 91°C, GPU 92°C
  - Güç tüketimi 23.56W (CPU 11.06W, GPU 13.32W)
- Birleşik bellek mimarisi sayesinde CPU ile GPU arasında veri kopyalamaya gerek yok
Modeli API sunucusu olarak sunmak
- Sunucuyu başlatma: lms server start
- OpenAI uyumlu API: http://localhost:1234/v1
- Anthropic uyumlu endpoint: POST /v1/messages
- Port değiştirme: --port 8080
- JIT model yükleme ile istek geldiğinde otomatik yükleme ve TTL sonrasında otomatik kaldırma yapılabiliyor
- Gerçek zamanlı log akışı: lms log stream --source model --stats
- Ağdaki diğer cihazlardan da erişilebiliyor, API token doğrulaması destekleniyor
Claude Code ile entegrasyon
- Anthropic uyumlu endpoint üzerinden Claude Code yerel modelle çalıştırılabiliyor
- ~/.zshrc dosyasına claude-lm fonksiyonu ekleniyor:
```
export ANTHROPIC_BASE_URL=http://localhost:1234
export ANTHROPIC_MODEL="gemma-4-26b-a4b"
...
claude "$@"
```
- Claude Code'un tüm model çağrıları (Opus, Sonnet, Haiku) Gemma 4'e yönlendiriliyor
- 48K bağlam, 8K token çıktı sınırı ve yalnızca yerel ortam yapılandırılıyor
- claude-lm çalıştırıldığında tamamen çevrimdışı bir kod asistanı kullanılabiliyor
- Hızı buluta göre daha düşük olsa da kod inceleme, küçük düzeltmeler ve keşif amaçlı işler için uygun
Ana çıkarımlar
- MoE modeller yerel çıkarımın merkezinde: Gemma 4 26B-A4B, 10B sınıfı kaliteyi 4B sınıfı maliyetle sunuyor
- Headless daemon ile tamamen CLI tabanlı bir iş akışı kurulabiliyor
- Bağlam uzunluğu, bellek kullanımındaki ana değişken
- --estimate-only ile OOM önleme mümkün
- Anthropic uyumlu endpoint sayesinde Claude Code yerelde tamamen çevrimdışı çalıştırılabiliyor
Sınırlamalar
- lms chat, model adını doğrudan göstermiyor
- Varsayılan 48K bağlam muhafazakâr kalıyor; bellek uygunsa artırılması öneriliyor
- Claude Code'un yerel kullanımı, Anthropic API'nin tam yerine geçemiyor; büyük ölçekli işlerde kısıtlar var
- 48GB sistemlerde bellek baskısı ve swap kullanımı oluşuyor; 64GB ve üzeri öneriliyor
Sonraki adımlar
- Qwen 3.5 35B, GLM 4.7 Flash ve Nemotron 3 Nano ile karşılaştırmalı testler planlanıyor
- Çalıştırma adımlarının özeti:
```
curl -fsSL https://lmstudio.ai/install.sh | bash
lms daemon up
lms get google/gemma-4-26b-a4b
lms chat google/gemma-4-26b-a4b --stats
```
- Claude Code entegrasyonu için claude-lm fonksiyonu eklenip ardından claude-lm çalıştırılıyor
- Yerel yapay zeka iş akışı kurmak ve bunu web uygulamalarıyla ya da geliştirici ortamlarıyla entegre etmek için kullanılabiliyor

1 yorum

GN⁺ 24 일 전

Hacker News yorumları

Yerel LLM çalıştırmak için doğrudan llama.cpp server kullanılabilir ve Claude Code ya da diğer CLI ajanlarında bundan yararlanılabilir
M1 Max 64GB MacBook üzerinde Gemma4 gibi güncel açık ağırlıklı LLM'leri test eden tam kurulum rehberi paylaşılmış
26BA4B modeli bu donanımda en ilgi çekici olanıydı ve Qwen3.5 35BA3B'ye kıyasla neredeyse iki kat daha hızlı token üretim hızı (40 tok/s) gösterdi
Ancak tau2 benchmark sonuçları Qwen varyantlarından daha düşüktü (%68 vs %81), bu yüzden araç odaklı karmaşık işler için uygun olmayabileceği düşünülüyor
- Claude Code'da Anthropic ile OpenAI arasındaki spesifikasyon çakışması sorunları yaşanıp yaşanmadığını merak ediyorum
  Ben mlx_vlm ve vMLX kullanıyorum, Claude Code'da 400 Bad Request hatası alıyorum
  llama-server'da da böyle bir sorun olup olmadığını sormak istiyorum
Yerel modellerin artık sadece “mümkün” olma seviyesini aşıp rahat kullanılabilir bir aşamaya geldiğini hissediyorum
Özellikle headless LM Studio akışı etkileyici. Gerçek araçlarda yerel çıkarımı kullanmayı mümkün kılıyor
Ben cloclo adlı açık kaynak bir CLI kodlama ajanı geliştiriyorum; LM Studio, Ollama, vLLM, Jan, llama.cpp gibi çeşitli backend'leri destekliyor
Yerel modeller kişisel ve ucuz günlük kullanım için, bulut modeller ise yüksek performanslı işler için; bu ikisinin birleşimi ideal bir kombinasyona yaklaşıyor
- cloclo'nun pi-mono'dan hangi yönleriyle farklı olduğunu merak ediyorum
Buradaki asıl mesele Gemma 4'ün kendisinden çok, harness ile modelin tamamen ayrılmış olması
Claude Code, OpenCode, Pi, Codex artık herhangi bir backend ile çalışabiliyor
Yani kodlama ajanları giderek genelleşmiş bir katman hâline geliyor ve rekabetin odağı model kalitesi ile maliyete kayıyor
Bu kullanıcılar için iyi, harness'e bağımlı şirketler için ise tehdit edici
- Bence tam tersi. Genelleşen şey model ve gerçek performans artışının anahtarı harness ile tooling tarafında
  Örneğin “Improving 15 LLMs at Coding in One Afternoon” yazısında da yalnızca harness değiştirilerek büyük iyileşme sağlandığı söyleniyordu
- Aslında Claude Code ya da OpenCode'u doğrudan yerel bir HTTP endpoint'e bağlamak zaten mümkündü
ollama launch claude --model gemma4:26b komutuyla kolayca çalıştırılabiliyor
- context window boyutu artırılmazsa araç çağırma özelliği çalışmıyor
- Sadece ollama ve claude kuruluysa bunun bu kadar kolay çalışması şaşırtıcı
- Ama benim durumumda çalışmadı. claude sonsuz döngüye giriyor ve yanıt vermiyor
  Nemotron, glm, qwen 3.5 düzgün çalışıyor ama sorun yalnızca gemma'da
Bu yaklaşımın web yazılım testi otomasyonu için de faydalı olabileceğini düşünüyorum
Selenium veya Puppeteer, web tasarımı biraz değişse bile testlerin bozulmasına yatkın
Buna karşılık bu tür modeller değişime uyum sağlayabildiği için daha esnek testler mümkün olabilir
Özellikle küçük modellerle bile yeterince işe yarayacak gibi görünüyor
MoE gerçekte (V)RAM tasarrufu sağlamaz
Tüm ağırlıkların bellekte kalması gerekir, yalnızca tek bir çıkarım sırasında bunların bir kısmı kullanılır
Bu yüzden tok/s iyileşir ama VRAM kullanımı aynı kalır
- Ben de başta bunu karıştırmıştım. Etkin olmayan uzmanlar hesaplamayı atlar ama yine de belleğe yüklenmiş olur
  Bu görselleştirme bunu anlamaya yardımcı olmuştu
- Bazı çıkarım motorlarında uzmanların bir kısmı CPU RAM'e offload edilebilir
  Örneğin 35B parametreli bir MoE, 12GB VRAM GPU + 16GB RAM kombinasyonunda çalıştırılabilir
- Tüm ağırlıkları aynı anda bellekte tutmak zorunda değilsiniz
  RAM, disk, ağ gibi kaynaklardan yalnızca gereken parçaları değiştirerek yüklemek mümkün
  MoE, bir sonraki çıkarım adımında değiştirilmesi gereken veri miktarını azaltır
Claude Code'u veri pipeline'ındaki yinelemeli işler için ana arayüz olarak kullanıyorum
Özellikle devlet düzenleyici bildirimlerini (XBRL) standartlaştırıp bunları REST ve MCP ile sunma işinde
MCP ilginç olan kısım; istemciyi doğrudan çağırmak yerine araçları bildirime dayalı olarak tanımlıyorsunuz ve modeli ne zaman çağıracağına o karar veriyor
Örneğin “bu şirketin 10 yıllık kaldıraç eğilimini sektör ortalamasıyla karşılaştır” gibi bir sorgu, otomatik olarak uygun araç çağrısı dizisine ayrılıyor
Ancak MCP'nin etkileşimli kullanımında gecikme (latency) çok daha hassas
2 saniyelik yanıtlar script içinde sorun değil ama konuşma akışını bozuyor
Bu yüzden sık kullanılan tabloları bellekte cache'leyerek 100ms altı yanıt elde ettim
Başkalarının da bu tür gecikme eşikleri yaşayıp yaşamadığını merak ediyorum
- Ben de MCP'yi faydalı buluyorum ama token kullanımı hızla artabiliyor
  Basit uygulamalarda aynı işlev için on binlerce ek token harcanabiliyor
  Anthropic'in açıklama yazısı var ama biraz eski bir kaynak
- Benim deneyimimde araç çağrısı başına 300~500ms doğal üst sınır gibi
  Bunun üstünde çok adımlı zincirler yavaşlıyor ve model gereksiz akıl yürütme ekleyerek bağlamı şişiriyor
  Cache'e ek olarak, birden fazla veriyi tek seferde döndürerek gidiş-geliş çağrı sayısını azaltma stratejisi de etkili olmuştu
macOS'te Gemma 4 26B'yi Claude Code için yerel çıkarım olarak kurma yöntemi paylaşılmış
- Bence çok iyi bir derleme
İleride büyük yapay zeka laboratuvarlarının yerel LLM'leri paralel olarak çalıştırıp bulut yükünü azaltması, ağır hesaplamaları ise yalnızca bulutta işlemesi mümkün olabilir gibi görünüyor
- Ama bunun onların iş modeliyle çelişip çelişmeyeceğini merak ediyorum
Gemma 4 modelinin ajan tabanlı kodlama işlerinde ne kadar iyi çalıştığını ve pratikte nasıl bir izlenim bıraktığını merak ediyorum

LM Studio Headless CLI ve Claude Code ile Google Gemma 4'ü Yerelde Çalıştırmak

Google Gemma 4'ü yerelde çalıştırmak — LM Studio'nun yeni Headless CLI'ı ve Claude Code entegrasyonu

Yerelde çalıştırma neden gerekli?

Gemma 4, mixture-of-experts (MoE) yapısı sayesinde 26B modelde yalnızca 4B parametreyi etkinleştirerek düşük donanımda da yüksek performansla çalışabiliyor

Gemma 4 model ailesi

LM Studio 0.4.0'daki başlıca değişiklikler

llmster adlı bağımsız çıkarım motoru sayesinde masaüstü uygulaması olmadan CLI üzerinden tamamen çalıştırılabiliyor

Kurulum ve model indirme

Yerel model yönetimi

Sohbet çalıştırma ve performans

Model durumu ve bellek kontrolü

Bağlam uzunluğuna göre bellek tahmini

Donanıma göre yükleme ayarı

Bağlam uzunluğu

GPU offloading

Paralel istekler

TTL ile otomatik unload

Model bazında varsayılanları kaydetme

Speculative Decoding

Flash Attention

LM Studio masaüstü uygulaması

Modeli API sunucusu olarak sunmak

Claude Code ile entegrasyon

Ana çıkarımlar

Sınırlamalar

Sonraki adımlar

İlgili okumalar

1 yorum

Hacker News yorumları

`llmster` adlı bağımsız çıkarım motoru sayesinde masaüstü uygulaması olmadan CLI üzerinden tamamen çalıştırılabiliyor