17 puan yazan GN⁺ 24 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Gemma 4, mixture-of-experts yapısıyla parametrelerin yalnızca bir kısmını etkinleştirerek düşük donanımda da yüksek performanslı çıkarım sunuyor
  • LM Studio 0.4.0, yeni Headless CLI (llmster) ile masaüstü uygulaması olmadan model indirme, yükleme, sohbet ve API sunucusu çalıştırmayı mümkün kılıyor
  • OpenAI ve Anthropic uyumlu API sayesinde Gemma 4'ü yerel sunucu olarak sunmak ve Claude Code'u tamamen çevrimdışı bir kod asistanı olarak kullanmak mümkün
  • Bağlam uzunluğu, GPU offloading ve paralel istekler gibi ayrıntılı donanım ayarlarıyla performans ve bellek verimliliği ayarlanabiliyor
  • MoE model tabanlı yerel çıkarım, API maliyeti olmadan hızlı kod incelemesi ve prompt testi yapmayı mümkün kılıyor; ayrıca geliştiriciler için çevrimdışı yapay zeka ortamı kurmanın temel teknolojilerinden biri olarak öne çıkıyor

Google Gemma 4'ü yerelde çalıştırmak — LM Studio'nun yeni Headless CLI'ı ve Claude Code entegrasyonu

  • Yerelde çalıştırma neden gerekli?

    • Bulut AI API'leri ücret, hız sınırı, gizlilik ve ağ gecikmesi gibi kısıtlamalara sahip
    • Kod inceleme, taslak hazırlama ve prompt testi gibi hızlı yinelemeli işlerde yerel model çalıştırma daha avantajlı
    • Yerel çalıştırma; 0 API maliyeti, verinin dışarı gönderilmemesi ve her zaman kullanılabilir olma gibi avantajlar sunuyor
    • Gemma 4, mixture-of-experts (MoE) yapısı sayesinde 26B modelde yalnızca 4B parametreyi etkinleştirerek düşük donanımda da yüksek performansla çalışabiliyor

      • M4 Pro MacBook (48GB) üzerinde saniyede 51 token üretim hızına ulaşıyor; Claude Code içinde ise biraz daha yavaş çalışıyor
  • Gemma 4 model ailesi

    • Google, Gemma 4'ü farklı donanımlar için optimize edilmiş 4 model ailesi olarak yayımladı
    • E serisi (E2B, E4B), Per-Layer Embeddings kullanıyor ve ses girdisini (konuşma tanıma ve çeviri) destekliyor
    • 31B dense model, MMLU Pro'da %85.2 ve AIME 2026'da %89.2 performans gösteriyor
    • 26B-A4B modeli, 128 uzmandan yalnızca 8'ini (3.8B parametre) etkinleştirerek 10B sınıfı kaliteyi 4B sınıfı maliyetle sunuyor
    • MMLU Pro'da %82.6, AIME'da %88.3 ile 31B dense modele yaklaşıyor ve Elo 1441 ile 400B+ modellerle rekabet ediyor
    • 256K bağlam, görsel girdi, fonksiyon çağrısı ve çıkarım modu ayarı desteğiyle yerel çıkarım için uygun
  • LM Studio 0.4.0'daki başlıca değişiklikler

    • llmster adlı bağımsız çıkarım motoru sayesinde masaüstü uygulaması olmadan CLI üzerinden tamamen çalıştırılabiliyor

      • lms CLI ile model indirme, yükleme, sohbet ve sunucu çalıştırma işlemlerinin tamamı yapılabiliyor
      • Başlıca özellikler:
      • llmster daemon: arka planda model yükleme ve çıkarımı yönetir
      • Paralel istek işleme: continuous batching ile birden çok isteği aynı anda işler
      • Stateful REST API: /v1/chat endpoint'i üzerinden sohbet geçmişini korur
      • MCP entegrasyonu: yerel Model Context Protocol desteği
  • Kurulum ve model indirme

    • Kurulum komutu:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      
    • Daemon başlatma: lms daemon up
    • Runtime güncelleme: lms runtime update llama.cpp, lms runtime update mlx
    • Gemma 4 26B modelini indirme: lms get google/gemma-4-26b-a4b
    • Varsayılan quantization: Q4_K_M (17.99GB)
    • İndirdikten sonra lms load google/gemma-4-26b-a4b ile yükleniyor
  • Yerel model yönetimi

    • Kurulu model listesini görme: lms ls
    • Örnek çıktıda Gemma 4, Qwen 3.5, GLM 4.7 Flash gibi çok sayıda MoE model yer alıyor
    • MoE modeller, yalnızca etkin parametrelerin bir kısmını kullanarak verimli çıkarım sağlayabiliyor
  • Sohbet çalıştırma ve performans

    • Sohbet başlatma: lms chat google/gemma-4-26b-a4b --stats
    • Örnek çıktı:
      Tokens/Second: 51.35
      Time to First Token: 1.551s
      
    • 51 tok/sn ve 1.5 saniyelik ilk yanıt süresi, etkileşimli kullanım için yeterli hız sunuyor
  • Model durumu ve bellek kontrolü

    • Yüklenmiş modelleri görme: lms ps
    • Örnek: 17.99GB bellek kullanımı, 48K bağlam, 2 paralel istek, 1 saat TTL
    • JSON çıktısında (lms ps --json | jq) görülebilen başlıca alanlar:
      • "architecture": "gemma4"
      • "quantization": {"name": "Q4_K_M", "bits": 4}
      • "vision": true, "trainedForToolUse": true
      • "maxContextLength": 262144, "parallel": 2
  • Bağlam uzunluğuna göre bellek tahmini

    • --estimate-only seçeneğiyle bellek gereksinimi önceden tahmin edilebiliyor
    • Temel model yaklaşık 17.6GiB, bağlam her 2 katına çıktığında 3–4GiB artıyor
    • 48K bağlamda yaklaşık 21GiB, 256K'de ise 37.48GiB gerekiyor
    • Komut örneği:
      lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
      
    • Bağlam uzunluğu ile bellek arasındaki doğrusal ilişki, kapasite planlaması için kullanışlı
  • Donanıma göre yükleme ayarı

    • Bağlam uzunluğu

      • İşletim sisteminin kullanacağı 4–6GB çıkarıldıktan sonra kalan bellek sınırına göre ayarlanmalı
      • Örnek: lms load google/gemma-4-26b-a4b --context-length 128000
    • GPU offloading

      • Apple Silicon, birleşik bellek mimarisi kullandığı için --gpu=1.0 ile tüm GPU kullanılabiliyor
      • NVIDIA sistemlerde VRAM sınırına göre --gpu=0.5 gibi bölüştürme yapılabiliyor
    • Paralel istekler

      • Continuous batching sayesinde birden çok istek aynı anda işlenebiliyor
      • GUI'de Max Concurrent Predictions ayarı bulunuyor (varsayılan 4)
      • Gemma 4 için 48GB sistemde 48K bağlam ve 2 paralel istek uygun görülüyor
    • TTL ile otomatik unload

      • --ttl 1800 ile 30 dakika hareketsizlik sonrası otomatik kaldırma yapılabiliyor
      • Varsayılan 1 saat; 0 veya -1 ile devre dışı bırakılabiliyor
    • Model bazında varsayılanları kaydetme

      • Masaüstü uygulamasında My Models → ayarlar simgesi üzerinden GPU, bağlam ve Flash Attention varsayılanları kaydedilebiliyor
    • Speculative Decoding

      • MoE modellerde verimsiz olduğundan Gemma 4 için devre dışı bırakılması öneriliyor
      • Mixtral testlerinde kod işlerinde %39 iyileşme, matematik işlerinde %54 düşüş görülmüş
    • Flash Attention

      • KV cache belleğini azaltarak uzun bağlam desteği sağlıyor
      • Apple Silicon'da etkinleştirildiğinde bellek tasarrufu sağlayabiliyor
  • LM Studio masaüstü uygulaması

    • GUI üzerinden sunucu durumu, model yükleme, API endpoint'leri ve log akışı görselleştirilebiliyor
    • Anthropic protokolü (POST /v1/messages) de destekleniyor
    • Görsel yetenekleri ile görsel analizi yapılabiliyor
    • Örnek: Timezone Scheduler görseli analizinde 504 token üretildi, 54.51 tok/sn hız elde edildi
    • Sistem izleme sonuçları:
      • Bellek kullanımı 46.69GB/48GB, swap 27.49GB
      • GPU %90 kullanım, CPU 91°C, GPU 92°C
      • Güç tüketimi 23.56W (CPU 11.06W, GPU 13.32W)
    • Birleşik bellek mimarisi sayesinde CPU ile GPU arasında veri kopyalamaya gerek yok
  • Modeli API sunucusu olarak sunmak

    • Sunucuyu başlatma: lms server start
    • OpenAI uyumlu API: http://localhost:1234/v1
    • Anthropic uyumlu endpoint: POST /v1/messages
    • Port değiştirme: --port 8080
    • JIT model yükleme ile istek geldiğinde otomatik yükleme ve TTL sonrasında otomatik kaldırma yapılabiliyor
    • Gerçek zamanlı log akışı: lms log stream --source model --stats
    • Ağdaki diğer cihazlardan da erişilebiliyor, API token doğrulaması destekleniyor
  • Claude Code ile entegrasyon

    • Anthropic uyumlu endpoint üzerinden Claude Code yerel modelle çalıştırılabiliyor
    • ~/.zshrc dosyasına claude-lm fonksiyonu ekleniyor:
      export ANTHROPIC_BASE_URL=http://localhost:1234
      export ANTHROPIC_MODEL="gemma-4-26b-a4b"
      ...
      claude "$@"
      
    • Claude Code'un tüm model çağrıları (Opus, Sonnet, Haiku) Gemma 4'e yönlendiriliyor
    • 48K bağlam, 8K token çıktı sınırı ve yalnızca yerel ortam yapılandırılıyor
    • claude-lm çalıştırıldığında tamamen çevrimdışı bir kod asistanı kullanılabiliyor
    • Hızı buluta göre daha düşük olsa da kod inceleme, küçük düzeltmeler ve keşif amaçlı işler için uygun
  • Ana çıkarımlar

    • MoE modeller yerel çıkarımın merkezinde: Gemma 4 26B-A4B, 10B sınıfı kaliteyi 4B sınıfı maliyetle sunuyor
    • Headless daemon ile tamamen CLI tabanlı bir iş akışı kurulabiliyor
    • Bağlam uzunluğu, bellek kullanımındaki ana değişken
    • --estimate-only ile OOM önleme mümkün
    • Anthropic uyumlu endpoint sayesinde Claude Code yerelde tamamen çevrimdışı çalıştırılabiliyor
  • Sınırlamalar

    • lms chat, model adını doğrudan göstermiyor
    • Varsayılan 48K bağlam muhafazakâr kalıyor; bellek uygunsa artırılması öneriliyor
    • Claude Code'un yerel kullanımı, Anthropic API'nin tam yerine geçemiyor; büyük ölçekli işlerde kısıtlar var
    • 48GB sistemlerde bellek baskısı ve swap kullanımı oluşuyor; 64GB ve üzeri öneriliyor
  • Sonraki adımlar

    • Qwen 3.5 35B, GLM 4.7 Flash ve Nemotron 3 Nano ile karşılaştırmalı testler planlanıyor
    • Çalıştırma adımlarının özeti:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      lms daemon up
      lms get google/gemma-4-26b-a4b
      lms chat google/gemma-4-26b-a4b --stats
      
    • Claude Code entegrasyonu için claude-lm fonksiyonu eklenip ardından claude-lm çalıştırılıyor
    • Yerel yapay zeka iş akışı kurmak ve bunu web uygulamalarıyla ya da geliştirici ortamlarıyla entegre etmek için kullanılabiliyor

1 yorum

 
GN⁺ 24 일 전
Hacker News yorumları
  • Yerel LLM çalıştırmak için doğrudan llama.cpp server kullanılabilir ve Claude Code ya da diğer CLI ajanlarında bundan yararlanılabilir
    M1 Max 64GB MacBook üzerinde Gemma4 gibi güncel açık ağırlıklı LLM'leri test eden tam kurulum rehberi paylaşılmış
    26BA4B modeli bu donanımda en ilgi çekici olanıydı ve Qwen3.5 35BA3B'ye kıyasla neredeyse iki kat daha hızlı token üretim hızı (40 tok/s) gösterdi
    Ancak tau2 benchmark sonuçları Qwen varyantlarından daha düşüktü (%68 vs %81), bu yüzden araç odaklı karmaşık işler için uygun olmayabileceği düşünülüyor

    • Claude Code'da Anthropic ile OpenAI arasındaki spesifikasyon çakışması sorunları yaşanıp yaşanmadığını merak ediyorum
      Ben mlx_vlm ve vMLX kullanıyorum, Claude Code'da 400 Bad Request hatası alıyorum
      llama-server'da da böyle bir sorun olup olmadığını sormak istiyorum
  • Yerel modellerin artık sadece “mümkün” olma seviyesini aşıp rahat kullanılabilir bir aşamaya geldiğini hissediyorum
    Özellikle headless LM Studio akışı etkileyici. Gerçek araçlarda yerel çıkarımı kullanmayı mümkün kılıyor
    Ben cloclo adlı açık kaynak bir CLI kodlama ajanı geliştiriyorum; LM Studio, Ollama, vLLM, Jan, llama.cpp gibi çeşitli backend'leri destekliyor
    Yerel modeller kişisel ve ucuz günlük kullanım için, bulut modeller ise yüksek performanslı işler için; bu ikisinin birleşimi ideal bir kombinasyona yaklaşıyor

    • cloclo'nun pi-mono'dan hangi yönleriyle farklı olduğunu merak ediyorum
  • Buradaki asıl mesele Gemma 4'ün kendisinden çok, harness ile modelin tamamen ayrılmış olması
    Claude Code, OpenCode, Pi, Codex artık herhangi bir backend ile çalışabiliyor
    Yani kodlama ajanları giderek genelleşmiş bir katman hâline geliyor ve rekabetin odağı model kalitesi ile maliyete kayıyor
    Bu kullanıcılar için iyi, harness'e bağımlı şirketler için ise tehdit edici

    • Bence tam tersi. Genelleşen şey model ve gerçek performans artışının anahtarı harness ile tooling tarafında
      Örneğin “Improving 15 LLMs at Coding in One Afternoon” yazısında da yalnızca harness değiştirilerek büyük iyileşme sağlandığı söyleniyordu
    • Aslında Claude Code ya da OpenCode'u doğrudan yerel bir HTTP endpoint'e bağlamak zaten mümkündü
  • ollama launch claude --model gemma4:26b komutuyla kolayca çalıştırılabiliyor

    • context window boyutu artırılmazsa araç çağırma özelliği çalışmıyor
    • Sadece ollama ve claude kuruluysa bunun bu kadar kolay çalışması şaşırtıcı
    • Ama benim durumumda çalışmadı. claude sonsuz döngüye giriyor ve yanıt vermiyor
      Nemotron, glm, qwen 3.5 düzgün çalışıyor ama sorun yalnızca gemma'da
  • Bu yaklaşımın web yazılım testi otomasyonu için de faydalı olabileceğini düşünüyorum
    Selenium veya Puppeteer, web tasarımı biraz değişse bile testlerin bozulmasına yatkın
    Buna karşılık bu tür modeller değişime uyum sağlayabildiği için daha esnek testler mümkün olabilir
    Özellikle küçük modellerle bile yeterince işe yarayacak gibi görünüyor

  • MoE gerçekte (V)RAM tasarrufu sağlamaz
    Tüm ağırlıkların bellekte kalması gerekir, yalnızca tek bir çıkarım sırasında bunların bir kısmı kullanılır
    Bu yüzden tok/s iyileşir ama VRAM kullanımı aynı kalır

    • Ben de başta bunu karıştırmıştım. Etkin olmayan uzmanlar hesaplamayı atlar ama yine de belleğe yüklenmiş olur
      Bu görselleştirme bunu anlamaya yardımcı olmuştu
    • Bazı çıkarım motorlarında uzmanların bir kısmı CPU RAM'e offload edilebilir
      Örneğin 35B parametreli bir MoE, 12GB VRAM GPU + 16GB RAM kombinasyonunda çalıştırılabilir
    • Tüm ağırlıkları aynı anda bellekte tutmak zorunda değilsiniz
      RAM, disk, ağ gibi kaynaklardan yalnızca gereken parçaları değiştirerek yüklemek mümkün
      MoE, bir sonraki çıkarım adımında değiştirilmesi gereken veri miktarını azaltır
  • Claude Code'u veri pipeline'ındaki yinelemeli işler için ana arayüz olarak kullanıyorum
    Özellikle devlet düzenleyici bildirimlerini (XBRL) standartlaştırıp bunları REST ve MCP ile sunma işinde
    MCP ilginç olan kısım; istemciyi doğrudan çağırmak yerine araçları bildirime dayalı olarak tanımlıyorsunuz ve modeli ne zaman çağıracağına o karar veriyor
    Örneğin “bu şirketin 10 yıllık kaldıraç eğilimini sektör ortalamasıyla karşılaştır” gibi bir sorgu, otomatik olarak uygun araç çağrısı dizisine ayrılıyor
    Ancak MCP'nin etkileşimli kullanımında gecikme (latency) çok daha hassas
    2 saniyelik yanıtlar script içinde sorun değil ama konuşma akışını bozuyor
    Bu yüzden sık kullanılan tabloları bellekte cache'leyerek 100ms altı yanıt elde ettim
    Başkalarının da bu tür gecikme eşikleri yaşayıp yaşamadığını merak ediyorum

    • Ben de MCP'yi faydalı buluyorum ama token kullanımı hızla artabiliyor
      Basit uygulamalarda aynı işlev için on binlerce ek token harcanabiliyor
      Anthropic'in açıklama yazısı var ama biraz eski bir kaynak
    • Benim deneyimimde araç çağrısı başına 300~500ms doğal üst sınır gibi
      Bunun üstünde çok adımlı zincirler yavaşlıyor ve model gereksiz akıl yürütme ekleyerek bağlamı şişiriyor
      Cache'e ek olarak, birden fazla veriyi tek seferde döndürerek gidiş-geliş çağrı sayısını azaltma stratejisi de etkili olmuştu
  • macOS'te Gemma 4 26B'yi Claude Code için yerel çıkarım olarak kurma yöntemi paylaşılmış

    • Bence çok iyi bir derleme
  • İleride büyük yapay zeka laboratuvarlarının yerel LLM'leri paralel olarak çalıştırıp bulut yükünü azaltması, ağır hesaplamaları ise yalnızca bulutta işlemesi mümkün olabilir gibi görünüyor

    • Ama bunun onların iş modeliyle çelişip çelişmeyeceğini merak ediyorum
  • Gemma 4 modelinin ajan tabanlı kodlama işlerinde ne kadar iyi çalıştığını ve pratikte nasıl bir izlenim bıraktığını merak ediyorum