M4 24GB bellekte yerel model çalıştırmak

(jola.dev)

1 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş

M4 MacBook Pro 24GB üzerinde de temel işler, araştırma ve planlama için yerel model kurulumu mümkün
Qwen 3.5-9B Q4 yaklaşık 40 token/sn, düşünme modu, araç kullanımı ve 128K bağlam gereksinimini karşılıyor
En üst seviye modeller gibi karmaşık problemleri uzun süre bağımsız çözemediği için adım adım talimatlar gerekiyor
Elixir Credo uyarılarını düzeltti, ancak rebase çakışmasını dosyaları düzenlemeden çözmeyi başaramadı
Yerel modellerin avantajı çevrimdışı kullanım ve abonelik gerektirmemesi, ancak performans ve kurulumda trade-off büyük

Yerel model çalıştırma ortamı ve seçim ölçütleri

M4 MacBook Pro 24GB bellek ortamında yerel model çalıştırma ayarları denendi; en üst seviye modellerin (SOTA) çıktısıyla aynı olmasa da, internet bağlantısı olmadan temel işler, araştırma ve planlamayı yürütebilen bir kurulumun mümkün olduğu görüldü
Yerel çalıştırma araçları arasında Ollama, llama.cpp ve LM Studio bulunuyor; her birinin kısıtları ve sunduğu modeller farklı
Model seçerken belleğe sığmasının yanı sıra sıradan Electron uygulamalarını da birlikte çalıştırabilecek kadar pay bırakması gerekiyordu; en az 64K, ideal olarak 128K veya daha geniş bir bağlam penceresi isteniyordu
Yakın dönemde denenen Qwen 3.6 Q3, GPT-OSS 20B ve Devstral Small 24B belleğe sığsa da pratik kullanım zordu; Gemma 4B ise iyi çalıştı ama araç kullanımında sorun yaşadı
Ayar seçenekleri, temperature gibi yaygın değerlerden K Cache Quantization Type gibi özel seçeneklere kadar uzanıyor; düşünmenin (thinking) açık olup olmamasına göre uygun değerler de değişebiliyor

Qwen 3.5-9B 4 bit kuantize kurulum

qwen3.5-9b@q4_k_s, LM Studio'da çalıştırıldığında yaklaşık 40 token/sn hız, düşünmenin etkin olması, başarılı araç kullanımı ve 128K bağlam penceresini aynı anda karşılayan en iyi modeldi
En üst seviye modellere göre daha kolay dikkati dağılıyor, bazen döngüye giriyor ve istekleri yanlış yorumlayabiliyor; yine de 24GB MacBook Pro üzerinde başka işler için alan bırakarak çalışabilen bir model olarak oldukça iyiydi
Düşünme modu ve kodlama işleri için önerilen ayarlar şunlardı

temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0

Düşünmeyi etkinleştirmek için LM Studio'da modeli seçip configuration bölümüne giderek, Inference sekmesinin altındaki Prompt Template alanına şu değeri eklemek gerekiyor

{%- set enable_thinking = true %}

Bu model hem pi hem de OpenCode üzerinde kullanıldı; pi daha atak hissettirse de, harness'i doğrudan kurup özelleştirme avantajından bağımsız olarak makul varsayılan ayarlardan yoksundu
pi ayarlarını oturtmak için, gerçek projeye harcanandan daha fazla zaman gitmesi mümkündü

pi ayarları

~/.pi/agent/models.json içinde LM Studio'nun OpenAI uyumlu endpoint'i ve qwen3.5-9b@q4_k_s modeli tanımlandı

{
  "providers": {
    "lmstudio": {
      "baseUrl": "http://localhost:1234/v1";,
      "api": "openai-completions",
      "apiKey": "lm-studio",
      "models": [
        {
          "id": "qwen3.5-9b@q4_k_s",
          "reasoning": true,
          "compat": { "thinkingFormat": "qwen-chat-template" }
        }
      ]
    }
  }
}

Dikkati dağıtan düşünme bloklarını gizlemek için ~/.pi/agent/settings.json dosyasına "hideThinkingBlock": true eklendi

OpenCode ayarları

~/.config/opencode/opencode.json içinde LM Studio, yerel OpenAI uyumlu provider olarak tanımlandı; araç kullanımı, 131072 bağlam uzunluğu ve 32768 maksimum token ayarlandı

{
  "$schema": "https://opencode.ai/config.json";,
  "provider": {
    "lmstudio": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "LM Studio (local)",
      "options": {
        "baseURL": "http://127.0.0.1:1234/v1";
      },
      "models": {
        "qwen3.5-9b@q4_k_s": {
          "name": "Qwen 3.5 9B Q4_K_S",
          "tools": true,
          "context_length": 131072,
          "max_tokens": 32768
        }
      }
    }
  },
  "model": "lmstudio/qwen3.5-9b@q4_k_s"
}

En üst seviye modellerle fark

Qwen 3.5 9B Q4 gibi modeller, en üst seviye modeller gibi karmaşık problemleri uzun süre boyunca bağımsız biçimde çözebilecek düzeyde değildi
Tek seferde tüm uygulamayı yapmasını istemek uygun bir yaklaşım değildi; ortada sonuç olmadan sadece dizüstü bilgisayarın ısınması mümkün oluyordu
Daha iyi çalışan yaklaşım, adım adım net iletişim kurulan ve bol talimat verilen etkileşimli bir iş akışıydı
Yerel model kullanırken kullanıcı daha fazla düşünme ve planlamayı bizzat üstlenip daha somut talimatlar vermek zorunda kalıyor; yine de araştırma yardımcısı, rubber duck ve programlama dili ayrıntılarını ya da komut satırı çağrılarını anında hatırlatan bir yardımcı olarak faydalıydı
Büyük yapay zeka şirketlerinin pazarladığı 10 kat üretkenlik artışı değil, ama anlamlı bir yardım ve ilginç bir kullanım deneyimi sunuyor

İşe yarayan görevler ve başarısız olanlar

Elixir Credo uyarılarını düzeltme
- Elixir linter'ı credo en son sürüme yükseltildikten sonra kodda uyarılar çıktı ve Qwen'den mix credo --strict komutunu çalıştırıp düzenleme yapmadan çözüm önermesi istendi
- Qwen, dört test dosyasında listenin boş olmadığını kontrol etmek için length/1 kullanımını sorun olarak buldu ve length(list) > 0 yerine list != [] kullanılmasını önerdi
- Sonrasında düzenleme istenince Qwen, dört paralel düzenlemeyi temiz şekilde yaptı
- Bu iş, terminal ve editör arasında gidip gelerek elle de yapılabilecek basit bir görevdi; yine de kullanışlı bir yardımcı rolü oynadı
Dependabot PR içindeki rebase çakışmasını ele alma
- Bağımlılık güncellemesinden sonra Dependabot PR içinde git çakışması oluştu; Dependabot rebase'i reddedince değişiklikler elle indirildi, rebase yapıldı ve ardından Qwen'den kontrol etmesi istendi
- Çakışma, her bağımlılık için daha yeni sürümü seçmekten ibaret basit bir yapıdaydı; Qwen, sentry için 13.0.1, tailwind için 0.4.1 sürümünü korumayı önerdi
- Ancak gerçek değişikliği yapması istendiğinde, Qwen dosyaları düzenlemeden çakışma işaretleri hâlâ dururken git add mix.lock && git rebase --continue çalıştırmaya kalktı
- git rebase --continue komutunun editör açan davranışını da fark etmedi, OpenCode takıldı; bunun tek seferlik bir durum olma ihtimali de vardı

Yerel modellerin avantajları ve sınırları

Yerel modellerde büyük trade-off'lar var, ancak internet bağlantısı olmadan uçakta bile çalışabilme avantajı sunuyorlar
Bilgisayar zaten satın alınacak varsayıldığında maliyet kullanılan elektrikle sınırlı kalıyor ve abonelik gerekmiyor
Model eğitiminin hâlâ büyük bir çevresel maliyeti var; ancak açık model şirketleri çevresel etki sıralamasının üst basamaklarından uzak ve kişisel donanım kullanımı veri merkezlerine bağımlılığı azaltıyor
Elle ayarlama yapıp denemeler gerçekleştirmek keyifli olabiliyor
LLM'ler şimdiden büyük etki yarattı ve pek çok olumsuz yanı da var; buna rağmen kalıcı bir teknoloji gibi görünüyor ve yerel modellerle denemeler yapmak, bu teknolojiyle daha sürdürülebilir ve daha olumlu biçimde etkileşime girmenin bir yolu gibi hissettiriyor

1 yorum

GN⁺ 2 시간 전

Hacker News görüşleri

Yerelde LLM çalıştırmak eğlenceli ve güçlü, ama gerçekten işi bitirmek istiyorsanız epey baş ağrıtıcı
Önceden plan yapmanız, şartname oluşturmanız ve hazırlanmanız gerekirken OpenAI veya Claude’un büyük modelleri birkaç cümle atınca hemen anlama eğiliminde
- Aynen. Özellikle son 6 ayda birçok kişi için frontier model abonelik ücreti iş maliyetine dönüştü
  Zaten büyük modellerle ciddi işler yapıyorsanız kullanmaya devam edin
  Ama vision/OCR işleri için farklı düşünüyorum. Küçük ve orta ölçekli açık ağırlıklı modeller de güncel seviye ile benzer, ayrıca büyük batch işlerinde prefill token maliyeti oldukça can sıkıcı
  Bir de küçük bir LLM’i bile istikrarlı kişisel servis gibi kullanmak için ayrı 16~24GB RAM/VRAM boş bırakıp sürekli çalıştırmanız gerektiği sık sık unutuluyor
- Artık evde offline kullanım için büyük model çalıştırmak teknik olarak kolaylaştı. Bunda en üst düzey modelleri açık eden Çin tarafının payı büyük
  Temel sorun sonuçta para
Neredeyse kullanılabilir seviyeye geldiğini düşünüyorum
Gemma 4 31B, yerel modeller için yeni bir taban çizgisi gibi hissettiriyor. Frontier modellerden elbette geride ama şimdiye kadar çalıştırdığım yerel modeller, GPT OSS 120B ya da Nemotron Super 120B’ye göre daha az bilim deneyi gibi
M5 Max 128GB RAM’de tam 256K context window kullanınca RAM kullanımı yaklaşık 70GB’a fırlıyor, sistem overhead’i de yaklaşık 14GB görünüyor
64GB Panther Lake üzerinde tam Arc B390 takılı bir makine ya da 48GB Snapdragon X2 Elite makinesiyle 128K~256K context window çalıştırmak mümkün gibi, 32GB’de ise 32K context window ile zorlayarak belki olur
Daha geçen yıl bu performansı ana akıma yakın üst seviye bir konfigürasyonda görmek boş bir hayal gibi geliyordu
- Gemma 4 gerçekten çok iyi. Opus 4.7’nin kaçırdığını yakaladığı da oldu; pürüzleri var ama pratikte eşdeğer şekilde kullanılabildiği kullanım alanlarını sürekli buluyorum
  Sonuçta ölçüt şu: “Bu modele istikrarlı biçimde ne emanet edebilirim?” Opus açıkça daha çok şey biliyor ve daha karmaşık işleri yapabiliyor ama context’i iyi verirseniz Gemma şaşırtıcı derecede iyi
  İki modele de emanet edebileceğime inandığım iş aralığı arasındaki fark beklenmedik şekilde küçük. Kişisel araçlarda ve çeşitli projelerde son dönemde çok iyi sonuçlar verdi; ayrıca önemsiz olmayan bir projede agent mode ile özellik implementasyonunu güvenip bırakabildiğim ilk yerel model oldu
  https://thot-experiment.github.io/gradient-gemma4-31b/
  Bu, OpenCode içinde Gemma 4’ün neredeyse tamamını yaptığı görece karmaşık bir araç ve birkaç saat boyunca manuel müdahale sadece yaklaşık 4 kez gerekti
  Q6_K_XL, 128K context @ q8 ile okuma yaklaşık 800tok/s, yazma yaklaşık 16tok/s
  llama.cpp’de turboquant ve MTP’yi bekliyorum; söylentiler doğruysa 256K ve 25~30tok/s seviyesine çıkabilir gibi
- Küçük Qwen 3.6 modelleri context işlemede Gemma 4’ten biraz daha iyi, ama özellikle Gemma 4 26B bu ağırlık sınıfında çok küçük ve verimli çözümler üretmesiyle akıllı davranıyor
  Çıkışından hemen sonra benchmark performansı etkileyiciydi, bu yüzden ilgili bir yazı da yazdım [0]. Ancak daha uzun context’li agent coding ortamlarında çalıştırdıkça sıralamadaki yeri sonradan biraz düştü
  [0] https://gertlabs.com/blog/gemma-4-economics
- Düzenleme işlerinin çoğunda daha küçük Gemma E2B kullanıyorum ve şaşırtıcı biçimde iyi çalışıyor
  Akış şu: en yeni modelle plan yap, küçük modelle uygula. Düzgün planlayıp küçük modelin yorumlayacağı belirsizlik bırakmazsanız iyi çalışıyor
- İlk token’a kadar geçen süreyi ve saniye başına token sayısını paylaşırsanız güzel olur
- Gemma’nın hissedilir şekilde qwen3’ten daha iyi çalışıp çalışmadığını merak ediyorum
Keşke bütün hafta sonunu aynı sonuca varmak için harcamadan önce bu yazıyı görseydim
Aynı dizüstünde, küçük bir vibe coding C++ deposundaki yaklaşık 50 lint hatasını düzelttirmeye yönelik yapay bir test yaptım. Bir sürü küçük işi çok sık takılmadan halletmesini umuyordum
GPT OSS 20B kullanılabilir durumdaydı ama yavaştı; gereksiz cümleler ekliyor ya da tekrar ediyor, kodu değiştirmeden düzelttiğini listeleme hatasını da sık yapıyordu
Opencode ile kullandığım Qwen 3.5 9B çok daha hızlıydı ve sıkıştırma aşamasından geçmesine rağmen çoğu lint uyarısını takılmadan işledi, tüm uyarıları da doğru düzeltmelerle giderdi
Qwen 3.5 9B’nin 4 bit MLX kuantizasyonunu da denedim ama sonunda bellek yetersizliğinden çöktü; llama.cpp ile çalışan GGUF’a geçince çökmeden çalıştı
Frontier modellerle hiç kıyaslanamaz. Çok daha yavaş, temel bilgileri bile yanlış veriyor ve önemsiz olmayan işleri tek seferde halledemiyor
Proje mimarisini özetlemesini istediğimde depoda hiçbir yerde olmayan bir kütüphane kullandığını iddia etti. Kişiden kişiye değişir ama yine de kullanılabilir tarafları var; zamanla makul donanımlarda yerel LLM ortamının çok daha iyi olmasını umuyorum
- “Frontier modellerle hiç kıyaslanamaz” sözü yeterince sık söylenmiyor
  Yerel LLM’ler harika ama bu konuda çok yazı okuyunca Opus 4.7’ye neredeyse yetişmiş gibi hissedilebiliyor
  HN’de yerel LLM’lerin yeteneklerini ciddi biçimde abartan çok küçük, gürültücü ve tutkulu bir grup var
- qwen3.5 9b yerine qwen3.6.35 a3b denemenizi öneririm. Tamamen farklı
- GPT OSS 20B’nin Mac donanımında yavaş çalışması oldukça şaşırtıcı
  Aynı boyuttaki modeller arasında yerel GPU’da çalıştırdıklarımın en hızlıları arasındaydı ama sadece Nvidia kartlarda denedim
  Sonradan bunun MoE olduğunu ve aktif parametrelerin sadece 3.6B olduğunu görünce birçok şey açıklığa kavuştu
Yerel modellerle, özellikle yazarın kullandığı 9B gibi küçük modellerle neler yapılabileceğine gerçekçi bakmak faydalı
9B model Sonnet 3.6 civarı bir seviyede; otomatik tamamlama ve küçük fonksiyonlar yapabiliyor ama büyük problemleri anlamaya çalışınca akışı kaçırıyor
Yine de ilginç ve kurcalaması eğlenceli. Ben de çoğunlukla eğlence için yerel agent harness’leri gibi şeyler yapıyorum
Şu anki projem kurulum gerektirmeyen bir agent: https://gemma-agent-explainer.nicklothian.com/
Python, SQL ve React’in tamamı tarayıcı içinde tamamen çalışıyor. En iyi deneyim için Gemma E4B öneriyorum
Hâlâ aktif geliştirme altında ve HTML5 Filesystem API ile LiteRT desteği yüzünden Chrome gerekiyor. Ama çoğu Chromium tabanlı tarayıcıda da çalışır hale getirilebilir
Çoğu agent’tan farkı kurulumsuz olması. Model tarayıcı içinde LiteRT/LiteLLM ile çalışıyor ve Transformers.js’ten daha iyi performans veriyor. Filesystem API ile isteğe bağlı olarak sandbox dizinine okuma erişimi de sağlanabiliyor
Kendi kendini dokümante ediyor; bu yüzden canlı yardım panelinde “sistem prompt’u nasıl kullanılıyor” gibi sorular sorarsanız kendi kaynak koduna erişip cevaplayabiliyor
“Tour” düğmesine basarsanız tamamını görebilirsiniz; gelecek hafta da open source olarak yayımlamayı planlıyorum
- Sonnet 3.5 ile otomatik tamamlama ve küçük fonksiyonlardan çok daha fazlasını yapıyordum
- Laf sokmak için söylemiyorum ama birçok 4~12B model GPT-3.5 ile GPT-4o-mini arasında bir yerde
  Sadece insanların modeli değerlendirdiği benchmark’lar çok sık değiştiği için iyi karşılaştırmalar bulmak zorlaşıyor. Bu arada Sonnet 3.6, GPT-3.5’ten yaklaşık 1 yıl sonra çıktı
Eleştirel bakarsak bu modellerin karmaşık coding işlerinde güncel en üst seviye ile aynı düzeyde olmadığı doğru
Ama beyaz yaka işlerinin önemli bir kısmı Excel işleri, dosya taşıma, katı hukuk belgelerinin çevirisi, e-posta taslağı, PPT angaryaları gibi şeyler
Bu işler 30~35B ve üzeri modellerle gayet yapılabilir; ayrıca şirket verisini gizli tutabilme avantajı da var
- Bence sonuç biraz yanlış. qwen3.5 9b’nin güncel modellerden uzak olması zaten doğal. 9B ve bir yıl önceki model değil mi?
  Yerel modelleri konuşanların beklediği şey bu yılın nisanında çıkan modeller. Qwen 3.6 27B ve GPU zayıfsa qwen 35b a3b hedefte
  Bu modeller güncel üst seviye modellerle ciddi ciddi karşılaştırılabilecek düzeyde
- Hatta Excel ve hukuk koddan çok daha kötü olabilir. Çünkü hataları yakalamak daha zor olabilir
  Tipik örnek olarak JPMorgan’ın London Whale vakasında Excel hatası nedeniyle 6 milyar dolar zarar oluşmuştu
M5 Pro 18/20 çekirdek MacBook 64GB RAM almayı düşünüyorum ama gerçek model benchmark’larını bulmak çok zor
Örneğin Qwen 3.6 35B/A3B’nin Q4 ve Q6 kuantizasyonlarında saniye başına token hızının ne kadar olduğunu bilen biri söylese harika olur
- Sadece saniye başına token hızına bakmayın, ilk token’a kadar geçen süreye de bakmak lazım
  Yerel çıkarım tarafı MoE modellere kayıyor ve bunların önemli bir kısmında saniye başına token fena değil ama ilk token’a kadar geçen süre korkunç
32GB M2 Studio’da kullandığım rastgele bir kurulumu Bluesky’a yazdım, geri bildirim almak isterim
Doğrudan görmeden pek beceremeyen biriyim; o yüzden yardım umarak paylaşıyorum
https://bsky.app/profile/mooresolutions.io/post/3mliilyf2i22...
M4 Pro 48GB’de qwen 3.6 9b kuantize model çalıştırıyorum ve temel pi.dev/cc tabanlı geliştirme için ancak idare eder durumda
Gerçekten anlamlı işler yapmak için 128GB masaüstü sistemin sweet spot olduğunu düşünüyorum. Ama şu an böyle bir makineyi bulmak zor
Yerelde çalıştırmak eğlenceli ama kendi zamanınızın da bedava olmadığını unutmamak gerek
Kişisel projelerde giderek OpenRouter’a geçiyorum ve en büyük qwen modellerini ciddi kullansam bile günde 2~3 doların altında kalıyorum
- Bu kadar küçük bir modeli seçmenizin nedeni yüksek saniye başına token hızı mıydı, merak ettim
  M4 Pro 48GB ise daha büyük modelleri de çalıştırabilirsiniz; model zekâsı faydayı artıran temel unsursa daha büyük modele gitmek daha mantıklı olabilir
- Aynı özelliklerde 30B MoE modeli 65K token ile araç sahibi alt agent olarak kullanıyorum ve oldukça iyi kod yazıyor
  Yoğun 9B’nin pek iyi olmadığına katılıyorum
- Yerel modellerin Opus 4.7 gibi şeylerden daha iyi olduğuna dair internette çok fazla saçmalık var. Genel kullanıcı için bu doğru değil
  En üst donanımlı güncel M5 MacBook Pro’yu kullanıyorum ve yerel modelleri de denedim; çoğu ancak zar zor çalışıyor
- OpenRouter sürümü, ChatGPT 5.5 ya da Claude Opus 4.6 ile kıyaslandığında nasıl acaba merak ediyorum
4090 24GB’de yakın dönemdeki turboquant/rotorquant aktivasyon belleği optimizasyonlarını kullanarak qwen3.6:27B’yi yaklaşık 128K context ile çalıştırıyorum
Bu boyutta bir modele çıkmayı güçlü biçimde tavsiye ederim. q4_xl+rotorquant kombinasyonu oldukça iyi
Agent’a verebileceğiniz referans kodlar da var
https://github.com/rapatel0/rq-models
API aboneliğine para vermek yerine Mac’e birkaç bin dolar harcamayı tercih ederim
Yerel modeller, gizlilik sızıntısı endişesi olmadan her zaman her yerde iş yapabilmenizi sağlıyor

M4 24GB bellekte yerel model çalıştırmak

Yerel model çalıştırma ortamı ve seçim ölçütleri

Qwen 3.5-9B 4 bit kuantize kurulum

pi ayarları

OpenCode ayarları

En üst seviye modellerle fark

İşe yarayan görevler ve başarısız olanlar

Elixir Credo uyarılarını düzeltme

Dependabot PR içindeki rebase çakışmasını ele alma

Yerel modellerin avantajları ve sınırları

İlgili okumalar

1 yorum

Hacker News görüşleri