Mac mini'de Ollama ve Gemma 4 26B modelini kurma özeti (Nisan 2026 itibarıyla)

(gist.github.com/greenstevester)

33 puan yazan GN⁺ 25 일 전 | 1 yorum | WhatsApp'ta paylaş

Apple Silicon tabanlı Mac mini üzerinde Ollama ve Gemma 4 modelini otomatik çalışacak ve bellekte sürekli kalacak şekilde yapılandırma adımlarının özeti
Homebrew, Launch Agent ve ortam değişkenleri kullanılarak, yeniden başlatma sonrasında da modelin otomatik yüklenmesi sağlanır; 8B model yaklaşık 9.6GB bellekle kararlı çalışır
Ollama v0.19 ve üzeri, Apple ve NVIDIA ortamlarında çıkarım performansını artıran MLX backend ve NVFP4 formatını destekler
26B model, yüksek bellek kullanımı nedeniyle önerilmez; gerçek kullanım için 8B model daha uygundur
Yerel API üzerinden OpenAI uyumlu Chat Completion istekleri yapılabilir; Mac mini üzerinde kalıcı LLM servis ortamı kurmak için kullanışlıdır

Ön hazırlık

Apple Silicon (M1~M5) tabanlı bir Mac mini gerekir
Gemma 4 (8B) modelini çalıştırmak için en az 16GB birleşik bellek önerilir
Homebrew kurulmuş bir macOS ortamı gerekir

Adım 1 — Ollama kurulumu

Homebrew cask kullanarak Ollama macOS uygulamasını kurun
```
brew install --cask ollama-app
```
Kurulumdan sonra /Applications/ içine Ollama.app, /opt/homebrew/bin/ollama içine CLI yerleştirilir
Otomatik güncelleme ve MLX backend dahildir

Adım 2 — Ollama'yı çalıştırma ve doğrulama

Ollama uygulamasını çalıştırın
```
open -a Ollama
```
Menü çubuğunda simge göründükten sonra sunucunun başlatılmasını bekleyin
Çalışma durumunu kontrol edin
```
ollama list
```

Adım 3 — Gemma 4 modelini indirme

Modeli indirin
```
ollama pull gemma4
```
Yaklaşık 9.6GB indirme tamamlandıktan sonra ollama list ile doğrulayın
26B model, 24GB belleğin büyük kısmını kullanarak sistem yanıtını düşürür
- Varsayılan 8B (Q4_K_M quantization) modelinin kullanılması önerilir

Adım 4 — Modeli test etme ve GPU hızlandırmasını doğrulama

Modeli test edin

ollama run gemma4:latest "Hello, what model are you?"

GPU hızlandırma durumunu kontrol edin
```
ollama ps
```
- Örnek: CPU/GPU oranı 14%/86%

Adım 5 — Otomatik başlatma ve modeli bellekte tutma ayarı

5a. Ollama uygulamasını otomatik başlatma
- Menü çubuğu simgesine tıklayın → Launch at Login seçeneğini etkinleştirin
- Ya da System Settings > General > Login Items üzerinden elle ekleyin
5b. Gemma 4'ü otomatik ön yükleme
- Ollama başladıktan sonra modeli otomatik yüklemek ve her 5 dakikada bir etkin tutmak için bir Launch Agent oluşturun
```
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
...
EOF
```
- Agent'ı yükleyin
```
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
```
- Her 5 dakikada bir boş bir prompt göndererek modeli bellekte tutun
5c. Modeli süresiz tutma
- Varsayılan olarak model, 5 dakika etkinlik olmazsa bellekten çıkarılır
- Süresiz tutma ayarı
```
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
```
- Yeniden başlatma sonrasında da geçerli olması için ~/.zshrc içine ekleyin

Adım 6 — Yapılandırmayı doğrulama

Ollama sunucusunun çalıştığını kontrol edin
```
ollama list
```
Modelin belleğe yüklenme durumunu kontrol edin
```
ollama ps
```
Launch Agent kaydını kontrol edin
```
launchctl list | grep ollama
```

Beklenen çıktı örneği

gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever

API erişimi

Yerel API uç noktası: http://localhost:11434

OpenAI uyumlu Chat Completion örneği

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:latest",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Yararlı komutlar

Komut	Açıklama
`ollama list`	İndirilen model listesi
`ollama ps`	Çalışan modeller ve bellek kullanımı
`ollama run gemma4:latest`	Etkileşimli çalıştırma
`ollama stop gemma4:latest`	Modeli bellekten çıkarma
`ollama pull gemma4:latest`	En son sürüme güncelleme
`ollama rm gemma4:latest`	Modeli silme

Ollama'yı kaldırma ve otomatik başlatmayı devre dışı bırakma

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ başlıca iyileştirmeler (31 Mart 2026)

MLX backend (Apple Silicon)
- Çıkarım hızını artırmak için Apple MLX framework otomatik olarak kullanılır
- M5 serisi çipler, ek hızlandırma için GPU Neural Accelerator desteği sunar
- M4 ve altı çiplerde de MLX tabanlı genel hız artışı uygulanır
NVFP4 formatı (NVIDIA)
- NVFP4 formatı, doğruluğu korurken bellek bant genişliği ve depolama alanı kullanımını azaltır
- NVIDIA model optimizasyon araçlarıyla oluşturulan modellerle uyumludur
Önbellekleme iyileştirmeleri (kodlama ve ajan işleri)
- Bellek kullanımında azalma: konuşmalar arasında önbelleğin yeniden kullanılmasıyla verim artar
- Akıllı checkpoint'ler: prompt işleme yükünü azaltır ve yanıt hızını artırır
- Akıllı önbellek temizleme: ortak prefix'leri koruyarak dallanan iş akışlarında verimliliği artırır

Ek notlar

Gemma 4 (8B) modeli yaklaşık 9.6GB bellek kullanır
- 24GB'lık bir Mac mini'de yaklaşık 14GB boş alan bırakabilir
26B model, yaklaşık 17GB kullanım nedeniyle sistem swap'ine ve yanıt yavaşlamasına yol açar
- 8B model daha kararlı performans sunar

Referans bağlantıları

1 yorum

GN⁺ 25 일 전

Hacker News yorumları

İlk kez bir open weight modeli çıkar çıkmaz kullanıyorsanız, ilk implementasyonlarda ve quantization tarafında her zaman bug olduğunu bilmelisiniz
Her proje çıkış gününe yetişmek için destek eklemeye koşturduğu için sonuçlar doğru olmayabilir
Tokenizer implementasyonunda şimdiden çeşitli sorunlar bulundu ve imatrix kullanan quantization da problemli olabilir
Önümüzdeki birkaç hafta boyunca “tool calling çalışmıyor, model berbat” türü çok sayıda gönderi göreceğiz. Aslında sorun, insanların bozuk implementasyonlar kullanıyor olması
cutting-edge modeller kullanacaksanız inference engine’inizi sık sık güncellemeye ve quantized sürümleri her değiştiğinde yeniden indirmeye hazır olmalısınız
Çıkış gününe yetişme yarışı yüzünden süreç “çıktı token’ı üretiyorsa hemen yayınla” şeklinde ilerliyor; doğruluk doğrulamasıysa sonraya kalıyor
- Linux ve 4090 ortamında hangi inference engine’i kullanmak gerektiğini merak ediyorum
  Tool calling’in çalışmadığı durumları sık yaşıyorum ama bunun modelden mi yoksa ollama’dan mı kaynaklandığını bilmiyorum
Yerelde model çalıştırmak için bir Mac mini alıp almamayı düşünüyorum
Ben ağırlıklı olarak geliştirme işleri ve homelab projeleri için Claude kullanıyorum; açık modellerin bu kadar işe yarayıp yaramadığını, yoksa ayda 20 dolarlık aboneliği sürdürmenin daha mantıklı olup olmadığını bilmek istiyorum
- Küçük işler için fena değil ama Claude gibi kullanmayı beklerseniz hayal kırıklığı yaşama ihtimaliniz yüksek
  Donanım satın alıp kendiniz host etmeden önce bunu bir hosting service üzerinden denemenizi öneririm. Böylece modelin sınırlarını önceden hissedebilirsiniz
- Ben llama sızıntısı döneminden beri açık modeller kullanıyorum. Gittikçe daha iyi oluyorlar ve internete ihtiyaç duymadan yerelde bir bilgi yığını çalıştırabilmek harika
  Ama beklentiyi düşük tutmak lazım. Benchmark’lar ne derse desin Sonnet ya da Opus ile kıyaslanamaz
- En iyisi OpenRouter’da 10 dolarlık kredi harcayıp kendiniz test etmeniz. Benim deneyimime göre hâlâ çok eksikleri var ama ara sıra dönüp bakmak eğlenceli oluyor
- gpt-oss-20B’nin ajan performansı gayet iyiydi ama Claude Code’un ücretli modelleriyle kıyaslanamaz. 120B’nin çok daha iyi olduğunu duydum
MacBook Pro M4 (36GB) ile LM Studio’da open code frontend üzerinden test ettim ama tool calling sürekli başarısız olunca qwen’e geri döndüm
Benzer ortamda başarı elde eden biri var mı merak ediyorum
- Tool calling hataları inference engine implementasyonu ya da quantization kaynaklıdır. Birkaç gün sonra güncellemelerden sonra tekrar denemenizi öneririm. Bu, her açık model çıkışında yaşanan bir şey
- Ben M5 (32GB) üzerinde LM Studio çalıştırınca bilgisayar dondu ve yeniden başlatmak zorunda kaldım
  Ama gemma-4-26B-A4B-it-GGUF:Q4_K_M llama.cpp’de sorunsuz çalıştı. Hem hız (saniyede 38 token) hem de kalite etkileyiciydi
- Ben de aynı sorunu yaşadım. LM Studio’nun Q_8 sürümünde komutları durmadan tekrar eden bir loop mode’a giriyor
- Başkalarının dediğine göre hem main hem de runtime sürümünü güncellemek gerekiyor
- Ubuntu sunucusunda da (charmbracelet/crush) tool calling hatasını doğruladım
Claude Sonnet 4.5’in yerini alabilecek bir açık model arıyorum
Ollama Cloud ya da OpenRouter.ai üzerindeki modeller arasında gerçek bir alternatif olup olmadığını merak ediyorum
Benchmark’lardan çok, gerçek geliştiricilerin kullanım deneyimlerini duymak istiyorum
- Sonuç olarak Sonnet ve Opus’un yerini alabilecek bir model yok. GPT Codex ailesi de hâlâ çok güçlü
  MiniMax, GLM, Qwen, Kimi ve diğerlerini kullandım ama karmaşık işlerde hepsinin ciddi sınırları var
- Bana göre GLM5 ve KimiK2.5, Sonnet’e epey yaklaşan alternatifler
M5 Air (32GB, 10 çekirdek) üzerinde oMLX build ile çalıştıran var mı merak ediyorum. Tool calling de çalışıyor mu bilmek istiyorum
- v0.3.2 sürümü kısmi destek durumunda. Metin üretimi çalışıyor ama özel token işleme henüz tamamlanmış değil
  Ben şahsen tool calling ve <|channel> thinking desteği eklemek için testler yapıyorum
- Birinin Gemma 4 E4B’yi MLX üzerinde çalıştırdığını duydum (link)
“Gemma 4 12B” için olan adımların ortada bir yerde 26B’ye dönmesi tuhaf
Ayrıca ollama ps içinde “14%/86% CPU/GPU” görünüyor; bu GPU performansının kötü olduğu anlamına gelmiyor mu?
- Mac mini’de CPU ve GPU belleği paylaştığı için o oranı çok dikkate almamak gerekir gibi görünüyor
26B modeli yerelde çalıştırmak etkileyici ama latency yüksek olduğu için sohbet dışındaki işlerde kullanmak zor
Biz görüntü üretimi işlerini yerel inference’tan API çağrılarına taşıdık. Cold start ve üretim süresi fazla uzundu
Yerel kurulum denemeler için iyi ama zamanında çalışması gereken production workload’lar için API hâlâ daha avantajlı
Yine de mahremiyet açısından hassas veriler ile çalışırken yerel kurulum çok faydalı
Bu kadar çok kişinin neden Ollama kullandığını merak ediyorum. Denedim ama fazla basitleştirilmiş geldi
Bugünlerde Unsloth Studio, yeni başlayanlar için daha iyi varsayılan seçenek gibi duruyor
- Ollama’ya erişim kolay; tek satırlık ollama pull ile modeli indirebiliyorsunuz
  Hugging Face üzerinde model adı ve sürümünü elle arama karmaşası yok
  Ama daha derine indikçe eninde sonunda sunucu yapısını öğrenmeniz gerekiyor
- Ollama başlangıçta first-mover advantage yakaladı. O dönemde llama.cpp’yi elle derlemek başlı başına bir engeldi
  Bugün olsa LM Studio’yu daha çok öneririm. Unsloth Studio’nun farkı ne, merak ettim
- İnsanların neden LMStudio’dan daha fazla bahsetmediğini anlamıyorum. Ben birkaç ay önce geçtim ve çok daha iyi olduğunu düşünüyorum
- Ollama’nın popülerliği biraz da reklam etkisi sayesinde oldu. Reddit ve Discord gibi yerlerde ‘llama.cpp için kolay frontend’ diye tanıtıldı
  Gerçekten kazanmak istiyorsanız Ollama’yı kaldırıp doğrudan llama.cpp’ye geçmeniz gerekir
- Ben tersini sorarım — Ollama’nın sorunu tam olarak ne?
  16GB GPU ile gayet iyi çalışıyor ve başka frontend’leri denemek için backend olarak da fazlasıyla yeterli
Bu modelin yerel kodlama için kullanılıp kullanılamayacağını, hangi IDE veya harness’lerin uyumlu olduğunu merak ediyorum
- Harness’lerin çoğu, OpenAI uyumlu bir API endpoint’i gösterdiğinizde yerel kodlamayı destekliyor
  Ama Codex’in son sürümünde llama.cpp ile API uyumluluğu sorunları var
  Ben Pi’yi tercih ediyorum. Minimal ve genişletilebilir. Claude Code, OpenCode gibi seçenekler de yaygın
- Tool calling desteği gerekli ve birçok quantized gguf bunu desteklemiyor
  Ben bunu çözmek için inference engine ile harness arasında özellikleri emüle eden Petsitter adlı bir proxy yaptım
  GitHub linki
  Ollama’nın üstüne Petsitter, onun üstüne de agent harness koymanız yeterli
  Ollama’nın son sürümü zaten "completion", "vision", "audio", "tools", "thinking" desteği sunuyor
Dün gece bu modeli kullanmak için Ollama v0.20 pre-release kurmam gerekti. Bu yüzden mevcut rehberin ne kadar doğru olduğundan emin değilim

Mac mini'de Ollama ve Gemma 4 26B modelini kurma özeti (Nisan 2026 itibarıyla)

Ön hazırlık

Adım 1 — Ollama kurulumu

Adım 2 — Ollama'yı çalıştırma ve doğrulama

Adım 3 — Gemma 4 modelini indirme

Adım 4 — Modeli test etme ve GPU hızlandırmasını doğrulama

Adım 5 — Otomatik başlatma ve modeli bellekte tutma ayarı

5a. Ollama uygulamasını otomatik başlatma

5b. Gemma 4'ü otomatik ön yükleme

5c. Modeli süresiz tutma

Adım 6 — Yapılandırmayı doğrulama

API erişimi

Yararlı komutlar

Ollama'yı kaldırma ve otomatik başlatmayı devre dışı bırakma

Ollama v0.19+ başlıca iyileştirmeler (31 Mart 2026)

MLX backend (Apple Silicon)

NVFP4 formatı (NVIDIA)

Önbellekleme iyileştirmeleri (kodlama ve ajan işleri)

Ek notlar

Referans bağlantıları

İlgili okumalar

1 yorum

Hacker News yorumları