Mac mini'de Ollama ve Gemma 4 26B modelini kurma özeti (Nisan 2026 itibarıyla)
(gist.github.com/greenstevester)- Apple Silicon tabanlı Mac mini üzerinde Ollama ve Gemma 4 modelini otomatik çalışacak ve bellekte sürekli kalacak şekilde yapılandırma adımlarının özeti
- Homebrew, Launch Agent ve ortam değişkenleri kullanılarak, yeniden başlatma sonrasında da modelin otomatik yüklenmesi sağlanır; 8B model yaklaşık 9.6GB bellekle kararlı çalışır
- Ollama v0.19 ve üzeri, Apple ve NVIDIA ortamlarında çıkarım performansını artıran MLX backend ve NVFP4 formatını destekler
- 26B model, yüksek bellek kullanımı nedeniyle önerilmez; gerçek kullanım için 8B model daha uygundur
- Yerel API üzerinden OpenAI uyumlu Chat Completion istekleri yapılabilir; Mac mini üzerinde kalıcı LLM servis ortamı kurmak için kullanışlıdır
Ön hazırlık
- Apple Silicon (M1~M5) tabanlı bir Mac mini gerekir
- Gemma 4 (8B) modelini çalıştırmak için en az 16GB birleşik bellek önerilir
- Homebrew kurulmuş bir macOS ortamı gerekir
Adım 1 — Ollama kurulumu
-
Homebrew cask kullanarak Ollama macOS uygulamasını kurun
brew install --cask ollama-app -
Kurulumdan sonra
/Applications/içine Ollama.app,/opt/homebrew/bin/ollamaiçine CLI yerleştirilir -
Otomatik güncelleme ve MLX backend dahildir
Adım 2 — Ollama'yı çalıştırma ve doğrulama
-
Ollama uygulamasını çalıştırın
open -a Ollama -
Menü çubuğunda simge göründükten sonra sunucunun başlatılmasını bekleyin
-
Çalışma durumunu kontrol edin
ollama list
Adım 3 — Gemma 4 modelini indirme
-
Modeli indirin
ollama pull gemma4 -
Yaklaşık 9.6GB indirme tamamlandıktan sonra
ollama listile doğrulayın -
26B model, 24GB belleğin büyük kısmını kullanarak sistem yanıtını düşürür
- Varsayılan 8B (Q4_K_M quantization) modelinin kullanılması önerilir
Adım 4 — Modeli test etme ve GPU hızlandırmasını doğrulama
-
Modeli test edin
ollama run gemma4:latest "Hello, what model are you?" -
GPU hızlandırma durumunu kontrol edin
ollama ps- Örnek: CPU/GPU oranı 14%/86%
Adım 5 — Otomatik başlatma ve modeli bellekte tutma ayarı
-
5a. Ollama uygulamasını otomatik başlatma
- Menü çubuğu simgesine tıklayın → Launch at Login seçeneğini etkinleştirin
- Ya da System Settings > General > Login Items üzerinden elle ekleyin
-
5b. Gemma 4'ü otomatik ön yükleme
-
Ollama başladıktan sonra modeli otomatik yüklemek ve her 5 dakikada bir etkin tutmak için bir Launch Agent oluşturun
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
Agent'ı yükleyin
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
Her 5 dakikada bir boş bir prompt göndererek modeli bellekte tutun
-
-
5c. Modeli süresiz tutma
-
Varsayılan olarak model, 5 dakika etkinlik olmazsa bellekten çıkarılır
-
Süresiz tutma ayarı
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
Yeniden başlatma sonrasında da geçerli olması için
~/.zshrciçine ekleyin
-
Adım 6 — Yapılandırmayı doğrulama
-
Ollama sunucusunun çalıştığını kontrol edin
ollama list -
Modelin belleğe yüklenme durumunu kontrol edin
ollama ps -
Launch Agent kaydını kontrol edin
launchctl list | grep ollama -
Beklenen çıktı örneği
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
API erişimi
-
Yerel API uç noktası:
http://localhost:11434 -
OpenAI uyumlu Chat Completion örneği
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
Yararlı komutlar
| Komut | Açıklama |
|---|---|
ollama list |
İndirilen model listesi |
ollama ps |
Çalışan modeller ve bellek kullanımı |
ollama run gemma4:latest |
Etkileşimli çalıştırma |
ollama stop gemma4:latest |
Modeli bellekten çıkarma |
ollama pull gemma4:latest |
En son sürüme güncelleme |
ollama rm gemma4:latest |
Modeli silme |
Ollama'yı kaldırma ve otomatik başlatmayı devre dışı bırakma
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
Ollama v0.19+ başlıca iyileştirmeler (31 Mart 2026)
-
MLX backend (Apple Silicon)
- Çıkarım hızını artırmak için Apple MLX framework otomatik olarak kullanılır
- M5 serisi çipler, ek hızlandırma için GPU Neural Accelerator desteği sunar
- M4 ve altı çiplerde de MLX tabanlı genel hız artışı uygulanır
-
NVFP4 formatı (NVIDIA)
- NVFP4 formatı, doğruluğu korurken bellek bant genişliği ve depolama alanı kullanımını azaltır
- NVIDIA model optimizasyon araçlarıyla oluşturulan modellerle uyumludur
-
Önbellekleme iyileştirmeleri (kodlama ve ajan işleri)
- Bellek kullanımında azalma: konuşmalar arasında önbelleğin yeniden kullanılmasıyla verim artar
- Akıllı checkpoint'ler: prompt işleme yükünü azaltır ve yanıt hızını artırır
- Akıllı önbellek temizleme: ortak prefix'leri koruyarak dallanan iş akışlarında verimliliği artırır
Ek notlar
- Gemma 4 (8B) modeli yaklaşık 9.6GB bellek kullanır
- 24GB'lık bir Mac mini'de yaklaşık 14GB boş alan bırakabilir
- 26B model, yaklaşık 17GB kullanım nedeniyle sistem swap'ine ve yanıt yavaşlamasına yol açar
- 8B model daha kararlı performans sunar
1 yorum
Hacker News yorumları
İlk kez bir open weight modeli çıkar çıkmaz kullanıyorsanız, ilk implementasyonlarda ve quantization tarafında her zaman bug olduğunu bilmelisiniz
Her proje çıkış gününe yetişmek için destek eklemeye koşturduğu için sonuçlar doğru olmayabilir
Tokenizer implementasyonunda şimdiden çeşitli sorunlar bulundu ve imatrix kullanan quantization da problemli olabilir
Önümüzdeki birkaç hafta boyunca “tool calling çalışmıyor, model berbat” türü çok sayıda gönderi göreceğiz. Aslında sorun, insanların bozuk implementasyonlar kullanıyor olması
cutting-edge modeller kullanacaksanız inference engine’inizi sık sık güncellemeye ve quantized sürümleri her değiştiğinde yeniden indirmeye hazır olmalısınız
Çıkış gününe yetişme yarışı yüzünden süreç “çıktı token’ı üretiyorsa hemen yayınla” şeklinde ilerliyor; doğruluk doğrulamasıysa sonraya kalıyor
Tool calling’in çalışmadığı durumları sık yaşıyorum ama bunun modelden mi yoksa ollama’dan mı kaynaklandığını bilmiyorum
Yerelde model çalıştırmak için bir Mac mini alıp almamayı düşünüyorum
Ben ağırlıklı olarak geliştirme işleri ve homelab projeleri için Claude kullanıyorum; açık modellerin bu kadar işe yarayıp yaramadığını, yoksa ayda 20 dolarlık aboneliği sürdürmenin daha mantıklı olup olmadığını bilmek istiyorum
Donanım satın alıp kendiniz host etmeden önce bunu bir hosting service üzerinden denemenizi öneririm. Böylece modelin sınırlarını önceden hissedebilirsiniz
Ama beklentiyi düşük tutmak lazım. Benchmark’lar ne derse desin Sonnet ya da Opus ile kıyaslanamaz
MacBook Pro M4 (36GB) ile LM Studio’da open code frontend üzerinden test ettim ama tool calling sürekli başarısız olunca qwen’e geri döndüm
Benzer ortamda başarı elde eden biri var mı merak ediyorum
Ama gemma-4-26B-A4B-it-GGUF:Q4_K_M llama.cpp’de sorunsuz çalıştı. Hem hız (saniyede 38 token) hem de kalite etkileyiciydi
Claude Sonnet 4.5’in yerini alabilecek bir açık model arıyorum
Ollama Cloud ya da OpenRouter.ai üzerindeki modeller arasında gerçek bir alternatif olup olmadığını merak ediyorum
Benchmark’lardan çok, gerçek geliştiricilerin kullanım deneyimlerini duymak istiyorum
MiniMax, GLM, Qwen, Kimi ve diğerlerini kullandım ama karmaşık işlerde hepsinin ciddi sınırları var
M5 Air (32GB, 10 çekirdek) üzerinde oMLX build ile çalıştıran var mı merak ediyorum. Tool calling de çalışıyor mu bilmek istiyorum
Ben şahsen tool calling ve
<|channel>thinking desteği eklemek için testler yapıyorum“Gemma 4 12B” için olan adımların ortada bir yerde 26B’ye dönmesi tuhaf
Ayrıca ollama ps içinde “14%/86% CPU/GPU” görünüyor; bu GPU performansının kötü olduğu anlamına gelmiyor mu?
26B modeli yerelde çalıştırmak etkileyici ama latency yüksek olduğu için sohbet dışındaki işlerde kullanmak zor
Biz görüntü üretimi işlerini yerel inference’tan API çağrılarına taşıdık. Cold start ve üretim süresi fazla uzundu
Yerel kurulum denemeler için iyi ama zamanında çalışması gereken production workload’lar için API hâlâ daha avantajlı
Yine de mahremiyet açısından hassas veriler ile çalışırken yerel kurulum çok faydalı
Bu kadar çok kişinin neden Ollama kullandığını merak ediyorum. Denedim ama fazla basitleştirilmiş geldi
Bugünlerde Unsloth Studio, yeni başlayanlar için daha iyi varsayılan seçenek gibi duruyor
ollama pullile modeli indirebiliyorsunuzHugging Face üzerinde model adı ve sürümünü elle arama karmaşası yok
Ama daha derine indikçe eninde sonunda sunucu yapısını öğrenmeniz gerekiyor
Bugün olsa LM Studio’yu daha çok öneririm. Unsloth Studio’nun farkı ne, merak ettim
Gerçekten kazanmak istiyorsanız Ollama’yı kaldırıp doğrudan llama.cpp’ye geçmeniz gerekir
16GB GPU ile gayet iyi çalışıyor ve başka frontend’leri denemek için backend olarak da fazlasıyla yeterli
Bu modelin yerel kodlama için kullanılıp kullanılamayacağını, hangi IDE veya harness’lerin uyumlu olduğunu merak ediyorum
Ama Codex’in son sürümünde llama.cpp ile API uyumluluğu sorunları var
Ben Pi’yi tercih ediyorum. Minimal ve genişletilebilir. Claude Code, OpenCode gibi seçenekler de yaygın
Ben bunu çözmek için inference engine ile harness arasında özellikleri emüle eden Petsitter adlı bir proxy yaptım
GitHub linki
Ollama’nın üstüne Petsitter, onun üstüne de agent harness koymanız yeterli
Ollama’nın son sürümü zaten
"completion", "vision", "audio", "tools", "thinking"desteği sunuyorDün gece bu modeli kullanmak için Ollama v0.20 pre-release kurmam gerekti. Bu yüzden mevcut rehberin ne kadar doğru olduğundan emin değilim