33 puan yazan GN⁺ 25 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Apple Silicon tabanlı Mac mini üzerinde Ollama ve Gemma 4 modelini otomatik çalışacak ve bellekte sürekli kalacak şekilde yapılandırma adımlarının özeti
  • Homebrew, Launch Agent ve ortam değişkenleri kullanılarak, yeniden başlatma sonrasında da modelin otomatik yüklenmesi sağlanır; 8B model yaklaşık 9.6GB bellekle kararlı çalışır
  • Ollama v0.19 ve üzeri, Apple ve NVIDIA ortamlarında çıkarım performansını artıran MLX backend ve NVFP4 formatını destekler
  • 26B model, yüksek bellek kullanımı nedeniyle önerilmez; gerçek kullanım için 8B model daha uygundur
  • Yerel API üzerinden OpenAI uyumlu Chat Completion istekleri yapılabilir; Mac mini üzerinde kalıcı LLM servis ortamı kurmak için kullanışlıdır

Ön hazırlık

  • Apple Silicon (M1~M5) tabanlı bir Mac mini gerekir
  • Gemma 4 (8B) modelini çalıştırmak için en az 16GB birleşik bellek önerilir
  • Homebrew kurulmuş bir macOS ortamı gerekir

Adım 1 — Ollama kurulumu

  • Homebrew cask kullanarak Ollama macOS uygulamasını kurun

    brew install --cask ollama-app
    
  • Kurulumdan sonra /Applications/ içine Ollama.app, /opt/homebrew/bin/ollama içine CLI yerleştirilir

  • Otomatik güncelleme ve MLX backend dahildir

Adım 2 — Ollama'yı çalıştırma ve doğrulama

  • Ollama uygulamasını çalıştırın

    open -a Ollama
    
  • Menü çubuğunda simge göründükten sonra sunucunun başlatılmasını bekleyin

  • Çalışma durumunu kontrol edin

    ollama list
    

Adım 3 — Gemma 4 modelini indirme

  • Modeli indirin

    ollama pull gemma4
    
  • Yaklaşık 9.6GB indirme tamamlandıktan sonra ollama list ile doğrulayın

  • 26B model, 24GB belleğin büyük kısmını kullanarak sistem yanıtını düşürür

    • Varsayılan 8B (Q4_K_M quantization) modelinin kullanılması önerilir

Adım 4 — Modeli test etme ve GPU hızlandırmasını doğrulama

  • Modeli test edin

    ollama run gemma4:latest "Hello, what model are you?"
    
  • GPU hızlandırma durumunu kontrol edin

    ollama ps
    
    • Örnek: CPU/GPU oranı 14%/86%

Adım 5 — Otomatik başlatma ve modeli bellekte tutma ayarı

  • 5a. Ollama uygulamasını otomatik başlatma

    • Menü çubuğu simgesine tıklayın → Launch at Login seçeneğini etkinleştirin
    • Ya da System Settings > General > Login Items üzerinden elle ekleyin
  • 5b. Gemma 4'ü otomatik ön yükleme

    • Ollama başladıktan sonra modeli otomatik yüklemek ve her 5 dakikada bir etkin tutmak için bir Launch Agent oluşturun

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • Agent'ı yükleyin

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • Her 5 dakikada bir boş bir prompt göndererek modeli bellekte tutun

  • 5c. Modeli süresiz tutma

    • Varsayılan olarak model, 5 dakika etkinlik olmazsa bellekten çıkarılır

    • Süresiz tutma ayarı

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • Yeniden başlatma sonrasında da geçerli olması için ~/.zshrc içine ekleyin

Adım 6 — Yapılandırmayı doğrulama

  • Ollama sunucusunun çalıştığını kontrol edin

    ollama list
    
  • Modelin belleğe yüklenme durumunu kontrol edin

    ollama ps
    
  • Launch Agent kaydını kontrol edin

    launchctl list | grep ollama
    
  • Beklenen çıktı örneği

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

API erişimi

Yararlı komutlar

Komut Açıklama
ollama list İndirilen model listesi
ollama ps Çalışan modeller ve bellek kullanımı
ollama run gemma4:latest Etkileşimli çalıştırma
ollama stop gemma4:latest Modeli bellekten çıkarma
ollama pull gemma4:latest En son sürüme güncelleme
ollama rm gemma4:latest Modeli silme

Ollama'yı kaldırma ve otomatik başlatmayı devre dışı bırakma

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

Ollama v0.19+ başlıca iyileştirmeler (31 Mart 2026)

  • MLX backend (Apple Silicon)

    • Çıkarım hızını artırmak için Apple MLX framework otomatik olarak kullanılır
    • M5 serisi çipler, ek hızlandırma için GPU Neural Accelerator desteği sunar
    • M4 ve altı çiplerde de MLX tabanlı genel hız artışı uygulanır
  • NVFP4 formatı (NVIDIA)

    • NVFP4 formatı, doğruluğu korurken bellek bant genişliği ve depolama alanı kullanımını azaltır
    • NVIDIA model optimizasyon araçlarıyla oluşturulan modellerle uyumludur
  • Önbellekleme iyileştirmeleri (kodlama ve ajan işleri)

    • Bellek kullanımında azalma: konuşmalar arasında önbelleğin yeniden kullanılmasıyla verim artar
    • Akıllı checkpoint'ler: prompt işleme yükünü azaltır ve yanıt hızını artırır
    • Akıllı önbellek temizleme: ortak prefix'leri koruyarak dallanan iş akışlarında verimliliği artırır

Ek notlar

  • Gemma 4 (8B) modeli yaklaşık 9.6GB bellek kullanır
    • 24GB'lık bir Mac mini'de yaklaşık 14GB boş alan bırakabilir
  • 26B model, yaklaşık 17GB kullanım nedeniyle sistem swap'ine ve yanıt yavaşlamasına yol açar
    • 8B model daha kararlı performans sunar

Referans bağlantıları

1 yorum

 
GN⁺ 25 일 전
Hacker News yorumları
  • İlk kez bir open weight modeli çıkar çıkmaz kullanıyorsanız, ilk implementasyonlarda ve quantization tarafında her zaman bug olduğunu bilmelisiniz
    Her proje çıkış gününe yetişmek için destek eklemeye koşturduğu için sonuçlar doğru olmayabilir
    Tokenizer implementasyonunda şimdiden çeşitli sorunlar bulundu ve imatrix kullanan quantization da problemli olabilir
    Önümüzdeki birkaç hafta boyunca “tool calling çalışmıyor, model berbat” türü çok sayıda gönderi göreceğiz. Aslında sorun, insanların bozuk implementasyonlar kullanıyor olması
    cutting-edge modeller kullanacaksanız inference engine’inizi sık sık güncellemeye ve quantized sürümleri her değiştiğinde yeniden indirmeye hazır olmalısınız
    Çıkış gününe yetişme yarışı yüzünden süreç “çıktı token’ı üretiyorsa hemen yayınla” şeklinde ilerliyor; doğruluk doğrulamasıysa sonraya kalıyor

    • Linux ve 4090 ortamında hangi inference engine’i kullanmak gerektiğini merak ediyorum
      Tool calling’in çalışmadığı durumları sık yaşıyorum ama bunun modelden mi yoksa ollama’dan mı kaynaklandığını bilmiyorum
  • Yerelde model çalıştırmak için bir Mac mini alıp almamayı düşünüyorum
    Ben ağırlıklı olarak geliştirme işleri ve homelab projeleri için Claude kullanıyorum; açık modellerin bu kadar işe yarayıp yaramadığını, yoksa ayda 20 dolarlık aboneliği sürdürmenin daha mantıklı olup olmadığını bilmek istiyorum

    • Küçük işler için fena değil ama Claude gibi kullanmayı beklerseniz hayal kırıklığı yaşama ihtimaliniz yüksek
      Donanım satın alıp kendiniz host etmeden önce bunu bir hosting service üzerinden denemenizi öneririm. Böylece modelin sınırlarını önceden hissedebilirsiniz
    • Ben llama sızıntısı döneminden beri açık modeller kullanıyorum. Gittikçe daha iyi oluyorlar ve internete ihtiyaç duymadan yerelde bir bilgi yığını çalıştırabilmek harika
      Ama beklentiyi düşük tutmak lazım. Benchmark’lar ne derse desin Sonnet ya da Opus ile kıyaslanamaz
    • En iyisi OpenRouter’da 10 dolarlık kredi harcayıp kendiniz test etmeniz. Benim deneyimime göre hâlâ çok eksikleri var ama ara sıra dönüp bakmak eğlenceli oluyor
    • gpt-oss-20B’nin ajan performansı gayet iyiydi ama Claude Code’un ücretli modelleriyle kıyaslanamaz. 120B’nin çok daha iyi olduğunu duydum
  • MacBook Pro M4 (36GB) ile LM Studio’da open code frontend üzerinden test ettim ama tool calling sürekli başarısız olunca qwen’e geri döndüm
    Benzer ortamda başarı elde eden biri var mı merak ediyorum

    • Tool calling hataları inference engine implementasyonu ya da quantization kaynaklıdır. Birkaç gün sonra güncellemelerden sonra tekrar denemenizi öneririm. Bu, her açık model çıkışında yaşanan bir şey
    • Ben M5 (32GB) üzerinde LM Studio çalıştırınca bilgisayar dondu ve yeniden başlatmak zorunda kaldım
      Ama gemma-4-26B-A4B-it-GGUF:Q4_K_M llama.cpp’de sorunsuz çalıştı. Hem hız (saniyede 38 token) hem de kalite etkileyiciydi
    • Ben de aynı sorunu yaşadım. LM Studio’nun Q_8 sürümünde komutları durmadan tekrar eden bir loop mode’a giriyor
    • Başkalarının dediğine göre hem main hem de runtime sürümünü güncellemek gerekiyor
    • Ubuntu sunucusunda da (charmbracelet/crush) tool calling hatasını doğruladım
  • Claude Sonnet 4.5’in yerini alabilecek bir açık model arıyorum
    Ollama Cloud ya da OpenRouter.ai üzerindeki modeller arasında gerçek bir alternatif olup olmadığını merak ediyorum
    Benchmark’lardan çok, gerçek geliştiricilerin kullanım deneyimlerini duymak istiyorum

    • Sonuç olarak Sonnet ve Opus’un yerini alabilecek bir model yok. GPT Codex ailesi de hâlâ çok güçlü
      MiniMax, GLM, Qwen, Kimi ve diğerlerini kullandım ama karmaşık işlerde hepsinin ciddi sınırları var
    • Bana göre GLM5 ve KimiK2.5, Sonnet’e epey yaklaşan alternatifler
  • M5 Air (32GB, 10 çekirdek) üzerinde oMLX build ile çalıştıran var mı merak ediyorum. Tool calling de çalışıyor mu bilmek istiyorum

    • v0.3.2 sürümü kısmi destek durumunda. Metin üretimi çalışıyor ama özel token işleme henüz tamamlanmış değil
      Ben şahsen tool calling ve <|channel> thinking desteği eklemek için testler yapıyorum
    • Birinin Gemma 4 E4B’yi MLX üzerinde çalıştırdığını duydum (link)
  • “Gemma 4 12B” için olan adımların ortada bir yerde 26B’ye dönmesi tuhaf
    Ayrıca ollama ps içinde “14%/86% CPU/GPU” görünüyor; bu GPU performansının kötü olduğu anlamına gelmiyor mu?

    • Mac mini’de CPU ve GPU belleği paylaştığı için o oranı çok dikkate almamak gerekir gibi görünüyor
  • 26B modeli yerelde çalıştırmak etkileyici ama latency yüksek olduğu için sohbet dışındaki işlerde kullanmak zor
    Biz görüntü üretimi işlerini yerel inference’tan API çağrılarına taşıdık. Cold start ve üretim süresi fazla uzundu
    Yerel kurulum denemeler için iyi ama zamanında çalışması gereken production workload’lar için API hâlâ daha avantajlı
    Yine de mahremiyet açısından hassas veriler ile çalışırken yerel kurulum çok faydalı

  • Bu kadar çok kişinin neden Ollama kullandığını merak ediyorum. Denedim ama fazla basitleştirilmiş geldi
    Bugünlerde Unsloth Studio, yeni başlayanlar için daha iyi varsayılan seçenek gibi duruyor

    • Ollama’ya erişim kolay; tek satırlık ollama pull ile modeli indirebiliyorsunuz
      Hugging Face üzerinde model adı ve sürümünü elle arama karmaşası yok
      Ama daha derine indikçe eninde sonunda sunucu yapısını öğrenmeniz gerekiyor
    • Ollama başlangıçta first-mover advantage yakaladı. O dönemde llama.cpp’yi elle derlemek başlı başına bir engeldi
      Bugün olsa LM Studio’yu daha çok öneririm. Unsloth Studio’nun farkı ne, merak ettim
    • İnsanların neden LMStudio’dan daha fazla bahsetmediğini anlamıyorum. Ben birkaç ay önce geçtim ve çok daha iyi olduğunu düşünüyorum
    • Ollama’nın popülerliği biraz da reklam etkisi sayesinde oldu. Reddit ve Discord gibi yerlerde ‘llama.cpp için kolay frontend’ diye tanıtıldı
      Gerçekten kazanmak istiyorsanız Ollama’yı kaldırıp doğrudan llama.cpp’ye geçmeniz gerekir
    • Ben tersini sorarım — Ollama’nın sorunu tam olarak ne?
      16GB GPU ile gayet iyi çalışıyor ve başka frontend’leri denemek için backend olarak da fazlasıyla yeterli
  • Bu modelin yerel kodlama için kullanılıp kullanılamayacağını, hangi IDE veya harness’lerin uyumlu olduğunu merak ediyorum

    • Harness’lerin çoğu, OpenAI uyumlu bir API endpoint’i gösterdiğinizde yerel kodlamayı destekliyor
      Ama Codex’in son sürümünde llama.cpp ile API uyumluluğu sorunları var
      Ben Pi’yi tercih ediyorum. Minimal ve genişletilebilir. Claude Code, OpenCode gibi seçenekler de yaygın
    • Tool calling desteği gerekli ve birçok quantized gguf bunu desteklemiyor
      Ben bunu çözmek için inference engine ile harness arasında özellikleri emüle eden Petsitter adlı bir proxy yaptım
      GitHub linki
      Ollama’nın üstüne Petsitter, onun üstüne de agent harness koymanız yeterli
      Ollama’nın son sürümü zaten "completion", "vision", "audio", "tools", "thinking" desteği sunuyor
  • Dün gece bu modeli kullanmak için Ollama v0.20 pre-release kurmam gerekti. Bu yüzden mevcut rehberin ne kadar doğru olduğundan emin değilim