Ollama artık Apple Silicon'da MLX tabanlı çalışıyor
(ollama.com)- Apple MLX framework'ü tabanlı Ollama önizleme sürümü yayımlandı; Apple Silicon'un birleşik bellek mimarisinden yararlanarak performans artışı sağlıyor
- M5 serisi çiplerdeki GPU Neural Accelerator sayesinde hem TTFT (ilk token üretim süresi) hem de token üretim hızı iyileştirildi
- NVFP4 formatı desteğiyle model doğruluğu korunurken bellek bant genişliği ve depolama gereksinimleri azaltılıyor; NVIDIA Model Optimizer ile optimize edilmiş modeller çalıştırılabiliyor
- Önbellek yeniden kullanımı ve akıllı önbellek politikaları ile konuşmalar arasında bellek verimliliği ve yanıt hızı artırılıyor, paylaşılan prompt'larda cache hit oranı yükseltiliyor
- İleride daha fazla model ve özel model içe aktarma özelliği eklenerek desteklenen mimarilerin genişletilmesi planlanıyor
Apple Silicon'da MLX tabanlı çalışan Ollama önizlemesi
- Apple'ın MLX framework'ü tabanlı yeni Ollama önizleme sürümü yayımlandı
- macOS'ta kişisel asistanları (OpenClaw) veya kodlama ajanlarını (Claude Code, OpenCode, Codex vb.) daha hızlı çalıştırabiliyor
- Apple Silicon'un birleşik bellek mimarisinden yararlanarak performansı artırıyor
-
Apple Silicon'da performans artışı
- Ollama, Apple'ın MLX makine öğrenimi framework'ü üzerinde çalışıyor ve M5, M5 Pro, M5 Max çiplerindeki GPU Neural Accelerator'ı kullanarak hem TTFT (ilk token üretim süresi) hem de token üretim hızını hızlandırıyor
- 29 Mart 2026 tarihli testte Alibaba'nın Qwen3.5-35B-A3B modeli (
NVFP4quantization) ile Ollama'nın önceki uygulaması (Q4_K_M) karşılaştırıldı - Ollama 0.19 sürümü,
int4çalıştırmada 1851 token/s prefill, 134 token/s decode performansı kaydetti
-
NVFP4 desteği
- NVIDIA'nın NVFP4 formatı desteğiyle model doğruluğu korunurken bellek bant genişliği ve depolama gereksinimleri azaltılıyor
- NVFP4 kullanan çıkarım ortamı ile üretim ortamı arasında sonuç tutarlılığı sağlanıyor
- NVIDIA'nın Model Optimizer aracıyla optimize edilmiş modeller çalıştırılabiliyor
- Ollama araştırma ekibi ile donanım iş ortaklarının tasarım ve kullanım amaçlarına göre farklı precision türleri de eklenecek
-
Önbellek sistemi iyileştirmeleri
- Önbellek yeniden kullanımı ile konuşmalar arasında bellek kullanımı azaltılıyor, paylaşılan sistem prompt'ları kullanıldığında cache hit oranı artırılıyor
- Akıllı checkpoint'ler sayesinde prompt işleme yükü azaltılıyor ve yanıt hızı artırılıyor
- Akıllı cache temizleme politikası ile eski branch'ler silinse bile paylaşılan prefix daha uzun süre korunuyor
-
Nasıl başlanır
- Ollama 0.19'u indirin
- Yeni Qwen3.5-35B-A3B modeli, kodlama iş yüklerine uygun örnekleme parametreleriyle ayarlandı
- 32 GB veya daha fazla birleşik belleke sahip bir Mac gerekiyor
- Çalıştırma örnekleri:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - Modelle sohbet:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
-
Gelecek planları
- Daha fazla model desteği eklenecek
- Desteklenen mimarilere dayalı özel model içe aktarma özelliği eklenecek
- Desteklenen mimari listesi sürekli genişletilecek
-
Teşekkürler
- MLX katkıcı ekibi hızlandırma framework'ünün geliştirilmesi için
- NVIDIA ekibi NVFP4 quantization, model optimizasyonu, MLX CUDA desteği, Ollama optimizasyonu ve testleri için
- GGML ve llama.cpp ekibi yerel framework ve topluluk oluşturma çalışmaları için
- Alibaba Qwen ekibi açık kaynak model sağladıkları ve iş birliği yaptıkları için
1 yorum
Hacker News görüşleri
Benim yaptığım "apfel", Apple’ın cihaz üzerinde çalışan yerel foundation model’leri için bir CLI
4k bağlam sınırı ve renk tasvirini bile engelleyen aşırı guardrail’ler var, ama harici çağrı olmadan doğrudan bash script’lerinden kullanılabilmesi gerçekten çok güçlü hissettiriyor
Ben de heyecanlanmıştım ama kullanınca hayal kırıklığı büyük oldu. Şimdi Apple’ın tamamen Gemini tarafına yönelmiş gibi görünmesi bu yüzden bana daha iyi geliyor
Cihaz üzerinde LLM’lerin geleceğin yolu olduğunu düşünüyorum
Güvenliği artırıyor, veri merkezlerine kıyasla daha az güç tüketiyor ve çıkarım talebi sorununu da hafifletebilir. Çoğu kullanıcının en ileri seviye model performansına ihtiyacı yok
Veri merkezleri GPU batching ve yüksek kullanım oranı sayesinde kişisel PC’lerden neredeyse 100 kat daha verimli
Yine de yerel modelin basit istekleri işleyip karmaşık olanları buluta devrettiği hibrit yaklaşım umut verici görünüyor
İçinde ChatGPT tarzı bir arayüz var, bu da hızlı testler için kullanışlı. 16GB RAM’de bile gayet iyi çalışan modeller var
Örneğin Qwen 3.5 9B yoğun sansürlü, ama Uncensored sürüm bunun tersine fazla serbest; aradaki denge ilginç
Ama SSD bant genişliği darboğaz oluyor; bu yüzden önbellek için ne kadar çok RAM varsa o kadar iyi. Yanıt beklemeye razıysanız gayet pratik
Kısa süre önce Qwen 3.5 4B ile 27B’yi birleştirip bir graphRAG uygulaması yaptım; küçük görevlerle soru-cevap işini ayırınca oldukça iyi çalıştı
MLX kullandım ve varlık çıkarımını batch işleme ile yaparken çok daha hızlı hissettirdi
Mac’te Ollama çıkarımının MLX sayesinde ciddi biçimde iyileşmesine sevindim
Özellikle omlx.ai içindeki SSD KV caching özelliği oyun değiştiriciydi
Oturum bellekten silinse bile yeniden prefill yapmaya gerek kalmıyor ve M5 Max’in hızlı prefill hızı sayesinde üretime daha fazla zaman ayrılabiliyor
M2 Max 96GB’de qwen 70b 4-bit’i llama.cpp ile çalıştırıyorum
Günlük işler için yeterince kararlı. Ollama eskiden llama.cpp’yi shell üzerinden çağırıyordu; şimdi MLX’e yerel geçiş ile bellek verimliliği artabilir
Bunu büyük modellerde gguf yoluyla karşılaştırmayı düşünüyorum
Neden hâlâ Ollama kullanıldığını merak ediyorum
Lemonade ya da llama.cpp daha optimize ve kullanım da benzer
Mac seviyesinde performansla yerel model çalıştırabilecek Mac dışı bir alternatif var mı diye merak ediyorum
En yeni MLX inference engine optiq ile karşılaştırınca durum nasıl acaba
optiq, Turboquantization destekliyor
llama.cpp ile MLX arasında performans karşılaştırmasını merak ediyorum
Yine de çoğu durumda hız artışı daha değerli
Yalnızca 16GB RAM ile MacOS üzerinde yerel bir LLM ile Claude Code’u rahatça çalıştırabildiğimiz günü bekliyorum