Ollama artık Apple Silicon'da MLX tabanlı çalışıyor

(ollama.com)

5 puan yazan GN⁺ 29 일 전 | 1 yorum | WhatsApp'ta paylaş

Apple MLX framework'ü tabanlı Ollama önizleme sürümü yayımlandı; Apple Silicon'un birleşik bellek mimarisinden yararlanarak performans artışı sağlıyor
M5 serisi çiplerdeki GPU Neural Accelerator sayesinde hem TTFT (ilk token üretim süresi) hem de token üretim hızı iyileştirildi
NVFP4 formatı desteğiyle model doğruluğu korunurken bellek bant genişliği ve depolama gereksinimleri azaltılıyor; NVIDIA Model Optimizer ile optimize edilmiş modeller çalıştırılabiliyor
Önbellek yeniden kullanımı ve akıllı önbellek politikaları ile konuşmalar arasında bellek verimliliği ve yanıt hızı artırılıyor, paylaşılan prompt'larda cache hit oranı yükseltiliyor
İleride daha fazla model ve özel model içe aktarma özelliği eklenerek desteklenen mimarilerin genişletilmesi planlanıyor

Apple Silicon'da MLX tabanlı çalışan Ollama önizlemesi

Apple'ın MLX framework'ü tabanlı yeni Ollama önizleme sürümü yayımlandı
- macOS'ta kişisel asistanları (OpenClaw) veya kodlama ajanlarını (Claude Code, OpenCode, Codex vb.) daha hızlı çalıştırabiliyor
- Apple Silicon'un birleşik bellek mimarisinden yararlanarak performansı artırıyor
Apple Silicon'da performans artışı
- Ollama, Apple'ın MLX makine öğrenimi framework'ü üzerinde çalışıyor ve M5, M5 Pro, M5 Max çiplerindeki GPU Neural Accelerator'ı kullanarak hem TTFT (ilk token üretim süresi) hem de token üretim hızını hızlandırıyor
- 29 Mart 2026 tarihli testte Alibaba'nın Qwen3.5-35B-A3B modeli (NVFP4 quantization) ile Ollama'nın önceki uygulaması (Q4_K_M) karşılaştırıldı
- Ollama 0.19 sürümü, int4 çalıştırmada 1851 token/s prefill, 134 token/s decode performansı kaydetti
NVFP4 desteği
- NVIDIA'nın NVFP4 formatı desteğiyle model doğruluğu korunurken bellek bant genişliği ve depolama gereksinimleri azaltılıyor
- NVFP4 kullanan çıkarım ortamı ile üretim ortamı arasında sonuç tutarlılığı sağlanıyor
- NVIDIA'nın Model Optimizer aracıyla optimize edilmiş modeller çalıştırılabiliyor
- Ollama araştırma ekibi ile donanım iş ortaklarının tasarım ve kullanım amaçlarına göre farklı precision türleri de eklenecek
Önbellek sistemi iyileştirmeleri
- Önbellek yeniden kullanımı ile konuşmalar arasında bellek kullanımı azaltılıyor, paylaşılan sistem prompt'ları kullanıldığında cache hit oranı artırılıyor
- Akıllı checkpoint'ler sayesinde prompt işleme yükü azaltılıyor ve yanıt hızı artırılıyor
- Akıllı cache temizleme politikası ile eski branch'ler silinse bile paylaşılan prefix daha uzun süre korunuyor
Nasıl başlanır
- Ollama 0.19'u indirin
- Yeni Qwen3.5-35B-A3B modeli, kodlama iş yüklerine uygun örnekleme parametreleriyle ayarlandı
- 32 GB veya daha fazla birleşik belleke sahip bir Mac gerekiyor
- Çalıştırma örnekleri:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - Modelle sohbet: ollama run qwen3.5:35b-a3b-coding-nvfp4
Gelecek planları
- Daha fazla model desteği eklenecek
- Desteklenen mimarilere dayalı özel model içe aktarma özelliği eklenecek
- Desteklenen mimari listesi sürekli genişletilecek
Teşekkürler
- MLX katkıcı ekibi hızlandırma framework'ünün geliştirilmesi için
- NVIDIA ekibi NVFP4 quantization, model optimizasyonu, MLX CUDA desteği, Ollama optimizasyonu ve testleri için
- GGML ve llama.cpp ekibi yerel framework ve topluluk oluşturma çalışmaları için
- Alibaba Qwen ekibi açık kaynak model sağladıkları ve iş birliği yaptıkları için

1 yorum

GN⁺ 29 일 전

Hacker News görüşleri

Benim yaptığım "apfel", Apple’ın cihaz üzerinde çalışan yerel foundation model’leri için bir CLI
4k bağlam sınırı ve renk tasvirini bile engelleyen aşırı guardrail’ler var, ama harici çağrı olmadan doğrudan bash script’lerinden kullanılabilmesi gerçekten çok güçlü hissettiriyor
- Dürüst olmak gerekirse Apple’ın bunu bu halde ürün olarak çıkarmış olmasına inanamıyorum
  Ben de heyecanlanmıştım ama kullanınca hayal kırıklığı büyük oldu. Şimdi Apple’ın tamamen Gemini tarafına yönelmiş gibi görünmesi bu yüzden bana daha iyi geliyor
- Harika proje. Acaba Homebrew dağıtımı planı da var mı?
Cihaz üzerinde LLM’lerin geleceğin yolu olduğunu düşünüyorum
Güvenliği artırıyor, veri merkezlerine kıyasla daha az güç tüketiyor ve çıkarım talebi sorununu da hafifletebilir. Çoğu kullanıcının en ileri seviye model performansına ihtiyacı yok
- Güvenlik daha yüksek, ama arz verimliliği aslında kötüleşebilir
  Veri merkezleri GPU batching ve yüksek kullanım oranı sayesinde kişisel PC’lerden neredeyse 100 kat daha verimli
- Şirketler açısından merkezi veri merkezi modeli hâlâ mantıklı olabilir
  Yine de yerel modelin basit istekleri işleyip karmaşık olanları buluta devrettiği hibrit yaklaşım umut verici görünüyor
- Yakın zamanda M4 MBP’ye llama.cpp kurup yerel modelleri deniyorum
  İçinde ChatGPT tarzı bir arayüz var, bu da hızlı testler için kullanışlı. 16GB RAM’de bile gayet iyi çalışan modeller var
  Örneğin Qwen 3.5 9B yoğun sansürlü, ama Uncensored sürüm bunun tersine fazla serbest; aradaki denge ilginç
- SSD offloading ile SOTA modeller bile tüketici PC’lerinde çalıştırılabiliyor
  Ama SSD bant genişliği darboğaz oluyor; bu yüzden önbellek için ne kadar çok RAM varsa o kadar iyi. Yanıt beklemeye razıysanız gayet pratik
- 5 yıldır dijital günlük tutuyorum ve bu gidişatı öngörmüştüm
  Kısa süre önce Qwen 3.5 4B ile 27B’yi birleştirip bir graphRAG uygulaması yaptım; küçük görevlerle soru-cevap işini ayırınca oldukça iyi çalıştı
  MLX kullandım ve varlık çıkarımını batch işleme ile yaparken çok daha hızlı hissettirdi
Mac’te Ollama çıkarımının MLX sayesinde ciddi biçimde iyileşmesine sevindim
Özellikle omlx.ai içindeki SSD KV caching özelliği oyun değiştiriciydi
Oturum bellekten silinse bile yeniden prefill yapmaya gerek kalmıyor ve M5 Max’in hızlı prefill hızı sayesinde üretime daha fazla zaman ayrılabiliyor
M2 Max 96GB’de qwen 70b 4-bit’i llama.cpp ile çalıştırıyorum
Günlük işler için yeterince kararlı. Ollama eskiden llama.cpp’yi shell üzerinden çağırıyordu; şimdi MLX’e yerel geçiş ile bellek verimliliği artabilir
Bunu büyük modellerde gguf yoluyla karşılaştırmayı düşünüyorum
- Saniyede token üretim hızı ne kadar acaba?
- İlk lansmanda bazı GGUF modellerinin üzerine yazılmıştı ve bu yüzden Apple Silicon dışı platformlarda indirme engellenmişti. Umarım yakında düzeltilir
Neden hâlâ Ollama kullanıldığını merak ediyorum
Lemonade ya da llama.cpp daha optimize ve kullanım da benzer
Mac seviyesinde performansla yerel model çalıştırabilecek Mac dışı bir alternatif var mı diye merak ediyorum
- Aynı seviyede değil. PC tarafında 5090 sınıfı bir GPU gerekiyor ama maliyet başına token verimliliği ve güç verimliliğinde Apple Silicon çok daha iyi
En yeni MLX inference engine optiq ile karşılaştırınca durum nasıl acaba
optiq, Turboquantization destekliyor
llama.cpp ile MLX arasında performans karşılaştırmasını merak ediyorum
- MLX biraz daha hızlı ama RAM kullanımı biraz daha fazla
  Yine de çoğu durumda hız artışı daha değerli
Yalnızca 16GB RAM ile MacOS üzerinde yerel bir LLM ile Claude Code’u rahatça çalıştırabildiğimiz günü bekliyorum
- Şu an en az 32GB gerektiğini duymuştum; pratikte buna ne kadar yaklaşıldığını merak ediyorum

Ollama artık Apple Silicon'da MLX tabanlı çalışıyor

Apple Silicon'da MLX tabanlı çalışan Ollama önizlemesi

Apple Silicon'da performans artışı

NVFP4 desteği

Önbellek sistemi iyileştirmeleri

Nasıl başlanır

Gelecek planları

Teşekkürler

İlgili okumalar

1 yorum

Hacker News görüşleri