5 puan yazan GN⁺ 29 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Apple MLX framework'ü tabanlı Ollama önizleme sürümü yayımlandı; Apple Silicon'un birleşik bellek mimarisinden yararlanarak performans artışı sağlıyor
  • M5 serisi çiplerdeki GPU Neural Accelerator sayesinde hem TTFT (ilk token üretim süresi) hem de token üretim hızı iyileştirildi
  • NVFP4 formatı desteğiyle model doğruluğu korunurken bellek bant genişliği ve depolama gereksinimleri azaltılıyor; NVIDIA Model Optimizer ile optimize edilmiş modeller çalıştırılabiliyor
  • Önbellek yeniden kullanımı ve akıllı önbellek politikaları ile konuşmalar arasında bellek verimliliği ve yanıt hızı artırılıyor, paylaşılan prompt'larda cache hit oranı yükseltiliyor
  • İleride daha fazla model ve özel model içe aktarma özelliği eklenerek desteklenen mimarilerin genişletilmesi planlanıyor

Apple Silicon'da MLX tabanlı çalışan Ollama önizlemesi

  • Apple'ın MLX framework'ü tabanlı yeni Ollama önizleme sürümü yayımlandı
    • macOS'ta kişisel asistanları (OpenClaw) veya kodlama ajanlarını (Claude Code, OpenCode, Codex vb.) daha hızlı çalıştırabiliyor
    • Apple Silicon'un birleşik bellek mimarisinden yararlanarak performansı artırıyor
  • Apple Silicon'da performans artışı

    • Ollama, Apple'ın MLX makine öğrenimi framework'ü üzerinde çalışıyor ve M5, M5 Pro, M5 Max çiplerindeki GPU Neural Accelerator'ı kullanarak hem TTFT (ilk token üretim süresi) hem de token üretim hızını hızlandırıyor
    • 29 Mart 2026 tarihli testte Alibaba'nın Qwen3.5-35B-A3B modeli (NVFP4 quantization) ile Ollama'nın önceki uygulaması (Q4_K_M) karşılaştırıldı
    • Ollama 0.19 sürümü, int4 çalıştırmada 1851 token/s prefill, 134 token/s decode performansı kaydetti
  • NVFP4 desteği

    • NVIDIA'nın NVFP4 formatı desteğiyle model doğruluğu korunurken bellek bant genişliği ve depolama gereksinimleri azaltılıyor
    • NVFP4 kullanan çıkarım ortamı ile üretim ortamı arasında sonuç tutarlılığı sağlanıyor
    • NVIDIA'nın Model Optimizer aracıyla optimize edilmiş modeller çalıştırılabiliyor
    • Ollama araştırma ekibi ile donanım iş ortaklarının tasarım ve kullanım amaçlarına göre farklı precision türleri de eklenecek
  • Önbellek sistemi iyileştirmeleri

    • Önbellek yeniden kullanımı ile konuşmalar arasında bellek kullanımı azaltılıyor, paylaşılan sistem prompt'ları kullanıldığında cache hit oranı artırılıyor
    • Akıllı checkpoint'ler sayesinde prompt işleme yükü azaltılıyor ve yanıt hızı artırılıyor
    • Akıllı cache temizleme politikası ile eski branch'ler silinse bile paylaşılan prefix daha uzun süre korunuyor
  • Nasıl başlanır

    • Ollama 0.19'u indirin
    • Yeni Qwen3.5-35B-A3B modeli, kodlama iş yüklerine uygun örnekleme parametreleriyle ayarlandı
    • 32 GB veya daha fazla birleşik belleke sahip bir Mac gerekiyor
    • Çalıştırma örnekleri:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • Modelle sohbet: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • Gelecek planları

    • Daha fazla model desteği eklenecek
    • Desteklenen mimarilere dayalı özel model içe aktarma özelliği eklenecek
    • Desteklenen mimari listesi sürekli genişletilecek
  • Teşekkürler

    • MLX katkıcı ekibi hızlandırma framework'ünün geliştirilmesi için
    • NVIDIA ekibi NVFP4 quantization, model optimizasyonu, MLX CUDA desteği, Ollama optimizasyonu ve testleri için
    • GGML ve llama.cpp ekibi yerel framework ve topluluk oluşturma çalışmaları için
    • Alibaba Qwen ekibi açık kaynak model sağladıkları ve iş birliği yaptıkları için

1 yorum

 
GN⁺ 29 일 전
Hacker News görüşleri
  • Benim yaptığım "apfel", Apple’ın cihaz üzerinde çalışan yerel foundation model’leri için bir CLI
    4k bağlam sınırı ve renk tasvirini bile engelleyen aşırı guardrail’ler var, ama harici çağrı olmadan doğrudan bash script’lerinden kullanılabilmesi gerçekten çok güçlü hissettiriyor

    • Dürüst olmak gerekirse Apple’ın bunu bu halde ürün olarak çıkarmış olmasına inanamıyorum
      Ben de heyecanlanmıştım ama kullanınca hayal kırıklığı büyük oldu. Şimdi Apple’ın tamamen Gemini tarafına yönelmiş gibi görünmesi bu yüzden bana daha iyi geliyor
    • Harika proje. Acaba Homebrew dağıtımı planı da var mı?
  • Cihaz üzerinde LLM’lerin geleceğin yolu olduğunu düşünüyorum
    Güvenliği artırıyor, veri merkezlerine kıyasla daha az güç tüketiyor ve çıkarım talebi sorununu da hafifletebilir. Çoğu kullanıcının en ileri seviye model performansına ihtiyacı yok

    • Güvenlik daha yüksek, ama arz verimliliği aslında kötüleşebilir
      Veri merkezleri GPU batching ve yüksek kullanım oranı sayesinde kişisel PC’lerden neredeyse 100 kat daha verimli
    • Şirketler açısından merkezi veri merkezi modeli hâlâ mantıklı olabilir
      Yine de yerel modelin basit istekleri işleyip karmaşık olanları buluta devrettiği hibrit yaklaşım umut verici görünüyor
    • Yakın zamanda M4 MBP’ye llama.cpp kurup yerel modelleri deniyorum
      İçinde ChatGPT tarzı bir arayüz var, bu da hızlı testler için kullanışlı. 16GB RAM’de bile gayet iyi çalışan modeller var
      Örneğin Qwen 3.5 9B yoğun sansürlü, ama Uncensored sürüm bunun tersine fazla serbest; aradaki denge ilginç
    • SSD offloading ile SOTA modeller bile tüketici PC’lerinde çalıştırılabiliyor
      Ama SSD bant genişliği darboğaz oluyor; bu yüzden önbellek için ne kadar çok RAM varsa o kadar iyi. Yanıt beklemeye razıysanız gayet pratik
    • 5 yıldır dijital günlük tutuyorum ve bu gidişatı öngörmüştüm
      Kısa süre önce Qwen 3.5 4B ile 27B’yi birleştirip bir graphRAG uygulaması yaptım; küçük görevlerle soru-cevap işini ayırınca oldukça iyi çalıştı
      MLX kullandım ve varlık çıkarımını batch işleme ile yaparken çok daha hızlı hissettirdi
  • Mac’te Ollama çıkarımının MLX sayesinde ciddi biçimde iyileşmesine sevindim
    Özellikle omlx.ai içindeki SSD KV caching özelliği oyun değiştiriciydi
    Oturum bellekten silinse bile yeniden prefill yapmaya gerek kalmıyor ve M5 Max’in hızlı prefill hızı sayesinde üretime daha fazla zaman ayrılabiliyor

  • M2 Max 96GB’de qwen 70b 4-bit’i llama.cpp ile çalıştırıyorum
    Günlük işler için yeterince kararlı. Ollama eskiden llama.cpp’yi shell üzerinden çağırıyordu; şimdi MLX’e yerel geçiş ile bellek verimliliği artabilir
    Bunu büyük modellerde gguf yoluyla karşılaştırmayı düşünüyorum

    • Saniyede token üretim hızı ne kadar acaba?
    • İlk lansmanda bazı GGUF modellerinin üzerine yazılmıştı ve bu yüzden Apple Silicon dışı platformlarda indirme engellenmişti. Umarım yakında düzeltilir
  • Neden hâlâ Ollama kullanıldığını merak ediyorum
    Lemonade ya da llama.cpp daha optimize ve kullanım da benzer

  • Mac seviyesinde performansla yerel model çalıştırabilecek Mac dışı bir alternatif var mı diye merak ediyorum

    • Aynı seviyede değil. PC tarafında 5090 sınıfı bir GPU gerekiyor ama maliyet başına token verimliliği ve güç verimliliğinde Apple Silicon çok daha iyi
  • En yeni MLX inference engine optiq ile karşılaştırınca durum nasıl acaba
    optiq, Turboquantization destekliyor

  • llama.cpp ile MLX arasında performans karşılaştırmasını merak ediyorum

    • MLX biraz daha hızlı ama RAM kullanımı biraz daha fazla
      Yine de çoğu durumda hız artışı daha değerli
  • Yalnızca 16GB RAM ile MacOS üzerinde yerel bir LLM ile Claude Code’u rahatça çalıştırabildiğimiz günü bekliyorum

    • Şu an en az 32GB gerektiğini duymuştum; pratikte buna ne kadar yaklaşıldığını merak ediyorum