Rapid-MLX - Apple Silicon için ultra hızlı yerel yapay zeka motoru

xguru · 2026-05-12T09:46:02+09:00

Apple Silicon Mac'lerde yerel yapay zeka modellerini çalıştıran bir çıkarım motoru; Apple'ın MLX framework'ü temelinde yerel Metal compute kernel'lerini kullanıyor Ollama'ya kıyasla 4.2 kata kadar daha hızlı çıkarım hızı - Phi-4 Mini 14B'de 180 tok/s (Ollama'nın 56 tok/s değerine göre 3.2 kat), Qwen3.5-9B'de 108 tok/s (Ollama'nın 41 tok/s değerine göre 2.6 kat) Önbelleğe alınmış durumda TTFT 0.08 saniye (Kimi-Linear-48B bazında), çoğu modelde 0.1~0.3 saniye seviyesi 17 araç çağrısı ayrıştırıcısı yerleşik ve model adına göre otomatik algılama — 4bit kuantize modeller bozuk araç çağrılarını metin olarak üretse bile bunları otomatik olarak yapılandırılmış biçime geri dönüştürüyor 16GB MacBook Air'den (Qwen3.5-4B, 160 tok/s) 256GB Mac Studio Ultra'ya (DeepSeek V4 Flash 158B, 31 tok/s, 1M context) kadar RAM'e göre optimize model eşlemesi sunuyor 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4GB RAM kullanımı, 160 tok/s, sohbet·kodlama·araç çağrısı mümkün 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, genel amaçlı model 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, %100 araç çağrısı), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context) 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, zeka+ hız için en iyi denge 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, frontier düzeyi zeka 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, day-0 frontier MoE 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) veya DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context) 4bit bellek tasarrufu sağlar (çoğu durumda önerilir), 8bit yüksek kaliteli çıkarım içindir, mxfp4 ise yüksek kaliteli 4bit formatıdır chain-of-thought modellerinin akıl yürütme sürecini ayrı reasoning_content alanına ayıran akıl yürütme ayrıştırma özelliği - Qwen3, DeepSeek-R1, MiniMax, GPT-OSS formatlarını destekler Standart transformer'lar için KV cache trimming ve Qwen3.5 hibrit mimarisi için DeltaNet durum snapshot'ı (~0.1ms geri yükleme) sayesinde çok turlu sohbetlerde TTFT'yi 2~5 kat iyileştirir; ek bir flag gerektirmeden her zaman etkindir Yerelde prefill'i yavaş olan büyük context isteklerini GPT-5, Claude gibi bulut LLM'lerine otomatik yönlendiren akıllı bulut yönlendirme desteği OpenAI API için drop-in alternatif — Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI gibi OpenAI uyumlu uygulamalar localhost:8000/v1 ile anında entegre olabilir Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, şema kısıtlı JSON üretimi gibi çok modlu ve isteğe bağlı genişletmeler desteklenir TurboQuant V-cache (%86 bellek tasarrufu), KV cache kuantizasyonu, prefill chunking, tool logits bias gibi çeşitli optimizasyon teknikleri yerleşik gelir Model+ajan harness uyumluluğunu ölçen MHI(Model-Harness Index) sunuluyor — Qwopus 27B, MHI 92 ile en yüksek puanı aldı Speculative Decode (1.5~2.3 kat), EAGLE-3 (3~6.5 kat), ReDrafter (1.4~1.5 kat) gibi ek hızlandırma teknikleri yol haritasında yer alıyor Apache 2.0 lisansı

(github.com/raullenchai)

13 puan yazan xguru 7 시간 전 | 3 yorum | WhatsApp'ta paylaş

Apple Silicon Mac'lerde yerel yapay zeka modellerini çalıştıran bir çıkarım motoru; Apple'ın MLX framework'ü temelinde yerel Metal compute kernel'lerini kullanıyor
Ollama'ya kıyasla 4.2 kata kadar daha hızlı çıkarım hızı - Phi-4 Mini 14B'de 180 tok/s (Ollama'nın 56 tok/s değerine göre 3.2 kat), Qwen3.5-9B'de 108 tok/s (Ollama'nın 41 tok/s değerine göre 2.6 kat)
Önbelleğe alınmış durumda TTFT 0.08 saniye (Kimi-Linear-48B bazında), çoğu modelde 0.1~0.3 saniye seviyesi
17 araç çağrısı ayrıştırıcısı yerleşik ve model adına göre otomatik algılama — 4bit kuantize modeller bozuk araç çağrılarını metin olarak üretse bile bunları otomatik olarak yapılandırılmış biçime geri dönüştürüyor
16GB MacBook Air'den (Qwen3.5-4B, 160 tok/s) 256GB Mac Studio Ultra'ya (DeepSeek V4 Flash 158B, 31 tok/s, 1M context) kadar RAM'e göre optimize model eşlemesi sunuyor
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4GB RAM kullanımı, 160 tok/s, sohbet·kodlama·araç çağrısı mümkün
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, genel amaçlı model
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, %100 araç çağrısı), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, zeka+ hız için en iyi denge
- 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, frontier düzeyi zeka
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, day-0 frontier MoE
- 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) veya DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context)
- 4bit bellek tasarrufu sağlar (çoğu durumda önerilir), 8bit yüksek kaliteli çıkarım içindir, mxfp4 ise yüksek kaliteli 4bit formatıdır
chain-of-thought modellerinin akıl yürütme sürecini ayrı reasoning_content alanına ayıran akıl yürütme ayrıştırma özelliği - Qwen3, DeepSeek-R1, MiniMax, GPT-OSS formatlarını destekler
Standart transformer'lar için KV cache trimming ve Qwen3.5 hibrit mimarisi için DeltaNet durum snapshot'ı (~0.1ms geri yükleme) sayesinde çok turlu sohbetlerde TTFT'yi 2~5 kat iyileştirir; ek bir flag gerektirmeden her zaman etkindir
Yerelde prefill'i yavaş olan büyük context isteklerini GPT-5, Claude gibi bulut LLM'lerine otomatik yönlendiren akıllı bulut yönlendirme desteği
OpenAI API için drop-in alternatif — Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI gibi OpenAI uyumlu uygulamalar localhost:8000/v1 ile anında entegre olabilir
Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, şema kısıtlı JSON üretimi gibi çok modlu ve isteğe bağlı genişletmeler desteklenir
TurboQuant V-cache (%86 bellek tasarrufu), KV cache kuantizasyonu, prefill chunking, tool logits bias gibi çeşitli optimizasyon teknikleri yerleşik gelir
Model+ajan harness uyumluluğunu ölçen MHI(Model-Harness Index) sunuluyor — Qwopus 27B, MHI 92 ile en yüksek puanı aldı
Speculative Decode (1.5~2.3 kat), EAGLE-3 (3~6.5 kat), ReDrafter (1.4~1.5 kat) gibi ek hızlandırma teknikleri yol haritasında yer alıyor
Apache 2.0 lisansı

3 yorum

parkindani 3 시간 전

omlx ile karşılaştırıldığında performansının nasıl olduğunu merak ediyorum

xguru 6 시간 전

Ben şahsen antirez/ds4 ile deepseek4 çalıştırmayı deniyorum; görünen o ki hız tarafında ds4 biraz daha hızlı.

ds4 128GB’e özel olduğu için biraz kararsız bir seçenek, ama onun dışındaki modellerde iyi olabilir.

Son dönemde HuggingFace CEO’sunun, Qwen3.6 27B ile uçakta kod yazmayı deneyince bunun Opus seviyesinde olduğunu söylediği tweet epey popülerdi; buna da 3.6 27B yüklemeyi denemem gerekecek. https://x.com/julien_c/status/2047647522173104145

yangeok 6 시간 전

Türkçe performansının nasıl olacağını merak ediyorum.. 96 GB’lık kullanıyorum, ücretli LLM’lerden performansı daha düşük olur değil mi..?

en azından gemini cli seviyesinde olsa bile güzel olurdu haha

Rapid-MLX - Apple Silicon için ultra hızlı yerel yapay zeka motoru

İlgili okumalar

3 yorum