Rapid-MLX - Apple Silicon için ultra hızlı yerel yapay zeka motoru
(github.com/raullenchai)- Apple Silicon Mac'lerde yerel yapay zeka modellerini çalıştıran bir çıkarım motoru; Apple'ın MLX framework'ü temelinde yerel Metal compute kernel'lerini kullanıyor
- Ollama'ya kıyasla 4.2 kata kadar daha hızlı çıkarım hızı - Phi-4 Mini 14B'de 180 tok/s (Ollama'nın 56 tok/s değerine göre 3.2 kat), Qwen3.5-9B'de 108 tok/s (Ollama'nın 41 tok/s değerine göre 2.6 kat)
- Önbelleğe alınmış durumda TTFT 0.08 saniye (Kimi-Linear-48B bazında), çoğu modelde 0.1~0.3 saniye seviyesi
- 17 araç çağrısı ayrıştırıcısı yerleşik ve model adına göre otomatik algılama — 4bit kuantize modeller bozuk araç çağrılarını metin olarak üretse bile bunları otomatik olarak yapılandırılmış biçime geri dönüştürüyor
- 16GB MacBook Air'den (Qwen3.5-4B, 160 tok/s) 256GB Mac Studio Ultra'ya (DeepSeek V4 Flash 158B, 31 tok/s, 1M context) kadar RAM'e göre optimize model eşlemesi sunuyor
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4GB RAM kullanımı, 160 tok/s, sohbet·kodlama·araç çağrısı mümkün
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, genel amaçlı model
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, %100 araç çağrısı), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, zeka+ hız için en iyi denge
- 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, frontier düzeyi zeka
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, day-0 frontier MoE
- 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) veya DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context)
- 4bit bellek tasarrufu sağlar (çoğu durumda önerilir), 8bit yüksek kaliteli çıkarım içindir, mxfp4 ise yüksek kaliteli 4bit formatıdır
- chain-of-thought modellerinin akıl yürütme sürecini ayrı
reasoning_contentalanına ayıran akıl yürütme ayrıştırma özelliği - Qwen3, DeepSeek-R1, MiniMax, GPT-OSS formatlarını destekler - Standart transformer'lar için KV cache trimming ve Qwen3.5 hibrit mimarisi için DeltaNet durum snapshot'ı (~0.1ms geri yükleme) sayesinde çok turlu sohbetlerde TTFT'yi 2~5 kat iyileştirir; ek bir flag gerektirmeden her zaman etkindir
- Yerelde prefill'i yavaş olan büyük context isteklerini GPT-5, Claude gibi bulut LLM'lerine otomatik yönlendiren akıllı bulut yönlendirme desteği
- OpenAI API için drop-in alternatif — Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI gibi OpenAI uyumlu uygulamalar
localhost:8000/v1ile anında entegre olabilir - Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, şema kısıtlı JSON üretimi gibi çok modlu ve isteğe bağlı genişletmeler desteklenir
- TurboQuant V-cache (%86 bellek tasarrufu), KV cache kuantizasyonu, prefill chunking, tool logits bias gibi çeşitli optimizasyon teknikleri yerleşik gelir
- Model+ajan harness uyumluluğunu ölçen MHI(Model-Harness Index) sunuluyor — Qwopus 27B, MHI 92 ile en yüksek puanı aldı
- Speculative Decode (1.5~2.3 kat), EAGLE-3 (3~6.5 kat), ReDrafter (1.4~1.5 kat) gibi ek hızlandırma teknikleri yol haritasında yer alıyor
- Apache 2.0 lisansı
6 yorum
128GB MBP’de bunu gerçekten kullanan biri var mı? (Merakımdan soruyorum)
Kabaca 8 milyon won civarındaydı; 1 yıl kadar geçince maliyetini çıkarır mı diye de düşünüyorum..
Bir yandan düşününce, local AI kullansam bile muhtemelen abonelik planlarını da birlikte kullanırım haha
M5 Max 128GB kullanıyorum; codex, deepseek, kimi hepsine aboneyim ve API için de para ödüyorum haha. Yerel modellerde ise, pratikte işe yarar şekilde kullanmak için 128GB MacBook’ta bile Qwen 3.6 27B neredeyse tek seçenek. Benzer parametreli diğer modellerin performansı daha düşük ve 122B gibi modeller de sadece açılıyor denebilir ama gerçekten kullanılabilecek bir seviyede çalışmıyor.
Hız rakamları da etkileyici ama kişisel olarak OpenAI API uyumluluğu, araç çağrısı ayrıştırıcısı ve reasoning’in ayrılması tarafı daha çok dikkatimi çekiyor.
Yerel modelleri geliştirme araçlarına ya da backend ajan akışlarına bağlamayı denediğinizde, saf çıkarım hızının yanı sıra modele göre değişen yanıt formatı farkları, bozuk tool call’ların toparlanması ve uzun bağlamlarda TTFT’nin gerçek kullanılabilirliği ciddi biçimde etkilediğini görüyorsunuz. Bu açıdan bakınca, bu daha çok “hızlı bir yerel çıkarım motoru”ndan ziyade “ajan harness’ine istikrarlı şekilde bağlanan bir yerel motor” gibi görünüyor.
Benchmark’ları aynı koşullarda yeniden üretmek gerekir ama Apple Silicon’da bu seviyede bir yerel geliştirme döngüsü mümkün hale gelirse, prototip ya da dahili araç deneylerinin maliyeti epey düşebilir gibi duruyor. MHI gibi model-harness uyumluluğunu ayrıca değerlendirmeye çalışan girişimler de ilginç görünüyor.
omlx ile karşılaştırıldığında performansının nasıl olduğunu merak ediyorum
Ben şahsen
antirez/ds4ile deepseek4 çalıştırmayı deniyorum; görünen o ki hız tarafındads4biraz daha hızlı.ds4128GB’e özel olduğu için biraz kararsız bir seçenek, ama onun dışındaki modellerde iyi olabilir.Son dönemde HuggingFace CEO’sunun, Qwen3.6 27B ile uçakta kod yazmayı deneyince bunun Opus seviyesinde olduğunu söylediği tweet epey popülerdi; buna da 3.6 27B yüklemeyi denemem gerekecek. https://x.com/julien_c/status/2047647522173104145
Türkçe performansının nasıl olacağını merak ediyorum.. 96 GB’lık kullanıyorum, ücretli LLM’lerden performansı daha düşük olur değil mi..?
en azından
gemini cliseviyesinde olsa bile güzel olurdu haha