13 puan yazan xguru 7 시간 전 | 3 yorum | WhatsApp'ta paylaş
  • Apple Silicon Mac'lerde yerel yapay zeka modellerini çalıştıran bir çıkarım motoru; Apple'ın MLX framework'ü temelinde yerel Metal compute kernel'lerini kullanıyor
  • Ollama'ya kıyasla 4.2 kata kadar daha hızlı çıkarım hızı - Phi-4 Mini 14B'de 180 tok/s (Ollama'nın 56 tok/s değerine göre 3.2 kat), Qwen3.5-9B'de 108 tok/s (Ollama'nın 41 tok/s değerine göre 2.6 kat)
  • Önbelleğe alınmış durumda TTFT 0.08 saniye (Kimi-Linear-48B bazında), çoğu modelde 0.1~0.3 saniye seviyesi
  • 17 araç çağrısı ayrıştırıcısı yerleşik ve model adına göre otomatik algılama — 4bit kuantize modeller bozuk araç çağrılarını metin olarak üretse bile bunları otomatik olarak yapılandırılmış biçime geri dönüştürüyor
  • 16GB MacBook Air'den (Qwen3.5-4B, 160 tok/s) 256GB Mac Studio Ultra'ya (DeepSeek V4 Flash 158B, 31 tok/s, 1M context) kadar RAM'e göre optimize model eşlemesi sunuyor
    • 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → 2.4GB RAM kullanımı, 160 tok/s, sohbet·kodlama·araç çağrısı mümkün
    • 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, genel amaçlı model
    • 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, %100 araç çağrısı), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context)
    • 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, zeka+ hız için en iyi denge
    • 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, frontier düzeyi zeka
    • 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, day-0 frontier MoE
    • 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) veya DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context)
    • 4bit bellek tasarrufu sağlar (çoğu durumda önerilir), 8bit yüksek kaliteli çıkarım içindir, mxfp4 ise yüksek kaliteli 4bit formatıdır
  • chain-of-thought modellerinin akıl yürütme sürecini ayrı reasoning_content alanına ayıran akıl yürütme ayrıştırma özelliği - Qwen3, DeepSeek-R1, MiniMax, GPT-OSS formatlarını destekler
  • Standart transformer'lar için KV cache trimming ve Qwen3.5 hibrit mimarisi için DeltaNet durum snapshot'ı (~0.1ms geri yükleme) sayesinde çok turlu sohbetlerde TTFT'yi 2~5 kat iyileştirir; ek bir flag gerektirmeden her zaman etkindir
  • Yerelde prefill'i yavaş olan büyük context isteklerini GPT-5, Claude gibi bulut LLM'lerine otomatik yönlendiren akıllı bulut yönlendirme desteği
  • OpenAI API için drop-in alternatif — Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI gibi OpenAI uyumlu uygulamalar localhost:8000/v1 ile anında entegre olabilir
  • Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, şema kısıtlı JSON üretimi gibi çok modlu ve isteğe bağlı genişletmeler desteklenir
  • TurboQuant V-cache (%86 bellek tasarrufu), KV cache kuantizasyonu, prefill chunking, tool logits bias gibi çeşitli optimizasyon teknikleri yerleşik gelir
  • Model+ajan harness uyumluluğunu ölçen MHI(Model-Harness Index) sunuluyor — Qwopus 27B, MHI 92 ile en yüksek puanı aldı
  • Speculative Decode (1.5~2.3 kat), EAGLE-3 (3~6.5 kat), ReDrafter (1.4~1.5 kat) gibi ek hızlandırma teknikleri yol haritasında yer alıyor
  • Apache 2.0 lisansı

3 yorum

 
parkindani 3 시간 전

omlx ile karşılaştırıldığında performansının nasıl olduğunu merak ediyorum

 
xguru 6 시간 전

Ben şahsen antirez/ds4 ile deepseek4 çalıştırmayı deniyorum; görünen o ki hız tarafında ds4 biraz daha hızlı.

ds4 128GB’e özel olduğu için biraz kararsız bir seçenek, ama onun dışındaki modellerde iyi olabilir.

Son dönemde HuggingFace CEO’sunun, Qwen3.6 27B ile uçakta kod yazmayı deneyince bunun Opus seviyesinde olduğunu söylediği tweet epey popülerdi; buna da 3.6 27B yüklemeyi denemem gerekecek. https://x.com/julien_c/status/2047647522173104145

 
yangeok 6 시간 전

Türkçe performansının nasıl olacağını merak ediyorum.. 96 GB’lık kullanıyorum, ücretli LLM’lerden performansı daha düşük olur değil mi..?

en azından gemini cli seviyesinde olsa bile güzel olurdu haha