- Apple Silicon ortamında AI modellerini hızlı çalıştırmak için Rust tabanlı bir çıkarım motoru
- GPU çekirdeklerini veya CoreML’in alt katmanındaki MPSGraph’ı isteğe bağlı kullanan hibrit yapı
- Kendi model formatını kullanır; lalamo aracıyla Llama3 gibi çeşitli modeller dönüştürülerek kullanılabilir
- llama.cpp’ye kıyasla hızda çoğu durumda üstünlük gösterir; özellikle Qwen3-0.6B’de 13 kat daha hızlı işlem hızına ulaşır
- Swift binding’leri, CLI arayüzü ve Rust API’si üzerinden esnek geliştirme ve entegrasyon olanağı sunar
- Modüler yapı ve Apple cihazlarının unified memory mimarisinden yararlanarak performansı en üst düzeye çıkarır; performansı doğrulanabilir çıkarım yolları sunmasıyla güvenilirlik ve ölçeklenebilirlik sağlar
Henüz yorum yok.