- GGUF modellerini çeşitli cihazlarda (akıllı telefon, dizüstü bilgisayar, TV, kamera vb.) doğrudan çalıştırmayı sağlayan çapraz platform bir framework
- Huggingface; Qwen, Gemma, Llama, DeepSeek vb. üzerinden sunulan herhangi bir GGUF modeli kullanılabiliyor
- Uygulama içinde LLM/VLM/TTS modellerini doğrudan dağıtıp çalıştırma
- Flutter, React-Native, Kotlin Multiplatform desteği sunuyor; metin, görsel, embedding ve TTS modelleri gibi farklı model türlerini cihaz üzerinde çalıştırabiliyor
- FP32'den 2 bit kuantize modellere kadar destek vererek mobil ortamda yüksek verimlilik ve düşük güç tüketimiyle çalışma sağlıyor
- Sohbet şablonları (Jinja2), token streaming, bulut-yerel otomatik fallback, Speech-To-Text gibi özellikleri destekliyor
- Cactus backend'i C/C++ ile yazıldığı için mobil, PC, gömülü sistemler, IoT dahil neredeyse her ortamda doğrudan çalışabiliyor
- Güncel akıllı telefonlarda Gemma3 1B Q4 20~50 token/sn, Qwen3 4B Q4 ise 7~18 token/sn hızında çalışıyor
- Önerilen modeller HuggingFace Cactus-Compute üzerinden indirilebiliyor
Kullanım noktaları ve avantajlar
- Mevcut cihaz üzeri LLM framework'lerinden farklı olarak birden fazla platformu birleşik biçimde destekliyor, bu da yerel-bulut hibrit mimarisi kurmayı kolaylaştırıyor
- Mobil cihazlarda yüksek performans ve düşük güç tüketimiyle en yeni LLM/VLM/TTS modellerini kullanmayı mümkün kılıyor
- Uygulama/hizmet içinde özel veri işleme, çevrimdışı yapay zeka kullanımı, maliyet azaltma gibi çeşitli B2C/B2B senaryoları için uygun
Henüz yorum yok.