Cactus - Akıllı telefonlar için Ollama

(github.com/cactus-compute)

22 puan yazan xguru 2025-08-05 | Henüz yorum yok. | WhatsApp'ta paylaş

GGUF modellerini çeşitli cihazlarda (akıllı telefon, dizüstü bilgisayar, TV, kamera vb.) doğrudan çalıştırmayı sağlayan çapraz platform bir framework
- Huggingface; Qwen, Gemma, Llama, DeepSeek vb. üzerinden sunulan herhangi bir GGUF modeli kullanılabiliyor
- Uygulama içinde LLM/VLM/TTS modellerini doğrudan dağıtıp çalıştırma
Flutter, React-Native, Kotlin Multiplatform desteği sunuyor; metin, görsel, embedding ve TTS modelleri gibi farklı model türlerini cihaz üzerinde çalıştırabiliyor
FP32'den 2 bit kuantize modellere kadar destek vererek mobil ortamda yüksek verimlilik ve düşük güç tüketimiyle çalışma sağlıyor
Sohbet şablonları (Jinja2), token streaming, bulut-yerel otomatik fallback, Speech-To-Text gibi özellikleri destekliyor
Cactus backend'i C/C++ ile yazıldığı için mobil, PC, gömülü sistemler, IoT dahil neredeyse her ortamda doğrudan çalışabiliyor
Güncel akıllı telefonlarda Gemma3 1B Q4 20~50 token/sn, Qwen3 4B Q4 ise 7~18 token/sn hızında çalışıyor
Önerilen modeller HuggingFace Cactus-Compute üzerinden indirilebiliyor

Kullanım noktaları ve avantajlar

Mevcut cihaz üzeri LLM framework'lerinden farklı olarak birden fazla platformu birleşik biçimde destekliyor, bu da yerel-bulut hibrit mimarisi kurmayı kolaylaştırıyor
Mobil cihazlarda yüksek performans ve düşük güç tüketimiyle en yeni LLM/VLM/TTS modellerini kullanmayı mümkün kılıyor
Uygulama/hizmet içinde özel veri işleme, çevrimdışı yapay zeka kullanımı, maliyet azaltma gibi çeşitli B2C/B2B senaryoları için uygun