22 puan yazan xguru 2025-08-05 | Henüz yorum yok. | WhatsApp'ta paylaş
  • GGUF modellerini çeşitli cihazlarda (akıllı telefon, dizüstü bilgisayar, TV, kamera vb.) doğrudan çalıştırmayı sağlayan çapraz platform bir framework
    • Huggingface; Qwen, Gemma, Llama, DeepSeek vb. üzerinden sunulan herhangi bir GGUF modeli kullanılabiliyor
    • Uygulama içinde LLM/VLM/TTS modellerini doğrudan dağıtıp çalıştırma
  • Flutter, React-Native, Kotlin Multiplatform desteği sunuyor; metin, görsel, embedding ve TTS modelleri gibi farklı model türlerini cihaz üzerinde çalıştırabiliyor
  • FP32'den 2 bit kuantize modellere kadar destek vererek mobil ortamda yüksek verimlilik ve düşük güç tüketimiyle çalışma sağlıyor
  • Sohbet şablonları (Jinja2), token streaming, bulut-yerel otomatik fallback, Speech-To-Text gibi özellikleri destekliyor
  • Cactus backend'i C/C++ ile yazıldığı için mobil, PC, gömülü sistemler, IoT dahil neredeyse her ortamda doğrudan çalışabiliyor
  • Güncel akıllı telefonlarda Gemma3 1B Q4 20~50 token/sn, Qwen3 4B Q4 ise 7~18 token/sn hızında çalışıyor
  • Önerilen modeller HuggingFace Cactus-Compute üzerinden indirilebiliyor

Kullanım noktaları ve avantajlar

  • Mevcut cihaz üzeri LLM framework'lerinden farklı olarak birden fazla platformu birleşik biçimde destekliyor, bu da yerel-bulut hibrit mimarisi kurmayı kolaylaştırıyor
  • Mobil cihazlarda yüksek performans ve düşük güç tüketimiyle en yeni LLM/VLM/TTS modellerini kullanmayı mümkün kılıyor
  • Uygulama/hizmet içinde özel veri işleme, çevrimdışı yapay zeka kullanımı, maliyet azaltma gibi çeşitli B2C/B2B senaryoları için uygun

Henüz yorum yok.

Henüz yorum yok.