MLC-LLM ile iOS’ta yerel LLM (Gemma 3) çalıştırma
(blog.devstory.co.kr)Bu yazı, Gemma 3 modelini MLC-LLM aracılığıyla iOS cihazlarda yerel olarak çalıştırma yöntemini ve gerçek çalışma performansı göstergelerini derliyor.
Özet
- MLC-LLM kullanımı: Metal API hızlandırmasıyla mobil cihazlarda da gecikmesi (latency) neredeyse olmayan, akıcı bir çıkarım ortamı kurma
- Gemma 3 1B derleme süreci: Hugging Face modelinin indirilmesinden q4f16_1 nicemlemesine, sohbet şablonunun (
gemma3_instruction) uygulanmasına ve Metal çekirdeklerinin derlenmesine kadar tüm iş akışı rehberi - Performans ve kaynak göstergeleri:
- Gemma 2 2B: yaklaşık 2.4GB VRAM kullanımı
- Gemma 3 1B: yaklaşık 1.14GB VRAM kullanımı
- Çalıştırma ipucu:
mlc-package-config.jsonayarı üzerinden özel modeli Xcode projesine paketleme yöntemi de dahil
Değerlendirme
- MLC-LLM kullanıldığında yüksek performanslı LLM’ler doğrudan iOS cihazlara taşınabilir; böylece hem gizlilik hem de çevrimdışı çalışma avantajı elde edilir
- JSON formatı gibi yapılandırılmış yanıtlar üretmekte biraz zorlandığı görülüyor
- Karmaşık sistem prompt’ları gerektiren işlevler veya veri çıkarma işleri için kullanmak adına prompt engineering ya da ek fine-tuning gibi tamamlayıcı çalışmaların gerekli olduğu anlaşılıyor
- İleride modele özel pipeline bağlantıları ve proje optimizasyonu birlikte ilerletilirse, daha pratik On-Device AI hizmetleri kurulması beklenebilir
8 yorum
Ben Galaxy Fold 4'te qwen 3 0.6b q5 çalıştırıyorum. Şimdilik biraz eksik kalmış gibi hissettiriyor.
Hangi noktada yetersiz kaldığını merak ediyorum.
Model çok küçük olduğu için mi LLM performansı yetersiz geliyor, yoksa yerelde çalıştırırken çalışma performansı mı yetersiz kalıyor, bunu merak ediyorum.
Performans biraz hayal kırıklığı yaratıyor. GPU ya da belirli NPU desteği henüz olmadığı için yavaş..
Galaxy Note 20 Ultra üzerinde
gemma3 1b int4modelini araştırıyorum.Eski modellerde çalışabilecek seviyede.
Aa, peki Vulkan hızlandırması var mı?
Oluyor deniyor ama bende olmuyor T_T
Galaxy Note20 için, daha düşük donanımlı CPU’larda iyi çalışan (iyi optimize edilmiş) bir model çıkana kadar akıcı şekilde kullanmak zor olmaz mı?
Yukarıdaki içeriğe bakınca, bunun Mac’e özel Metal kernel’i için yapıldığı yazıyor.
Bildiğim kadarıyla MLX kullanılırsa, genel GGUF’a kıyasla daha hızlı yükleme ve çalıştırma mümkün.
Ama 4b’ye kadar olan kısım biraz belirsiz ;;