3 puan yazan caaat 2026-03-12 | 8 yorum | WhatsApp'ta paylaş

Bu yazı, Gemma 3 modelini MLC-LLM aracılığıyla iOS cihazlarda yerel olarak çalıştırma yöntemini ve gerçek çalışma performansı göstergelerini derliyor.

Özet

  • MLC-LLM kullanımı: Metal API hızlandırmasıyla mobil cihazlarda da gecikmesi (latency) neredeyse olmayan, akıcı bir çıkarım ortamı kurma
  • Gemma 3 1B derleme süreci: Hugging Face modelinin indirilmesinden q4f16_1 nicemlemesine, sohbet şablonunun (gemma3_instruction) uygulanmasına ve Metal çekirdeklerinin derlenmesine kadar tüm iş akışı rehberi
  • Performans ve kaynak göstergeleri:
    • Gemma 2 2B: yaklaşık 2.4GB VRAM kullanımı
    • Gemma 3 1B: yaklaşık 1.14GB VRAM kullanımı
  • Çalıştırma ipucu: mlc-package-config.json ayarı üzerinden özel modeli Xcode projesine paketleme yöntemi de dahil

Değerlendirme

  • MLC-LLM kullanıldığında yüksek performanslı LLM’ler doğrudan iOS cihazlara taşınabilir; böylece hem gizlilik hem de çevrimdışı çalışma avantajı elde edilir
  • JSON formatı gibi yapılandırılmış yanıtlar üretmekte biraz zorlandığı görülüyor
  • Karmaşık sistem prompt’ları gerektiren işlevler veya veri çıkarma işleri için kullanmak adına prompt engineering ya da ek fine-tuning gibi tamamlayıcı çalışmaların gerekli olduğu anlaşılıyor
  • İleride modele özel pipeline bağlantıları ve proje optimizasyonu birlikte ilerletilirse, daha pratik On-Device AI hizmetleri kurulması beklenebilir

8 yorum

 
wedding 2026-03-17

Ben Galaxy Fold 4'te qwen 3 0.6b q5 çalıştırıyorum. Şimdilik biraz eksik kalmış gibi hissettiriyor.

 
dolsangodkimchi 2026-03-18

Hangi noktada yetersiz kaldığını merak ediyorum.
Model çok küçük olduğu için mi LLM performansı yetersiz geliyor, yoksa yerelde çalıştırırken çalışma performansı mı yetersiz kalıyor, bunu merak ediyorum.

 
wedding 2026-03-20

Performans biraz hayal kırıklığı yaratıyor. GPU ya da belirli NPU desteği henüz olmadığı için yavaş..

 
newbie1004 2026-03-13

Galaxy Note 20 Ultra üzerinde gemma3 1b int4 modelini araştırıyorum.

Eski modellerde çalışabilecek seviyede.

 
kaboom45 2026-03-14

Aa, peki Vulkan hızlandırması var mı?

 
wedding 2026-03-24

Oluyor deniyor ama bende olmuyor T_T

 
kji96 2026-03-13

Galaxy Note20 için, daha düşük donanımlı CPU’larda iyi çalışan (iyi optimize edilmiş) bir model çıkana kadar akıcı şekilde kullanmak zor olmaz mı?

Yukarıdaki içeriğe bakınca, bunun Mac’e özel Metal kernel’i için yapıldığı yazıyor.
Bildiğim kadarıyla MLX kullanılırsa, genel GGUF’a kıyasla daha hızlı yükleme ve çalıştırma mümkün.

 
newbie1004 2026-03-13

Ama 4b’ye kadar olan kısım biraz belirsiz ;;