iPhone 17 Pro'da 400B LLM Çalıştırmak
(twitter.com/anemll)- iPhone 17 Pro üzerinde 400 milyar parametre ölçeğindeki bir LLM çalıştırıldı; hız saniyede 0,6 token düzeyinde
- Model, Mixture of Experts (MoE) yapısında ve fiilen etkinleşen ağırlıklar yaklaşık 5 milyar parametre
- 4 bit kuantizasyon sürümüyle yeniden yapılandırıldı, ancak çok yavaş
- GPU·CPU RAM'in birlikte kullanımı ve SSD üzerinden akışlı yükleme yöntemi kullanıldı
- Flash-Moe forklandı ve Anemll/flash-moe (iOS-App dalı) üzerinden yayımlandı
1 yorum
Hacker News görüşleri
SSD'den GPU'ya doğrudan streaming yönteminin acaba Apple'ın 2023 tarihli LLM in a Flash makalesine dayanıp dayanmadığını merak ediyorum
Rüyamda herkes cebinde süperzekâ AI taşıyordu ama sonunda sadece doomscrolling ve catfishing yapıp dünyanın sonunu getirdiler
iPad Air(M2)'im yerel LLM'leri gayet iyi çalıştırıyor ama birkaç saniye içinde aşırı ısınıyor ve hemen throttling başlıyor
Qwen3.5-397B-A17B aslında 17B model gibi çalışıyor. MoE kısmını atlayan başlık sadece abartılı reklam.
Quantization da bir tür hile kodu, bu yüzden bir gün biri 1-bit quantization modelini “büyük model” diye pazarlayabilir
“400B model deniyor ama MoE yapısındaysa gerçekte kaç parametre aktif?” diye merak ediyorum
Bu haber, eskiden llama.c ilk çıktığında yerelde çalıştırma mümkün oldu diye herkesin heyecanlandığı günleri hatırlatıyor
Eski bir Android telefona (LineageOS) Termux kurup içinde Ollama ve küçük bir modeli çalıştırdım. Performans korkunçtu ama çalışıyor
Qwen'in MoE modellerinde aktif kısım 2B seviyesine düştüğünde performans keskin biçimde düşüyor. Gerçek inference sırasında onlarca kat daha az parametre kullanılıyorken buna 400B model demenin anlamı yok
“Bu seviyede bir modelin saniyede 100 token hızında çalışması ne kadar sürer?” diye soruluyor
anemll'i takip etmiyorsanız, iPhone için OpenClaw'ı da çalıştırabilen bir sürüm yayımladığını bilmekte fayda var.
Donanım ve modeller geliştikçe mobil yapay zekânın geleceği oldukça parlak görünüyor