6 puan yazan GN⁺ 2026-03-24 | 1 yorum | WhatsApp'ta paylaş
  • iPhone 17 Pro üzerinde 400 milyar parametre ölçeğindeki bir LLM çalıştırıldı; hız saniyede 0,6 token düzeyinde
  • Model, Mixture of Experts (MoE) yapısında ve fiilen etkinleşen ağırlıklar yaklaşık 5 milyar parametre
  • 4 bit kuantizasyon sürümüyle yeniden yapılandırıldı, ancak çok yavaş
  • GPU·CPU RAM'in birlikte kullanımı ve SSD üzerinden akışlı yükleme yöntemi kullanıldı
  • Flash-Moe forklandı ve Anemll/flash-moe (iOS-App dalı) üzerinden yayımlandı

1 yorum

 
GN⁺ 2026-03-24
Hacker News görüşleri
  • SSD'den GPU'ya doğrudan streaming yönteminin acaba Apple'ın 2023 tarihli LLM in a Flash makalesine dayanıp dayanmadığını merak ediyorum

    • Evet. İlgili ayrıntıları blog yazımda derledim
    • Benzer bir yaklaşım yakın zamanda bu HN dizisinde da tanıtıldı. Ancak iPhone Pro'nun RAM'i 12GB ile sınırlı olduğu için modelin aktif kısmını tutmaya yetmiyor. Intel Optane gibi dayanıklılığı yüksek depolama da kullanılabilir ama güç tüketimi yüksek olduğundan mobil için uygun değil
    • Bu yöntem, Cerebus'un weight'leri stream etme yapısından çok da farklı değil
  • Rüyamda herkes cebinde süperzekâ AI taşıyordu ama sonunda sadece doomscrolling ve catfishing yapıp dünyanın sonunu getirdiler

    • Modern çağın Nostradamus'u gibi geliyor
  • iPad Air(M2)'im yerel LLM'leri gayet iyi çalıştırıyor ama birkaç saniye içinde aşırı ısınıyor ve hemen throttling başlıyor

    • Acaba birileri iPad ya da telefonlar için sıvı soğutma sistemi yapmış mıdır diye merak ediyorum. Cihazın arkasına sıkıca oturup soğutucuyu dolaştıran kapalı bir düzenek gibi
  • Qwen3.5-397B-A17B aslında 17B model gibi çalışıyor. MoE kısmını atlayan başlık sadece abartılı reklam.
    Quantization da bir tür hile kodu, bu yüzden bir gün biri 1-bit quantization modelini “büyük model” diye pazarlayabilir

    • Pratikte yaklaşık 80B model gibi çalışıyor ve dünya bilgisi seviyesi 400B modele daha yakın. Model mimarisinden quantization'a, ilk token üretim süresine kadar her şey açıklandığı için yanlış anlamaya yer yok. Bu tür denemeler genel kullanıcıdan çok code golf benzeri teknik deneylere daha yakın
  • “400B model deniyor ama MoE yapısındaysa gerçekte kaç parametre aktif?” diye merak ediyorum

    • Qwen3.5-397B-A17B'de 17B parametre aktif durumda. İlgili kodu flash-moe iOS App deposunda görebilirsiniz
    • Bugünlerde şirketlerin çoğu MoE mimarisini benimsiyor
  • Bu haber, eskiden llama.c ilk çıktığında yerelde çalıştırma mümkün oldu diye herkesin heyecanlandığı günleri hatırlatıyor

  • Eski bir Android telefona (LineageOS) Termux kurup içinde Ollama ve küçük bir modeli çalıştırdım. Performans korkunçtu ama çalışıyor

    • Eskiden Galaxy Note'ta Linux Deploy ile Bitcoin madencisi derleyip çalıştırdığımı hatırlıyorum. Performans berbattı ama cebimde tam teşekküllü bir bilgisayar taşıyormuşum gibi hissettiriyordu. Nokia döneminde tarayıcı JS'i dışında hiçbir şey çalıştıramıyorduk; Android ise gerçekten hacklenebilir bir platformdu
    • Bu arada Pixel 8'im Qwen3.5 4B modelini saniyede 2 token hızında çalıştırıyor. PocketPal uygulamasında iyi çalışıyor ama Cactus uygulaması çalışmadı
  • Qwen'in MoE modellerinde aktif kısım 2B seviyesine düştüğünde performans keskin biçimde düşüyor. Gerçek inference sırasında onlarca kat daha az parametre kullanılıyorken buna 400B model demenin anlamı yok

  • “Bu seviyede bir modelin saniyede 100 token hızında çalışması ne kadar sürer?” diye soruluyor

    • Tek yol modeli doğrudan donanıma gömmek. Nitekim bu blog yazısında böyle bir çip tanıtılıyor ama büyük olduğu için akıllı telefona sığmıyor
    • Akıllı telefonda bu kadar büyük modelleri çalıştırmanın pek değeri yok. Belirli kullanım alanları için küçük bir modeli fine-tune etmek daha hızlı ve daha doğru
    • Liquid AI'nin Apollo (LFM2) modeli telefonda da oldukça hızlı çalışıyor ve arama sonucu özetleme ya da matematik sorusu çözme gibi işlerde faydalı
    • Gerçekçi olarak bunun imkânsız olduğunu düşünüyorum. Mühendislik açısından bir çözümü yok
    • Muhtemelen 15-20 yıl alır. Bu modelin bugün telefonda “çalışıyor” olması yalnızca teknik olarak doğru. Gerçekte RAM kapasitesi ve bellek bant genişliği son derece yetersiz. SSD kullanan bir demo mümkün ama pratik değil. Sonunda yeni algoritmalara ve özel çip tasarımına ihtiyaç var. Mevcut Transformer yapısının sınırları çok net
  • anemll'i takip etmiyorsanız, iPhone için OpenClaw'ı da çalıştırabilen bir sürüm yayımladığını bilmekte fayda var.
    Donanım ve modeller geliştikçe mobil yapay zekânın geleceği oldukça parlak görünüyor