21 puan yazan GN⁺ 2024-07-17 | 1 yorum | WhatsApp'ta paylaş
  • Pahalı NVIDIA GPU'ları unutun; mevcut iPhone, iPad, Android, Mac ve Linux gibi cihazları bir araya getirip tek ve güçlü bir GPU gibi kullanın
  • LLaMA ve çeşitli modelleri destekler
  • "Dinamik model bölümleme" ile mevcut ağ topolojisi ve kullanılabilir cihaz kaynaklarına göre modeli en uygun şekilde böler
    • Tek bir cihazda çalıştırılabilecek olandan daha büyük modelleri çalıştırabilir
  • Otomatik cihaz keşfi ile diğer cihazları bulur
  • ChatGPT uyumlu API sunar
  • Her cihaz, Master-Worker yapısı yerine p2p biçiminde bağlanır (varsayılan bölümleme stratejisi ring memory weighted partitioning'dir)
  • Çıkarım motoru desteği:
    • ✅ MLX
    • ✅ tinygrad
    • 🚧 llama.cpp
  • Ağ modülü desteği:
    • ✅ GRPC
    • 🚧 Radio
    • 🚧 Bluetooth
  • Bilinen sorunlar
    • Kütüphane hızla geliştiği için iOS uygulaması Python'un gerisinde kalıyor
    • Uzun vadede, ayrı uygulamaları sürdürme gereğini ortadan kaldırmak için birleşik bir yaklaşım planlanıyor

GN⁺ özeti

  • exo, çeşitli cihazları tek ve güçlü bir yapay zeka kümesinde birleştirebilen deneysel bir yazılımdır
  • Otomatik cihaz keşfi, dinamik model bölümleme gibi özelliklerle tek bir cihazdan daha büyük modelleri çalıştırabilir
  • ChatGPT uyumlu API sunarak modelleri kolayca çalıştırmayı sağlar
  • iOS uygulamasının geride kalması sorununu çözmek için birleşik bir yaklaşım üzerinde çalışılmaktadır

1 yorum

 
GN⁺ 2024-07-17
Hacker News görüşleri
  • Apple Silicon’a özel bir kütüphane olan mlx gerekiyor. "iPhone, iPad, Android, Mac, Linux, pretty much any device" üzerinde çalıştığı söyleniyor ama bunun gerçekten test edilip edilmediği şüpheli
  • Yerel ağ için optimize edilmiş bu sistemi crowdsourcing yoluyla kolayca kullanmanın bir yolunu düşünüyorum. Ofisteki herkesin ağa kolayca katılabilmesi ya da bir QR kodu tarayarak alan adı özelindeki bir modele katkı verebilmesi için bir yol arıyorum
  • Bu fikir harika ve kullanıcı dostu. Birden fazla eski cihazı faydalı bir şeye dönüştürme potansiyeli var. Ama tok, gecikme süresi ve örnek kurulumlar hakkında sonuçlar verilse iyi olurdu
  • GitHub’daki paddler’ı Windows’ta iki cihaz arasında yük dengeleme için çalıştırdım. Llama 400B’yi birden fazla cihazda çalıştırmak için faydalı olabilir. Ama henüz Windows desteği yok
  • Bu özellik, tek bir cihazda çalıştırabileceğinizden daha büyük modelleri çalıştırmanıza imkân veriyor. Ancak bunun tam olarak nasıl çalıştığına dair yeterli açıklama yok. Örneğin sinir ağının bazı katmanları deviceA üzerinde, diğer katmanları deviceB üzerindeyse, her token üretildiğinde deviceA’daki son katmanın çıktı verisinin deviceB’ye gönderilmesi gerekir
  • Swarm bilişim, tüm bilişimin standardı olmalı. Sahip olduğumuz tüm cihazlarda kullanılmayan çok fazla CPU var
  • Ağ darboğazları yüzünden çalışmayacaktır. Gigabaytlarca veri aktarmak gerekiyor. Bu yüzden iyi bir internet (20mb/s üzeri) ve iyi cihazlar gerekiyor. Bu sistem Twitter’da havalı bir demo olarak kalacak. Umarım yanıldığımı kanıtlar
  • Cloud, hesaplama/fiyat açısından yenilemez ama yerel tarafa geçildiğinde gizlilik sorunları çözülebilir. Dünyanın hesaplama için ikinci bir anayasa değişikliğine ihtiyacı var
  • Eskiden Mac, PC vb. üzerinde modelleri yerelde çalıştırma fikri ilgimi çekiyordu. Ama artık kullanışlı yapay zeka hesaplamalarının çoğunun cloud’da yapılacağını düşünüyorum. Ev ağında yavaş bir Llama3 modeli çalıştırabilirsiniz, ama aynısını cloud hizmetlerinde ucuza ya da ücretsiz çalıştırabiliyorken buna pek gerek yok. Apple yerel yapay zeka modellerini zorluyor ama bunun pil performansı üzerindeki etkisi konusunda ciddi endişeler var
  • Büyük kümelerin RDMA ağları kullanmasına rağmen iletişim ek yükünün darboğaz olduğu söyleniyor; bu sistemin ev ağında büyük bir darboğaz yaşamamasının nasıl mümkün olduğunu merak ediyorum