- Pahalı NVIDIA GPU'ları unutun; mevcut iPhone, iPad, Android, Mac ve Linux gibi cihazları bir araya getirip tek ve güçlü bir GPU gibi kullanın
- LLaMA ve çeşitli modelleri destekler
- "Dinamik model bölümleme" ile mevcut ağ topolojisi ve kullanılabilir cihaz kaynaklarına göre modeli en uygun şekilde böler
- Tek bir cihazda çalıştırılabilecek olandan daha büyük modelleri çalıştırabilir
- Otomatik cihaz keşfi ile diğer cihazları bulur
- ChatGPT uyumlu API sunar
- Her cihaz, Master-Worker yapısı yerine p2p biçiminde bağlanır (varsayılan bölümleme stratejisi ring memory weighted partitioning'dir)
- Çıkarım motoru desteği:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- Ağ modülü desteği:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- Bilinen sorunlar
- Kütüphane hızla geliştiği için iOS uygulaması Python'un gerisinde kalıyor
- Uzun vadede, ayrı uygulamaları sürdürme gereğini ortadan kaldırmak için birleşik bir yaklaşım planlanıyor
GN⁺ özeti
- exo, çeşitli cihazları tek ve güçlü bir yapay zeka kümesinde birleştirebilen deneysel bir yazılımdır
- Otomatik cihaz keşfi, dinamik model bölümleme gibi özelliklerle tek bir cihazdan daha büyük modelleri çalıştırabilir
- ChatGPT uyumlu API sunarak modelleri kolayca çalıştırmayı sağlar
- iOS uygulamasının geride kalması sorununu çözmek için birleşik bir yaklaşım üzerinde çalışılmaktadır
1 yorum
Hacker News görüşleri
mlxgerekiyor. "iPhone, iPad, Android, Mac, Linux, pretty much any device" üzerinde çalıştığı söyleniyor ama bunun gerçekten test edilip edilmediği şüphelitok, gecikme süresi ve örnek kurulumlar hakkında sonuçlar verilse iyi olurdupaddler’ı Windows’ta iki cihaz arasında yük dengeleme için çalıştırdım. Llama 400B’yi birden fazla cihazda çalıştırmak için faydalı olabilir. Ama henüz Windows desteği yokdeviceAüzerinde, diğer katmanlarıdeviceBüzerindeyse, her token üretildiğindedeviceA’daki son katmanın çıktı verisinindeviceB’ye gönderilmesi gerekir