ANEMLL - Apple Neural Engine üzerinde LLM çalıştırmak için açık kaynak proje

(github.com/Anemll)

3 puan yazan GN⁺ 2025-05-05 | 1 yorum | WhatsApp'ta paylaş

Apple Neural Engine (ANE) üzerinde çalışabilen bir LLM çıkarım pipeline'ı sunuyor
Hugging Face modellerine dayanarak Swift/C++ tabanlı uygulamalarda veya iOS/macOS uygulamalarında cihaz üzerinde çıkarımı mümkün kılıyor
En güncel 0.3.0 Alpha sürümü; Hugging Face modellerini CoreML formatına dönüştüren araçlar, Swift tabanlı çıkarım CLI uygulaması, iOS/macOS uygulama örnekleri, Python test kodu ve benchmark araçlarını içeriyor
LLaMA 3.2 (1B / 8B) modelleri ile Distilled DeepSeek R1 8B ve DeepHermes 3B/8B'yi destekliyor; gelecekte daha çeşitli model mimarilerine genişlemesi planlanıyor
Amaç, Hugging Face modellerini ANE için dönüştürebilen esnek ve kullanımı kolay bir framework sağlamak

1 yorum

GN⁺ 2025-05-05

Hacker News görüşleri

Apple'ın ANE için optimize edilmiş modellerde "10 kata kadar daha hızlı ve 14 kat daha düşük bellek tüketimi" iddiası konusunda sonradan bir gelişme olup olmadığı merak ediliyor
- MLX ve llama.cpp ANE'yi desteklemiyor
- llama.cpp bu fikri araştırıyor
- MLX, Apple tarafından yapılmış olmasına rağmen ANE'yi destekleyemiyor
Snapdragon X dizüstü bilgisayarlar çıktığında NPU'nun LLM'ler için kullanılacağı iddia edilmişti
- Qualcomm'un iddialarına inanılmıştı, ancak gerçekte modeller yalnızca CPU'da çalışıyor
- NPU, küçük modeller için sadece güç verimliliği sağlıyor; büyük modeller için uygun değil
- Tek umut Vulkan desteği
Neural Engine'in boşa harcanmış silikon gibi hissettirdiği söyleniyor
- Daha fazla GPU çekirdeği eklenebilir ve gerekirse neural processing API GPU'ya yönlendirilebilir
- Aksi yönde bir görüş varsa öğrenmek isteniyor
Asıl avantajın çok daha düşük güç kullanımı olduğu belirtiliyor
- M1 Max ve M4 Pro üzerindeki benchmark sonuçlarında GPU daha hızlı, ancak çok daha fazla güç tüketiyor
- ANE modelleri 512 token ile sınırlı, bu yüzden henüz üretimde kullanmak zor
README'de en önemli bilgi yok
- Aynı quantization düzeyinde llama.cpp / MLX ile karşılaştırıldığında saniyede kaç token alınabildiği merak ediliyor
- Varsayılan platformu değiştirmek ancak büyük bir iyileşme varsa değerli olur
Bu teknolojinin asıl sırrının ne olduğu anlaşılmaya çalışılıyor
- coremltools'a dayanmanın kilit unsur olup olmadığı, yoksa başka önemli teknikler bulunup bulunmadığı merak ediliyor
Apple'ın birleşik belleği, birden fazla GPU gerektiren büyük modelleri çalıştırmaya yetecek kadar RAM sağlıyor
coreml'in ANE'yi kullanıp kullanmadığı merak ediliyor
- coreml içinde daha düşük seviyeli erişim gerektiren darboğazlar olup olmadığı sorgulanıyor
M serisi MacBook'larda çıkarım hızında bir performans avantajı olup olmadığı merak ediliyor
- Asıl hedefin çıkarımı diğer platformlarda (iOS vb.) çalıştırmak olup olmadığı soruluyor
- Eğer bir performans avantajı varsa, Ollama ile saniyede token karşılaştırması görülmek isteniyor
Apple'ın ANE üzerindeki sıkı kontrolü şaşırtıcı bulunuyor
- İnsanların bunu gerçekten kullanabildiği günlerin gelmesi umuluyor
- Şirketlerin kontrolü korumak için teknolojiyi gizleyip gizlemediği ya da gerçekten büyük teknik nedenler olup olmadığı merak ediliyor

ANEMLL - Apple Neural Engine üzerinde LLM çalıştırmak için açık kaynak proje

İlgili okumalar

1 yorum

Hacker News görüşleri