3 puan yazan GN⁺ 2025-05-05 | 1 yorum | WhatsApp'ta paylaş
  • Apple Neural Engine (ANE) üzerinde çalışabilen bir LLM çıkarım pipeline'ı sunuyor
  • Hugging Face modellerine dayanarak Swift/C++ tabanlı uygulamalarda veya iOS/macOS uygulamalarında cihaz üzerinde çıkarımı mümkün kılıyor
  • En güncel 0.3.0 Alpha sürümü; Hugging Face modellerini CoreML formatına dönüştüren araçlar, Swift tabanlı çıkarım CLI uygulaması, iOS/macOS uygulama örnekleri, Python test kodu ve benchmark araçlarını içeriyor
  • LLaMA 3.2 (1B / 8B) modelleri ile Distilled DeepSeek R1 8B ve DeepHermes 3B/8B'yi destekliyor; gelecekte daha çeşitli model mimarilerine genişlemesi planlanıyor
  • Amaç, Hugging Face modellerini ANE için dönüştürebilen esnek ve kullanımı kolay bir framework sağlamak

1 yorum

 
GN⁺ 2025-05-05
Hacker News görüşleri
  • Apple'ın ANE için optimize edilmiş modellerde "10 kata kadar daha hızlı ve 14 kat daha düşük bellek tüketimi" iddiası konusunda sonradan bir gelişme olup olmadığı merak ediliyor

    • MLX ve llama.cpp ANE'yi desteklemiyor
    • llama.cpp bu fikri araştırıyor
    • MLX, Apple tarafından yapılmış olmasına rağmen ANE'yi destekleyemiyor
  • Snapdragon X dizüstü bilgisayarlar çıktığında NPU'nun LLM'ler için kullanılacağı iddia edilmişti

    • Qualcomm'un iddialarına inanılmıştı, ancak gerçekte modeller yalnızca CPU'da çalışıyor
    • NPU, küçük modeller için sadece güç verimliliği sağlıyor; büyük modeller için uygun değil
    • Tek umut Vulkan desteği
  • Neural Engine'in boşa harcanmış silikon gibi hissettirdiği söyleniyor

    • Daha fazla GPU çekirdeği eklenebilir ve gerekirse neural processing API GPU'ya yönlendirilebilir
    • Aksi yönde bir görüş varsa öğrenmek isteniyor
  • Asıl avantajın çok daha düşük güç kullanımı olduğu belirtiliyor

    • M1 Max ve M4 Pro üzerindeki benchmark sonuçlarında GPU daha hızlı, ancak çok daha fazla güç tüketiyor
    • ANE modelleri 512 token ile sınırlı, bu yüzden henüz üretimde kullanmak zor
  • README'de en önemli bilgi yok

    • Aynı quantization düzeyinde llama.cpp / MLX ile karşılaştırıldığında saniyede kaç token alınabildiği merak ediliyor
    • Varsayılan platformu değiştirmek ancak büyük bir iyileşme varsa değerli olur
  • Bu teknolojinin asıl sırrının ne olduğu anlaşılmaya çalışılıyor

    • coremltools'a dayanmanın kilit unsur olup olmadığı, yoksa başka önemli teknikler bulunup bulunmadığı merak ediliyor
  • Apple'ın birleşik belleği, birden fazla GPU gerektiren büyük modelleri çalıştırmaya yetecek kadar RAM sağlıyor

  • coreml'in ANE'yi kullanıp kullanmadığı merak ediliyor

    • coreml içinde daha düşük seviyeli erişim gerektiren darboğazlar olup olmadığı sorgulanıyor
  • M serisi MacBook'larda çıkarım hızında bir performans avantajı olup olmadığı merak ediliyor

    • Asıl hedefin çıkarımı diğer platformlarda (iOS vb.) çalıştırmak olup olmadığı soruluyor
    • Eğer bir performans avantajı varsa, Ollama ile saniyede token karşılaştırması görülmek isteniyor
  • Apple'ın ANE üzerindeki sıkı kontrolü şaşırtıcı bulunuyor

    • İnsanların bunu gerçekten kullanabildiği günlerin gelmesi umuluyor
    • Şirketlerin kontrolü korumak için teknolojiyi gizleyip gizlemediği ya da gerçekten büyük teknik nedenler olup olmadığı merak ediliyor