1 puan yazan GN⁺ 2023-12-21 | 1 yorum | WhatsApp'ta paylaş

mamba-minimal

  • PyTorch ile yazılmış, tek dosyalık basit bir Mamba uygulaması olan mamba-minimal'in açıklaması.
  • Resmi uygulamayla aynı sayısal çıktıları sağlar; buna ileri yayılım ve geri yayılımın ikisi de dahildir.
  • Kod sadeleştirilmiş, okunması kolay ve yorumlarla açıklanmıştır.
  • Resmi uygulamadaki hız optimizasyonları gibi özellikler içermez.
  • Uygun parametre başlatma dahil değildir, ancak okunabilirliği bozmadan eklenebilir.

Demo

  • Prompt tamamlama örneğini gösteren demo.ipynb dosyası.
  • Mamba modeli ve AutoTokenizer kullanarak metin üretimi örneği sunar.
  • Üretilen örnek metinde Mamba, dünyanın en uzun zehirli yılanı olarak tasvir edilir.

References

  • Mamba mimarisi, Albert Gu ve Tri Dao'nun yazdığı "Mamba: Linear-Time Sequence Modeling with Selective State Spaces" makalesinde tanıtıldı.
  • Resmi uygulama GitHub'da görülebilir.

GN⁺ görüşü

  • mamba-minimal, yeni başlayan yazılım mühendislerinin de anlayabilmesi için mevcut Mamba uygulamalarının karmaşıklığını azaltmayı amaçlayan bir projedir.
  • Bu proje, makine öğrenimi alanında kod okunabilirliğini ve anlaşılabilirliğini artırmaya katkı sağlar.
  • Gerçek kullanım örnekleriyle Mamba modelinin nasıl kullanılacağını kolayca gösterir; bu da öğrenenler için oldukça ilgi çekici bir kaynak olabilir.

1 yorum

 
GN⁺ 2023-12-21
Hacker News yorumu
  • Kütüphane paylaşımı

    • Bir meslektaşıyla birlikte ortak model kodunun büyük kısmını çıkaran bir kütüphane oluşturmuş. Çoğu modeli, Python import süreci ve yorumlar hariç yaklaşık 100 satırda uygulamak mümkünmüş.
    • Örnek olarak BERT, Llama 1/2 ve MPT modellerini veriyor; TorchScript JIT, PyTorch flash attention vb. destekleniyor.
  • Mamba çıkarım implementasyonunun paylaşımı

    • Mamba kodunda hız optimizasyonları gibi eğitime doğrudan uygulamayı zorlaştıran birçok kısım olduğunu, bu konuda yardımcı olabilecek kendi Mamba çıkarım implementasyonunu paylaşıyor.
  • Mamba için uzman olmayanlara yönelik açıklama talebi

    • Mamba'nın temel içgörüsünün ne olduğu, durum uzayı modellerinin ne olduğu, Mamba'nın neden başarılı olduğu ve bağlam uzunluğuyla özellikle ilgilenilmese bile Mamba'nın başka hangi avantajlar sunduğuna dair uzman olmayanlara yönelik bir açıklama istiyor.
  • Algoritmanın çekirdeğine dair beklenti

    • Mamba algoritmasının özünün paralel prefix scan olmasını beklemiş, ancak gerçek kodun farklı bir şekilde uygulandığını görmüş.
  • Mamba hakkında esprili bir şaka

    • Mamba'nın dünyanın en uzun zehirli yılanı olduğuna dair şakaya gülmüş. Arka plandaki araştırmayı arXiv makalesine bakarak sezebilmenin hoş olduğunu söylüyor.
  • Mamba modelini eğitmenin zorluğuna dair soru

    • Huggingface'deki Mamba modelini eğitmenin ne kadar zor olduğunu, en büyük modeli eğitmek için kaç GPU ve ne kadar süre gerektiğini soruyor.
  • Resmi CUDA sürümünü yorumlama denemesi paylaşımı

    • Resmi CUDA sürümünü anlamlandırmaya çalışmış ama başarısız olduktan sonra tekrar denememiş. Buna kıyasla yeni implementasyonun çok daha iyi olduğunu düşünüyor.
  • Tek dosyalık PyTorch implementasyonuna hayranlık

    • Bir başka tek dosyalık PyTorch implementasyonuna hayran kalmış ve bunun verimli ML araştırmaları için önemli olduğunu düşünüyor. Araştırma hızının deney çalıştırma süresinin tersiyle ilişkili olduğunu, bunun da kodun Kolmogorov karmaşıklığıyla bağlantılı olduğunu söylüyor. Araştırma araçlarının bilgi keşfi sürecini hızlandırmada ne kadar kritik olduğunu vurguluyor.
  • Orijinal makale için tartışma talebi

    • Orijinal makale hakkında bir tartışma olup olmadığını soruyor ve RWKV ile RetNet gibi önceki modellerde, verimli implementasyon eksikliği nedeniyle bellek sorunları ya da gerçekçi olmayan hesaplama gereksinimleri yüzünden 8k bağlam uzunluğu için tam sonuçların yer almadığını belirtiyor.
  • Özü sadeleştirmeye yönelik övgü

    • Karmaşık şeylerin öz kısmına indirgenerek ifade edilmesini beğeniyor.