- Zamba2-7B, güncel başlıca 7B modelleri olan Mistral-7B, Gemma-7B ve Llama3-8B'ye kıyasla değerlendirme benchmark performansı ve çıkarım verimliliğinde SOTA seviyesine ulaşıyor
- Zamba2-7B, ilk token üretiminde %25 daha hızlı, saniye başına token sayısında %20 iyileşme sağlıyor ve Llama3-8B gibi modellere kıyasla bellek kullanımını önemli ölçüde azaltıyor; yani çıkarım verimliliği oldukça yüksek
Zamba1-7B'ye kıyasla Zamba2-7B mimarisindeki iyileştirmeler
- Mamba1 blokları Mamba2 bloklarıyla değiştirildi
- Tek bir paylaşımlı attention bloğu yerine, ağ genelinde ABAB düzeninde iç içe yerleştirilmiş 2 paylaşımlı attention bloğu kullanılıyor
- Her paylaşımlı MLP bloğuna LoRA projektörleri uygulanarak, derinlik boyunca paylaşımlı katmanın her çağrısında MLP'nin özelleşebilmesi sağlanıyor
- Model ağırlıkları Apache 2.0 lisansıyla açık kaynak olarak yayımlandı
Zamba2-7B'nin dil modelleme değerlendirme setlerindeki performansı
- Zamba2, gecikme ve üretim hızı dikkate alındığında standart dil modelleme değerlendirme setlerinde son derece güçlü performans gösteriyor
- 8B altındaki küçük dil modelleri arasında hem kalite hem performansta ön sıralarda yer alıyor
Zamba2-7B neden mevcut SOTA modelleri aşıyor
- Yeni paylaşımlı attention mimarisi sayesinde Mamba2 omurgasına daha fazla parametre ayrılabiliyor. Paylaşımlı transformer blokları, attention işlemlerinin zengin diziler arası bağımlılıklarını koruyor
- 3 trilyon tokenlık ön eğitim veri kümesi, Zyda ile aktif biçimde filtrelenmiş ve yinelenen kayıtları temizlenmiş açık veri kümelerinin birleşiminden oluşuyor; bu da mevcut önde gelen açık kaynak ön eğitim veri kümelerine kıyasla en yüksek kaliteyi sağlıyor
- Ayrı bir "annealing" ön eğitim aşamasında, 100 milyar yüksek kaliteli token boyunca öğrenme oranı keskin biçimde düşürülüyor. Annealing seti çeşitli yüksek kaliteli kaynaklardan toplanıyor ve kalitesi sıkı şekilde denetleniyor
Üstün ön eğitim ve annealing veri kümesi kalitesi sayesinde Zamba2-7B, eğitim tokenı başına performansta son derece başarılı ve rakip modellerin eğrilerinin oldukça üzerinde rahatça konumlanıyor
Zamba hibrit SSM-attention mimarisi
- Zamba2-7B, özgün Zamba hibrit SSM-attention mimarisini kullanıyor ve genişletiyor
- Temel Zamba mimarisi, bir veya daha fazla paylaşımlı attention katmanıyla iç içe geçmiş Mamba katmanlarından oluşan bir omurgadan meydana geliyor (Zamba1'de 1, Zamba2'de 2 paylaşımlı attention kullanılıyor)
- Bu attention, modelin parametre maliyetini en aza indirmek için paylaşımlı ağırlıklar kullanıyor
- Girdinin özgün model embedding'ini bu attention bloklarına bağlamak, derinlik boyunca bilginin korunmasını iyileştiriyor gibi görünüyor ve performansı artırıyor
- Zamba2 mimarisi, paylaşımlı MLP'lere LoRA projeksiyon matrisleri uygulayarak her bloğun düşük parametre ek yüküyle kendi konumuna hafifçe özelleşebilmesi için ek ifade gücü kazanıyor
SOTA çıkarım verimliliğine ulaşılmasını sağlayan etkenler
- Mamba2 blokları son derece verimli ve aynı parametre sayısına sahip transformer bloklarına göre yaklaşık 4 kat daha yüksek throughput sunuyor
- Mamba blokları yalnızca saklanacak küçük bir hidden state gerektiriyor ve KV-cache'e ihtiyaç duymuyor; bu nedenle yalnızca paylaşımlı attention blok çağrıları için KV durumu tutuluyor
- Model boyutu, modern donanımda paralelleştirmeye son derece uygun olacak şekilde seçildi (ör. GPU'lardaki çoklu streaming multiprocessor'lar, CPU'lardaki çok çekirdekler)
Zamba2-7B'nin eğitimi ve yayımlanması
- Zamba2-7B, Megatron-LM tabanlı dahili bir eğitim framework'ü kullanılarak 128 adet H100 GPU üzerinde yaklaşık 50 gün boyunca eğitildi
- Zamba2-7B, 7B ölçeğinde küçük ekiplerin ve makul bütçelerin de son teknoloji seviyesine ulaşabileceğini ve bunu aşabileceğini gösteriyor
- Açık kaynak lisansıyla yayımlandığı için araştırmacılar, geliştiriciler ve şirketler yeteneklerinden yararlanabiliyor
- Yapay zeka topluluğunun Zamba'nın benzersiz mimarisini keşfetmesi ve verimli foundation model sınırlarını daha da ileri taşıması bekleniyor
Yayımlanan Zamba2-7B modelleri:
- Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
- Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
- Pure PyTorch: https://github.com/Zyphra/Zamba2
Zyphra'nın vizyonu
- Zyphra ekibi, gelişmiş yapay zeka sistemlerini yaygınlaştırmaya, performansın ön saflarında yer alan yeni mimarileri keşfetmeye ve güçlü modellere yönelik bilimsel araştırma ile anlayışı ilerletmeye odaklanıyor
- Bu vizyonu paylaşan diğer kişilerle iş birliği yapmayı umuyor
GN⁺ görüşü
- Zyphra'nın Zamba2'yi açık kaynak olarak yayımlaması büyük önem taşıyor. Bu, herkesin son teknoloji dil modellerini ücretsiz kullanıp araştırabilmesine olanak tanıyarak yapay zeka teknolojilerinin yaygınlaşmasına katkı sağlayacak
- Zamba2'nin yeni mimarisi, mevcut transformer tabanlı modellerin sınırlarını aşarak daha verimli dil modelleri oluşturma yönünde bir yol gösteriyor. Paylaşımlı attention ve LoRA projeksiyonu gibi Zamba'ya özgü fikirler, gelecekteki dil modeli araştırmalarına ilham verebilir
- Küçük ve orta ölçekli ekiplerin de modern donanımı kullanarak SOTA performanslı büyük dil modelleri geliştirebileceğini göstermesi de cesaret verici. Önümüzdeki dönemde farklı organizasyonların katılımıyla foundation model geliştirme çalışmalarının daha da hızlanması beklenebilir
- Zamba2'nin performansının gerçek uygulamalarda nasıl ortaya çıkacağını görmek gerekiyor. Çünkü yüksek benchmark puanları her zaman doğrudan gerçek dünya görevlerine yansımıyor. Farklı alanlardaki uygulayıcıların Zamba2'yi kullanıp avantajlarını ve sınırlamalarını paylaşması önemli olacak
1 yorum
Hacker News görüşleri
Makalede bağlantısı verilmeyen ağırlıkları arayanlar için bağlantılar paylaşılmış
Performans artışının veri kümesi iyileştirmesinden mi yoksa mimariden mi kaynaklandığı merak ediliyor. Bunun maliyetli bir deney olacağı belirtiliyor
LLM sürümlerinin benchmark'ları seçmeli kullanmasından bıkkınlık duyuluyor. SOTA qwen2.5/phi3.5 ile karşılaştırma merak ediliyor
Özellikle çeşitli mimarilerle birlikte daha fazla Apache lisanslı model çıkması olumlu bulunuyor
Mamba2 blokları üzerine yapılan teorik çalışmanın miktarına kıyasla performans artışının oldukça sınırlı olduğu söyleniyor
İki attention head kullanıldığında, her bir attention head'in verinin farklı yönlerine odaklanıp odaklanmadığı merak ediliyor
7B'nin neden özel olduğu merak ediliyor. Neden 8B, 9B ya da 11.234B olmadığı soruluyor. 7B'nin 2'nin kuvveti gibi yorumlanıp yorumlanmadığı merak ediliyor
Bir başka gün, yapay zekada bir başka dünya rekoru kırılıyor
Bu modelin hangi dilleri desteklediğine dair bir fikri olan olup olmadığı soruluyor