Zyphra, Llama3'ü geride bırakan küçük dil modeli Zamba2-7B'yi duyurdu

(zyphra.com)

7 puan yazan GN⁺ 2024-10-16 | 1 yorum | WhatsApp'ta paylaş

Zamba2-7B, güncel başlıca 7B modelleri olan Mistral-7B, Gemma-7B ve Llama3-8B'ye kıyasla değerlendirme benchmark performansı ve çıkarım verimliliğinde SOTA seviyesine ulaşıyor
Zamba2-7B, ilk token üretiminde %25 daha hızlı, saniye başına token sayısında %20 iyileşme sağlıyor ve Llama3-8B gibi modellere kıyasla bellek kullanımını önemli ölçüde azaltıyor; yani çıkarım verimliliği oldukça yüksek

Zamba1-7B'ye kıyasla Zamba2-7B mimarisindeki iyileştirmeler

Mamba1 blokları Mamba2 bloklarıyla değiştirildi
Tek bir paylaşımlı attention bloğu yerine, ağ genelinde ABAB düzeninde iç içe yerleştirilmiş 2 paylaşımlı attention bloğu kullanılıyor
Her paylaşımlı MLP bloğuna LoRA projektörleri uygulanarak, derinlik boyunca paylaşımlı katmanın her çağrısında MLP'nin özelleşebilmesi sağlanıyor
Model ağırlıkları Apache 2.0 lisansıyla açık kaynak olarak yayımlandı

Zamba2-7B'nin dil modelleme değerlendirme setlerindeki performansı

Zamba2, gecikme ve üretim hızı dikkate alındığında standart dil modelleme değerlendirme setlerinde son derece güçlü performans gösteriyor
8B altındaki küçük dil modelleri arasında hem kalite hem performansta ön sıralarda yer alıyor

Zamba2-7B neden mevcut SOTA modelleri aşıyor

Yeni paylaşımlı attention mimarisi sayesinde Mamba2 omurgasına daha fazla parametre ayrılabiliyor. Paylaşımlı transformer blokları, attention işlemlerinin zengin diziler arası bağımlılıklarını koruyor
3 trilyon tokenlık ön eğitim veri kümesi, Zyda ile aktif biçimde filtrelenmiş ve yinelenen kayıtları temizlenmiş açık veri kümelerinin birleşiminden oluşuyor; bu da mevcut önde gelen açık kaynak ön eğitim veri kümelerine kıyasla en yüksek kaliteyi sağlıyor
Ayrı bir "annealing" ön eğitim aşamasında, 100 milyar yüksek kaliteli token boyunca öğrenme oranı keskin biçimde düşürülüyor. Annealing seti çeşitli yüksek kaliteli kaynaklardan toplanıyor ve kalitesi sıkı şekilde denetleniyor

Üstün ön eğitim ve annealing veri kümesi kalitesi sayesinde Zamba2-7B, eğitim tokenı başına performansta son derece başarılı ve rakip modellerin eğrilerinin oldukça üzerinde rahatça konumlanıyor

Zamba hibrit SSM-attention mimarisi

Zamba2-7B, özgün Zamba hibrit SSM-attention mimarisini kullanıyor ve genişletiyor
Temel Zamba mimarisi, bir veya daha fazla paylaşımlı attention katmanıyla iç içe geçmiş Mamba katmanlarından oluşan bir omurgadan meydana geliyor (Zamba1'de 1, Zamba2'de 2 paylaşımlı attention kullanılıyor)
Bu attention, modelin parametre maliyetini en aza indirmek için paylaşımlı ağırlıklar kullanıyor
Girdinin özgün model embedding'ini bu attention bloklarına bağlamak, derinlik boyunca bilginin korunmasını iyileştiriyor gibi görünüyor ve performansı artırıyor
Zamba2 mimarisi, paylaşımlı MLP'lere LoRA projeksiyon matrisleri uygulayarak her bloğun düşük parametre ek yüküyle kendi konumuna hafifçe özelleşebilmesi için ek ifade gücü kazanıyor

SOTA çıkarım verimliliğine ulaşılmasını sağlayan etkenler

Mamba2 blokları son derece verimli ve aynı parametre sayısına sahip transformer bloklarına göre yaklaşık 4 kat daha yüksek throughput sunuyor
Mamba blokları yalnızca saklanacak küçük bir hidden state gerektiriyor ve KV-cache'e ihtiyaç duymuyor; bu nedenle yalnızca paylaşımlı attention blok çağrıları için KV durumu tutuluyor
Model boyutu, modern donanımda paralelleştirmeye son derece uygun olacak şekilde seçildi (ör. GPU'lardaki çoklu streaming multiprocessor'lar, CPU'lardaki çok çekirdekler)

Zamba2-7B'nin eğitimi ve yayımlanması

Zamba2-7B, Megatron-LM tabanlı dahili bir eğitim framework'ü kullanılarak 128 adet H100 GPU üzerinde yaklaşık 50 gün boyunca eğitildi
Zamba2-7B, 7B ölçeğinde küçük ekiplerin ve makul bütçelerin de son teknoloji seviyesine ulaşabileceğini ve bunu aşabileceğini gösteriyor
Açık kaynak lisansıyla yayımlandığı için araştırmacılar, geliştiriciler ve şirketler yeteneklerinden yararlanabiliyor
Yapay zeka topluluğunun Zamba'nın benzersiz mimarisini keşfetmesi ve verimli foundation model sınırlarını daha da ileri taşıması bekleniyor

Yayımlanan Zamba2-7B modelleri:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Zyphra'nın vizyonu

Zyphra ekibi, gelişmiş yapay zeka sistemlerini yaygınlaştırmaya, performansın ön saflarında yer alan yeni mimarileri keşfetmeye ve güçlü modellere yönelik bilimsel araştırma ile anlayışı ilerletmeye odaklanıyor
Bu vizyonu paylaşan diğer kişilerle iş birliği yapmayı umuyor

GN⁺ görüşü

Zyphra'nın Zamba2'yi açık kaynak olarak yayımlaması büyük önem taşıyor. Bu, herkesin son teknoloji dil modellerini ücretsiz kullanıp araştırabilmesine olanak tanıyarak yapay zeka teknolojilerinin yaygınlaşmasına katkı sağlayacak
Zamba2'nin yeni mimarisi, mevcut transformer tabanlı modellerin sınırlarını aşarak daha verimli dil modelleri oluşturma yönünde bir yol gösteriyor. Paylaşımlı attention ve LoRA projeksiyonu gibi Zamba'ya özgü fikirler, gelecekteki dil modeli araştırmalarına ilham verebilir
Küçük ve orta ölçekli ekiplerin de modern donanımı kullanarak SOTA performanslı büyük dil modelleri geliştirebileceğini göstermesi de cesaret verici. Önümüzdeki dönemde farklı organizasyonların katılımıyla foundation model geliştirme çalışmalarının daha da hızlanması beklenebilir
Zamba2'nin performansının gerçek uygulamalarda nasıl ortaya çıkacağını görmek gerekiyor. Çünkü yüksek benchmark puanları her zaman doğrudan gerçek dünya görevlerine yansımıyor. Farklı alanlardaki uygulayıcıların Zamba2'yi kullanıp avantajlarını ve sınırlamalarını paylaşması önemli olacak

1 yorum

GN⁺ 2024-10-16

Hacker News görüşleri

Makalede bağlantısı verilmeyen ağırlıkları arayanlar için bağlantılar paylaşılmış
- Temel model: Zyphra/Zamba2-7B
- Instruct ince ayarı: Zyphra/Zamba2-7B-Instruct
Performans artışının veri kümesi iyileştirmesinden mi yoksa mimariden mi kaynaklandığı merak ediliyor. Bunun maliyetli bir deney olacağı belirtiliyor
LLM sürümlerinin benchmark'ları seçmeli kullanmasından bıkkınlık duyuluyor. SOTA qwen2.5/phi3.5 ile karşılaştırma merak ediliyor
- Güncel bağımsız bir leaderboard bilen olup olmadığı soruluyor. Lmsys ve livebench son dönemdeki büyük modellerin çoğunu atlıyor
Özellikle çeşitli mimarilerle birlikte daha fazla Apache lisanslı model çıkması olumlu bulunuyor
Mamba2 blokları üzerine yapılan teorik çalışmanın miktarına kıyasla performans artışının oldukça sınırlı olduğu söyleniyor
- Attention'ın hâlâ önemli olduğu belirtiliyor
İki attention head kullanıldığında, her bir attention head'in verinin farklı yönlerine odaklanıp odaklanmadığı merak ediliyor
- Bellek araştırmalarında olayların ikili temsili kavramı olduğu söyleniyor. Biri daha doğru bir temsil, diğeri ise bağlam ağırlıklı bir temsil
- LLM'lerde attention'ın bir head'inin doğru temsile, diğerinin ise daha kaba bilgiye odaklandığı bir sistem hayal edilebileceği belirtiliyor. Ancak LLM'ler hakkında çok bilgi sahibi olunmadığı için bunun sadece basit bir benzetme olup olmadığından emin olunmadığı ekleniyor
7B'nin neden özel olduğu merak ediliyor. Neden 8B, 9B ya da 11.234B olmadığı soruluyor. 7B'nin 2'nin kuvveti gibi yorumlanıp yorumlanmadığı merak ediliyor
Bir başka gün, yapay zekada bir başka dünya rekoru kırılıyor
- Sergey Bubka'yı hatırlattığı söyleniyor. Kendisi erkekler sırıkla atlama dünya rekorunu 35 kez geliştirmişti
Bu modelin hangi dilleri desteklediğine dair bir fikri olan olup olmadığı soruluyor