- ModernBERT, en yeni teknolojileri uygulayan yeni, yalnızca kodlayıcı bir modeldir ve BERT ile onu izleyen modellere kıyasla hız ve doğrulukta iyileştirme sağlar
- 8192 tokenlık uzun bağlam uzunluğunu destekler ve kod verileri de dahil edilerek eğitilmiştir
- Çeşitli uygulama alanlarında kullanılabilir; özellikle büyük ölçekli kod arama ve yeni IDE özellikleri için uygundur
Giriş
- BERT, 2018'de yayımlandı ve hâlâ yaygın olarak kullanılan bir modeldir; özellikle arama, sınıflandırma ve varlık çıkarımı için uygundur.
- ModernBERT, BERT'in yerine geçecek bir model olarak hız ve doğrulukta Pareto iyileştirmesi sağlar.
- Uzun bağlam uzunluğu ve kod verilerinin dahil edilmesiyle yeni uygulama alanlarının önünü açar.
Yalnızca decoder modeller
- GPT, Llama ve Claude gibi yalnızca decoder modeller, insan benzeri içerik üretebilen üretici modellerdir.
- Ancak bu modeller büyük ve yavaştır, ayrıca yüksek maliyetlidir.
- Yalnızca kodlayıcı modeller pratiktir, verimlidir ve birçok görev için uygundur.
Yalnızca kodlayıcı modeller
- Yalnızca kodlayıcı modeller, girdiyi sayısal vektörlere dönüştürerek temsil eder.
- Yalnızca decoder modeller gelecekteki tokenları göremezken, yalnızca kodlayıcı modeller tokenları iki yönlü görebildiği için daha verimlidir.
- Yalnızca kodlayıcı modeller çeşitli uygulama alanlarında kullanılır ve özellikle RAG pipeline'ları ile öneri sistemlerinde önemlidir.
Performans özeti
- ModernBERT, çeşitli görevlerde yüksek doğruluk gösterir; DeBERTaV3'ten daha hızlıdır ve daha az bellek kullanır.
- Uzun bağlamlı çıkarımda, diğer yüksek kaliteli modellere göre 3 kata kadar daha hızlıdır.
- Kod aramada rakipsiz performans gösterir ve yeni uygulamalar geliştirme olasılığını açar.
Verimlilik
- ModernBERT, pratikliği ön planda tutar ve farklı girdi uzunluklarında hızlı performans sergiler.
- Uzun bağlam girdilerinde diğer modellerden 2-3 kat daha hızlıdır.
- Daha büyük batch size kullanılabildiği için küçük GPU'larda da etkili biçimde kullanılabilir.
ModernBERT'in modernliği
- ModernBERT, en yeni mühendislik yaklaşımlarını kodlayıcı modellere uygulayarak iyileştirme sağlar.
- Transformer++ mimarisini benimseyerek performansı artırır.
- Verimliliğe ve modern veri ölçekleri ile kaynaklarına odaklanır.
Yeni Transformer
- ModernBERT, Transformer++ mimarisini benimseyerek performansı artırır.
- Konumsal kodlamayı iyileştirmek için RoPE kullanır ve MLP katmanlarının yerine GeGLU katmanları kullanır.
- Gereksiz bias terimlerini kaldırarak parametre kullanımını optimize eder.
Yarış pisti için Honda Civic yükseltmesi
- ModernBERT, hızı ön planda tutar ve çeşitli uygulama alanlarında verimli şekilde kullanılabilir.
- Flash Attention 2'nin hız kazanımlarından yararlanarak verimliliği artırır.
- Alternating Attention, Unpadding ve Sequence Packing ile hesaplama israfını azaltır.
Donanım hakkında not
- ModernBERT, donanım tasarımını önemser ve çeşitli GPU'larda en iyi performansı sunacak şekilde tasarlanmıştır.
- Model, derin ve dar yapı ile donanım verimliliği dikkate alınarak tasarlanmıştır.
Eğitim
- ModernBERT, çeşitli kaynaklardan gelen verilerle eğitilmiştir ve 2 trilyon token kullanır.
- Üç aşamalı eğitim süreci sayesinde farklı görevlerde üstün performans gösterir.
- İlk eğitim aşamasında hızı artırmak için batch size warmup kullanır.
Sonuç
- ModernBERT, en yeni teknolojileri uygulayarak yalnızca kodlayıcı modellerin performansını iyileştirir.
- Çeşitli görevlerde güçlü performans sunar ve boyut/performans oranı caziptir.
- Topluluğun yaratıcı kullanımını bekliyor ve demolar için bir yarışma yürütüyor.
1 yorum
Hacker News görüşleri
answerai-colbert-small-v2'nin yakında çıkıp çıkmayacağını soruyor