ModernBERT - BERT'in Yerini Alacak Model

(huggingface.co)

17 puan yazan GN⁺ 2024-12-20 | 1 yorum | WhatsApp'ta paylaş

ModernBERT, en yeni teknolojileri uygulayan yeni, yalnızca kodlayıcı bir modeldir ve BERT ile onu izleyen modellere kıyasla hız ve doğrulukta iyileştirme sağlar
8192 tokenlık uzun bağlam uzunluğunu destekler ve kod verileri de dahil edilerek eğitilmiştir
Çeşitli uygulama alanlarında kullanılabilir; özellikle büyük ölçekli kod arama ve yeni IDE özellikleri için uygundur

Giriş

BERT, 2018'de yayımlandı ve hâlâ yaygın olarak kullanılan bir modeldir; özellikle arama, sınıflandırma ve varlık çıkarımı için uygundur.
ModernBERT, BERT'in yerine geçecek bir model olarak hız ve doğrulukta Pareto iyileştirmesi sağlar.
Uzun bağlam uzunluğu ve kod verilerinin dahil edilmesiyle yeni uygulama alanlarının önünü açar.

Yalnızca decoder modeller

GPT, Llama ve Claude gibi yalnızca decoder modeller, insan benzeri içerik üretebilen üretici modellerdir.
Ancak bu modeller büyük ve yavaştır, ayrıca yüksek maliyetlidir.
Yalnızca kodlayıcı modeller pratiktir, verimlidir ve birçok görev için uygundur.

Yalnızca kodlayıcı modeller

Yalnızca kodlayıcı modeller, girdiyi sayısal vektörlere dönüştürerek temsil eder.
Yalnızca decoder modeller gelecekteki tokenları göremezken, yalnızca kodlayıcı modeller tokenları iki yönlü görebildiği için daha verimlidir.
Yalnızca kodlayıcı modeller çeşitli uygulama alanlarında kullanılır ve özellikle RAG pipeline'ları ile öneri sistemlerinde önemlidir.

Performans özeti

ModernBERT, çeşitli görevlerde yüksek doğruluk gösterir; DeBERTaV3'ten daha hızlıdır ve daha az bellek kullanır.
Uzun bağlamlı çıkarımda, diğer yüksek kaliteli modellere göre 3 kata kadar daha hızlıdır.
Kod aramada rakipsiz performans gösterir ve yeni uygulamalar geliştirme olasılığını açar.

Verimlilik

ModernBERT, pratikliği ön planda tutar ve farklı girdi uzunluklarında hızlı performans sergiler.
Uzun bağlam girdilerinde diğer modellerden 2-3 kat daha hızlıdır.
Daha büyük batch size kullanılabildiği için küçük GPU'larda da etkili biçimde kullanılabilir.

ModernBERT'in modernliği

ModernBERT, en yeni mühendislik yaklaşımlarını kodlayıcı modellere uygulayarak iyileştirme sağlar.
Transformer++ mimarisini benimseyerek performansı artırır.
Verimliliğe ve modern veri ölçekleri ile kaynaklarına odaklanır.

Yeni Transformer

ModernBERT, Transformer++ mimarisini benimseyerek performansı artırır.
Konumsal kodlamayı iyileştirmek için RoPE kullanır ve MLP katmanlarının yerine GeGLU katmanları kullanır.
Gereksiz bias terimlerini kaldırarak parametre kullanımını optimize eder.

Yarış pisti için Honda Civic yükseltmesi

ModernBERT, hızı ön planda tutar ve çeşitli uygulama alanlarında verimli şekilde kullanılabilir.
Flash Attention 2'nin hız kazanımlarından yararlanarak verimliliği artırır.
Alternating Attention, Unpadding ve Sequence Packing ile hesaplama israfını azaltır.

Donanım hakkında not

ModernBERT, donanım tasarımını önemser ve çeşitli GPU'larda en iyi performansı sunacak şekilde tasarlanmıştır.
Model, derin ve dar yapı ile donanım verimliliği dikkate alınarak tasarlanmıştır.

Eğitim

ModernBERT, çeşitli kaynaklardan gelen verilerle eğitilmiştir ve 2 trilyon token kullanır.
Üç aşamalı eğitim süreci sayesinde farklı görevlerde üstün performans gösterir.
İlk eğitim aşamasında hızı artırmak için batch size warmup kullanır.

Sonuç

ModernBERT, en yeni teknolojileri uygulayarak yalnızca kodlayıcı modellerin performansını iyileştirir.
Çeşitli görevlerde güçlü performans sunar ve boyut/performans oranı caziptir.
Topluluğun yaratıcı kullanımını bekliyor ve demolar için bir yarışma yürütüyor.

1 yorum

GN⁺ 2024-12-20

Hacker News görüşleri

Answer.AI'dan Jeremy, yeni modelin piyasaya sürülmesinin çeşitli girişimler ve projeler için temel oluşturabileceğini düşünüyor
- Blog yazısında bahsedilenler buzdağının yalnızca görünen kısmı; modeli farklı şekillerde ince ayar yapmak için pek çok fırsat var
Yalnızca encoder kullanan modeller ayda 1 milyardan fazla indirme alıyor; bu sayı yalnızca decoder kullanan modellerin üç katından fazla
- Bunun bir nedeni, decoder kullanıcılarının Hugging Face yerine API çağrılarını kullanması; bir diğer nedeni de encoder'ların çoğu ciddi ML uygulamasının görünmeyen kahramanı olması
- Ranking, recommendation, RAG gibi işler için encoder gerekiyor ve genellikle BERT, RoBERTa, ALBERT ailesinden modeller kullanılıyor
Birkaç yıl önce BERT modellerini özetleme gibi işler için kullandığında bunun adeta mucize gibi hissettirdiğini söylüyor
- Ollama'nın bunu kütüphanesine eklemesini bekliyor ve son dönemde LLM'lerin hızındaki artışın etkileyici olduğunu düşünüyor
- Apple, geliştirici SDK'sında BERT modellerini destekliyordu; bunu yeni teknolojiyle ne kadar hızlı güncelleyeceğini merak ediyor
Makaleyi okuyup yerel attention katmanlarının eklenmesinden etkilendiğini söylüyor
- Lucidrains deposunda bunu yıllarca denediğini ve bunun daha fazla ilerlememesine şaşırdığını belirtiyor
- Çıkarım hızı çok iyi; NSP'nin kaldırılması, masking oranının artırılması, RoPE ve uzun context gibi birçok iyileştirme yapılmış
- "ModernTinyBERT" yapmak istiyor ama katmanlar karmaşık biçimde iç içe geçtiği için bunun zor olduğunu söylüyor
BERT modellerinin bugün nerede kullanıldığını merak ediyor
- Belirli görevlerde LLM'lere göre daha iyi bir alternatif olduklarını ve bağlamı çift yönlü olarak daha iyi anlayabildiklerini düşünüyordu
- Ancak LLM'ler de çok güçlü olduğu için farkın küçük olabileceğini belirtiyor
Modelin SentenceTransformers ile ince ayar yapılıp yapılamayacağını merak ediyor
- ColBERT'in benchmark'lara dahil edildiğini ve answerai-colbert-small-v2'nin yakında çıkıp çıkmayacağını soruyor
ModernBERT için bir RAG değerlendirmesi gören olup olmadığını merak ediyor
Answer.ai ekibinin bugün harika işler çıkardığını, Jeremy ve ekibini tebrik ettiğini söylüyor
Modelin yalnızca İngilizceyi destekleyip desteklemediğini, çok dilli bir model ya da başka diller için tek dilli modeller yayımlama planı olup olmadığını merak ediyor
Modele ERNIE adının verilmemesinin kaçırılmış bir fırsat olduğunu söylüyor

ModernBERT - BERT'in Yerini Alacak Model

Giriş

Yalnızca decoder modeller

Yalnızca kodlayıcı modeller

Performans özeti

Verimlilik

ModernBERT'in modernliği

Yeni Transformer

Yarış pisti için Honda Civic yükseltmesi

Donanım hakkında not

Eğitim

Sonuç

İlgili okumalar

1 yorum

Hacker News görüşleri