17 puan yazan GN⁺ 2024-12-20 | 1 yorum | WhatsApp'ta paylaş
  • ModernBERT, en yeni teknolojileri uygulayan yeni, yalnızca kodlayıcı bir modeldir ve BERT ile onu izleyen modellere kıyasla hız ve doğrulukta iyileştirme sağlar
  • 8192 tokenlık uzun bağlam uzunluğunu destekler ve kod verileri de dahil edilerek eğitilmiştir
  • Çeşitli uygulama alanlarında kullanılabilir; özellikle büyük ölçekli kod arama ve yeni IDE özellikleri için uygundur

Giriş

  • BERT, 2018'de yayımlandı ve hâlâ yaygın olarak kullanılan bir modeldir; özellikle arama, sınıflandırma ve varlık çıkarımı için uygundur.
  • ModernBERT, BERT'in yerine geçecek bir model olarak hız ve doğrulukta Pareto iyileştirmesi sağlar.
  • Uzun bağlam uzunluğu ve kod verilerinin dahil edilmesiyle yeni uygulama alanlarının önünü açar.

Yalnızca decoder modeller

  • GPT, Llama ve Claude gibi yalnızca decoder modeller, insan benzeri içerik üretebilen üretici modellerdir.
  • Ancak bu modeller büyük ve yavaştır, ayrıca yüksek maliyetlidir.
  • Yalnızca kodlayıcı modeller pratiktir, verimlidir ve birçok görev için uygundur.

Yalnızca kodlayıcı modeller

  • Yalnızca kodlayıcı modeller, girdiyi sayısal vektörlere dönüştürerek temsil eder.
  • Yalnızca decoder modeller gelecekteki tokenları göremezken, yalnızca kodlayıcı modeller tokenları iki yönlü görebildiği için daha verimlidir.
  • Yalnızca kodlayıcı modeller çeşitli uygulama alanlarında kullanılır ve özellikle RAG pipeline'ları ile öneri sistemlerinde önemlidir.

Performans özeti

  • ModernBERT, çeşitli görevlerde yüksek doğruluk gösterir; DeBERTaV3'ten daha hızlıdır ve daha az bellek kullanır.
  • Uzun bağlamlı çıkarımda, diğer yüksek kaliteli modellere göre 3 kata kadar daha hızlıdır.
  • Kod aramada rakipsiz performans gösterir ve yeni uygulamalar geliştirme olasılığını açar.

Verimlilik

  • ModernBERT, pratikliği ön planda tutar ve farklı girdi uzunluklarında hızlı performans sergiler.
  • Uzun bağlam girdilerinde diğer modellerden 2-3 kat daha hızlıdır.
  • Daha büyük batch size kullanılabildiği için küçük GPU'larda da etkili biçimde kullanılabilir.

ModernBERT'in modernliği

  • ModernBERT, en yeni mühendislik yaklaşımlarını kodlayıcı modellere uygulayarak iyileştirme sağlar.
  • Transformer++ mimarisini benimseyerek performansı artırır.
  • Verimliliğe ve modern veri ölçekleri ile kaynaklarına odaklanır.

Yeni Transformer

  • ModernBERT, Transformer++ mimarisini benimseyerek performansı artırır.
  • Konumsal kodlamayı iyileştirmek için RoPE kullanır ve MLP katmanlarının yerine GeGLU katmanları kullanır.
  • Gereksiz bias terimlerini kaldırarak parametre kullanımını optimize eder.

Yarış pisti için Honda Civic yükseltmesi

  • ModernBERT, hızı ön planda tutar ve çeşitli uygulama alanlarında verimli şekilde kullanılabilir.
  • Flash Attention 2'nin hız kazanımlarından yararlanarak verimliliği artırır.
  • Alternating Attention, Unpadding ve Sequence Packing ile hesaplama israfını azaltır.

Donanım hakkında not

  • ModernBERT, donanım tasarımını önemser ve çeşitli GPU'larda en iyi performansı sunacak şekilde tasarlanmıştır.
  • Model, derin ve dar yapı ile donanım verimliliği dikkate alınarak tasarlanmıştır.

Eğitim

  • ModernBERT, çeşitli kaynaklardan gelen verilerle eğitilmiştir ve 2 trilyon token kullanır.
  • Üç aşamalı eğitim süreci sayesinde farklı görevlerde üstün performans gösterir.
  • İlk eğitim aşamasında hızı artırmak için batch size warmup kullanır.

Sonuç

  • ModernBERT, en yeni teknolojileri uygulayarak yalnızca kodlayıcı modellerin performansını iyileştirir.
  • Çeşitli görevlerde güçlü performans sunar ve boyut/performans oranı caziptir.
  • Topluluğun yaratıcı kullanımını bekliyor ve demolar için bir yarışma yürütüyor.

1 yorum

 
GN⁺ 2024-12-20
Hacker News görüşleri
  • Answer.AI'dan Jeremy, yeni modelin piyasaya sürülmesinin çeşitli girişimler ve projeler için temel oluşturabileceğini düşünüyor
    • Blog yazısında bahsedilenler buzdağının yalnızca görünen kısmı; modeli farklı şekillerde ince ayar yapmak için pek çok fırsat var
  • Yalnızca encoder kullanan modeller ayda 1 milyardan fazla indirme alıyor; bu sayı yalnızca decoder kullanan modellerin üç katından fazla
    • Bunun bir nedeni, decoder kullanıcılarının Hugging Face yerine API çağrılarını kullanması; bir diğer nedeni de encoder'ların çoğu ciddi ML uygulamasının görünmeyen kahramanı olması
    • Ranking, recommendation, RAG gibi işler için encoder gerekiyor ve genellikle BERT, RoBERTa, ALBERT ailesinden modeller kullanılıyor
  • Birkaç yıl önce BERT modellerini özetleme gibi işler için kullandığında bunun adeta mucize gibi hissettirdiğini söylüyor
    • Ollama'nın bunu kütüphanesine eklemesini bekliyor ve son dönemde LLM'lerin hızındaki artışın etkileyici olduğunu düşünüyor
    • Apple, geliştirici SDK'sında BERT modellerini destekliyordu; bunu yeni teknolojiyle ne kadar hızlı güncelleyeceğini merak ediyor
  • Makaleyi okuyup yerel attention katmanlarının eklenmesinden etkilendiğini söylüyor
    • Lucidrains deposunda bunu yıllarca denediğini ve bunun daha fazla ilerlememesine şaşırdığını belirtiyor
    • Çıkarım hızı çok iyi; NSP'nin kaldırılması, masking oranının artırılması, RoPE ve uzun context gibi birçok iyileştirme yapılmış
    • "ModernTinyBERT" yapmak istiyor ama katmanlar karmaşık biçimde iç içe geçtiği için bunun zor olduğunu söylüyor
  • BERT modellerinin bugün nerede kullanıldığını merak ediyor
    • Belirli görevlerde LLM'lere göre daha iyi bir alternatif olduklarını ve bağlamı çift yönlü olarak daha iyi anlayabildiklerini düşünüyordu
    • Ancak LLM'ler de çok güçlü olduğu için farkın küçük olabileceğini belirtiyor
  • Modelin SentenceTransformers ile ince ayar yapılıp yapılamayacağını merak ediyor
    • ColBERT'in benchmark'lara dahil edildiğini ve answerai-colbert-small-v2'nin yakında çıkıp çıkmayacağını soruyor
  • ModernBERT için bir RAG değerlendirmesi gören olup olmadığını merak ediyor
  • Answer.ai ekibinin bugün harika işler çıkardığını, Jeremy ve ekibini tebrik ettiğini söylüyor
  • Modelin yalnızca İngilizceyi destekleyip desteklemediğini, çok dilli bir model ya da başka diller için tek dilli modeller yayımlama planı olup olmadığını merak ediyor
  • Modele ERNIE adının verilmemesinin kaçırılmış bir fırsat olduğunu söylüyor