16 puan yazan GN⁺ 2024-03-28 | 1 yorum | WhatsApp'ta paylaş
  • Databricks, yeni açık ve genel amaçlı LLM'i DBRX'i duyurdu
  • Standart benchmark'larda mevcut açık LLM'leri geride bırakan yeni bir en üst seviye model olup, daha önce kapalı model API'leriyle sınırlı olan yetenekleri açık topluluk ve şirketlere sunuyor
    • GPT-3.5'i geride bırakıyor ve Gemini 1.0 Pro ile de rekabet edebiliyor
    • Kod alanında da CodeLLaMA-70B gibi uzman modellere üstün geliyor
  • DBRX, eğitim ve çıkarım performansında belirgin iyileşmeler gösteriyor
    • Verimliliği artırmak için ince taneli bir Mixture-of-Experts (MoE) mimarisi kullanıyor
    • Çıkarım hızı LLaMA2-70B'den 2 kata kadar daha hızlı ve Grok-1'e kıyasla boyutu yaklaşık %40 daha küçük

DBRX'in yapısı

  • DBRX, bir sonraki token tahminini kullanarak eğitilen, transformer tabanlı yalnızca decoder mimarisine sahip bir büyük dil modeli (LLM)
  • Toplam 132B parametrenin 36B'si etkin ve 12T token'lık metin ve kod verisiyle ön eğitimden geçti
  • DBRX, diğer açık MoE modellere kıyasla daha ince taneli bir yapıya sahip ve bunun model kalitesini artırdığı görülüyor

Benchmark'lardaki kalite

  • DBRX Instruct, bileşik benchmark'larda, programlama ve matematik benchmark'larında ve MMLU'da önde gelen bir model
  • DBRX Instruct, standart benchmark'larda tüm sohbet veya talimat ayarlı modelleri geride bırakıyor

Kapalı modellerle karşılaştırma

  • DBRX Instruct, GPT-3.5'i geride bırakıyor ve Gemini 1.0 Pro ile Mistral Medium karşısında rekabetçi
  • DBRX Instruct, genel bilgi, sağduyusal akıl yürütme, programlama ve matematiksel akıl yürütmede GPT-3.5'i aşıyor

Uzun bağlam görevleri ve RAG'deki kalite

  • DBRX Instruct, en fazla 32K token bağlam penceresiyle eğitildi.
  • DBRX Instruct, uzun bağlam benchmark'larında GPT-3.5 Turbo ve GPT-4 Turbo API'nin en güncel sürümleriyle karşılaştırıldı.
  • DBRX Instruct, tüm bağlam uzunluklarında ve dizilerin tüm bölümlerinde GPT-3.5 Turbo'dan daha iyi performans gösteriyor.

Eğitim verimliliği

  • DBRX MoE mimarisi ve tüm eğitim hattı, eğitim verimliliğini doğruluyor.
  • DBRX MoE mimarisi, eğitim için gereken FLOP miktarını azaltırken yüksek kalite sağlıyor.

Çıkarım verimliliği

  • DBRX, NVIDIA TensorRT-LLM kullanılarak optimize edilmiş çıkarım altyapısında yüksek çıkarım throughput'u gösteriyor.
  • MoE modelleri genellikle toplam parametre sayısına kıyasla daha hızlı çıkarım sunuyor.

DBRX nasıl oluşturuldu

  • DBRX, NVIDIA H100 kullanılarak eğitildi ve Databricks araçlarıyla geliştirildi.
  • DBRX, Databricks'in MPT ve Dolly projelerinin devamı niteliğinde geliştirildi ve müşterilerle birlikte binlerce LLM eğitildi.

Databricks'te DBRX'e başlarken

  • DBRX, Databricks Mosaic AI Foundation Model API üzerinden kolayca kullanılabiliyor.
  • DBRX, Databricks Marketplace'ten indirilip model serving için dağıtılabiliyor.

Sonuç

  • Databricks, her şirketin GenAI dünyasında kendi verisini ve kaderini kontrol edebilmesi gerektiğine inanıyor.
  • DBRX, Databricks'in yeni nesil GenAI ürünlerinin temel bileşeni.

Katkılar

  • DBRX'in geliştirilmesine Mosaic ekibi liderlik etti; Databricks'in çeşitli birimleri iş birliği yaparak çalışmayı tamamladı.

GN⁺ görüşü

  • DBRX, mevcut GPT modelleriyle rekabet edebilen yeni bir açık kaynak dil modeli olarak, özellikle kod üretimi ve programlama görevlerinde güçlü performans göstermesi beklenen bir model.
  • MoE mimarisi sayesinde DBRX'in, çıkarım hızı ve model boyutu açısından verimliliği önemli ölçüde artırdığı görülüyor. Bu da kaynak kısıtlı ortamlarda bile yüksek performanslı modellerin kullanılmasını mümkün kılabilir.
  • DBRX'in açık kaynak yaklaşımı, araştırmacıların ve geliştiricilerin modeli özgürce deneyip iyileştirmesine olanak tanıyor. Bu, yapay zeka topluluğuna önemli bir katkı olabilir.
  • DBRX'in sunduğu API ve entegre araçlar, şirketlerin kendi dil modellerini daha kolay geliştirip dağıtmasını destekliyor. Bu da şirketlerin yapay zeka teknolojilerini kullanarak rekabet gücünü artırmasına yardımcı olabilir.
  • DBRX'in yayımlanması, açık kaynak dil modellerinin gelişiminde önemli bir dönüm noktası olabilir; bu modelin gelecekte nasıl gelişeceğini ve farklı alanlarda nasıl uygulanacağını izlemek ilginç olacak.

1 yorum

 
GN⁺ 2024-03-28
Hacker News görüşleri
  • Şu anda dikkat çekmeye değer modeller:

    • Miqu 70B: genel sohbet için
    • Deepseed 33B: kodlama için
    • Yi 34B: 32K bağlam ve üzeri sohbetler için
    • Bu modellerin fine-tuning yapılmış sürümleri de mevcut
    • 34B-70B aralığında başka modeller de var, ancak Qwen modelleri etkileyici değil
    • Llama 70B, Mixtral ve Grok modelleri grafikte görünüyor ama en güncel teknik seviye (SOTA) olarak görmek zor, yalnızca Mixtral batch size 1 hızında öne çıkıyor
  • Model kartı ve kaynak gereksinimleri:

    • Model yaklaşık 264GB RAM gerektiriyor
    • Parametre sayısı yerine toplam (GPU RAM + CPU RAM) miktarı ve değerlendirme metriklerinin takip edildiği bir geçiş noktasına dair merak var
    • Örneğin, float32 kullanan 7B parametreli bir modelin, aynı parametre sayısına sahip ama float4 kullanan bir modelden daha iyi performans gösterme ihtimali yüksek
    • Son dönemde tek GPU'ya sığması için yeni çıkan iyi modellerin quantization uygulanmış örnekleri var, ancak quantize edilmiş modeller orijinaliyle aynı model olmadığı için metriklerin yeniden çalıştırılması gerekiyor
  • Büyük dil modellerinin (LLM) yakınsaması:

    • Tüm LLM'lerin aynı veriyle eğitildiğinde belirli bir noktaya yakınsadığını gösteren kanıtlar var
    • Görev performansına dair iddialar sadece iddiadan ibaret; bir sonraki Llama ya da Mixtral yine yakınsayacak
    • LLM'ler, Linux/Windows veya iOS/Android gibi, temel modeller arasında büyük farklar olmadan evriliyor gibi görünüyor
  • Karma quantization ve MoE offloading beklentisi:

    • MQQ ile Mixed Quantization ve MoE Offloading sayesinde 10GB VRAM'li bir rtx3080 üzerinde Mistral 8x7B çalıştırılabildi
    • Bu yöntem DBRX'e de uygulanabilir ve VRAM gereksinimini ciddi ölçüde azaltabilir
  • Databricks'in ticari faydası:

    • Databricks'in açık LLM'lere milyonlarca dolar yatırım yaparak hangi ticari avantajı elde edeceğine dair merak
  • Grafik karşılaştırmaları ve değerlendirme:

    • LLaMa2'nin Human Eval puanını grafiğe koyup Code Llama Instruct 70b ile karşılaştırmamak grafik suçu
    • DBRX, Code Llama Instruct'un 67.8 puanını açık ara geçmese de hâlâ etkileyici
  • Yeni GPU satın alma planı ve VRAM gereksinimleri:

    • 16GB VRAM'li bir GPU'nun 70GB modeli iyi çalıştırıp çalıştıramayacağı, ya da 12GB VRAM'li GPU'ya göre belirgin şekilde daha iyi olup olmayacağı soruluyor
    • Ollama yerelde iyi çalışıyor; mixtral (7B, 3.4GB) 1080ti üzerinde iyi çalışıyor, ancak 24.6GB sürüm biraz yavaş ve başlangıç süresi belirgin biçimde uzun
  • Base model onayına yönelik memnuniyetsizlik:

    • Base model için onay süreci pek de açık hissettirmiyor
    • Birçok kişi indirme fırsatı beklerken instruct model hemen onaylanıyor
    • Base model, fine-tuning için daha ilgi çekici
  • Eğitim verimliliğindeki iyileşme:

    • LLM ön eğitim pipeline'ının son 10 ayda neredeyse 4 kat daha hesaplama verimli hale geldiği belirtiliyor
    • Eğitim maliyeti çok yüksek olduğu için bu tür iyileşmeler memnuniyet verici ve Moore yasasını izlemesi bekleniyor
  • Kodlama değerlendirmelerinde kirlenme olasılığı:

    • Kodlama değerlendirmeleri eğitim verisi nedeniyle kirlenmiş olabilir
    • Bu tür puan şişmesini önlemek için standart bir yöntem olup olmadığı soruluyor