DBRX - Yeni son teknoloji (SOTA) açık LLM

(databricks.com)

16 puan yazan GN⁺ 2024-03-28 | 1 yorum | WhatsApp'ta paylaş

Databricks, yeni açık ve genel amaçlı LLM'i DBRX'i duyurdu
Standart benchmark'larda mevcut açık LLM'leri geride bırakan yeni bir en üst seviye model olup, daha önce kapalı model API'leriyle sınırlı olan yetenekleri açık topluluk ve şirketlere sunuyor
- GPT-3.5'i geride bırakıyor ve Gemini 1.0 Pro ile de rekabet edebiliyor
- Kod alanında da CodeLLaMA-70B gibi uzman modellere üstün geliyor
DBRX, eğitim ve çıkarım performansında belirgin iyileşmeler gösteriyor
- Verimliliği artırmak için ince taneli bir Mixture-of-Experts (MoE) mimarisi kullanıyor
- Çıkarım hızı LLaMA2-70B'den 2 kata kadar daha hızlı ve Grok-1'e kıyasla boyutu yaklaşık %40 daha küçük

DBRX'in yapısı

DBRX, bir sonraki token tahminini kullanarak eğitilen, transformer tabanlı yalnızca decoder mimarisine sahip bir büyük dil modeli (LLM)
Toplam 132B parametrenin 36B'si etkin ve 12T token'lık metin ve kod verisiyle ön eğitimden geçti
DBRX, diğer açık MoE modellere kıyasla daha ince taneli bir yapıya sahip ve bunun model kalitesini artırdığı görülüyor

Benchmark'lardaki kalite

DBRX Instruct, bileşik benchmark'larda, programlama ve matematik benchmark'larında ve MMLU'da önde gelen bir model
DBRX Instruct, standart benchmark'larda tüm sohbet veya talimat ayarlı modelleri geride bırakıyor

Kapalı modellerle karşılaştırma

DBRX Instruct, GPT-3.5'i geride bırakıyor ve Gemini 1.0 Pro ile Mistral Medium karşısında rekabetçi
DBRX Instruct, genel bilgi, sağduyusal akıl yürütme, programlama ve matematiksel akıl yürütmede GPT-3.5'i aşıyor

Uzun bağlam görevleri ve RAG'deki kalite

DBRX Instruct, en fazla 32K token bağlam penceresiyle eğitildi.
DBRX Instruct, uzun bağlam benchmark'larında GPT-3.5 Turbo ve GPT-4 Turbo API'nin en güncel sürümleriyle karşılaştırıldı.
DBRX Instruct, tüm bağlam uzunluklarında ve dizilerin tüm bölümlerinde GPT-3.5 Turbo'dan daha iyi performans gösteriyor.

Eğitim verimliliği

DBRX MoE mimarisi ve tüm eğitim hattı, eğitim verimliliğini doğruluyor.
DBRX MoE mimarisi, eğitim için gereken FLOP miktarını azaltırken yüksek kalite sağlıyor.

Çıkarım verimliliği

DBRX, NVIDIA TensorRT-LLM kullanılarak optimize edilmiş çıkarım altyapısında yüksek çıkarım throughput'u gösteriyor.
MoE modelleri genellikle toplam parametre sayısına kıyasla daha hızlı çıkarım sunuyor.

DBRX nasıl oluşturuldu

DBRX, NVIDIA H100 kullanılarak eğitildi ve Databricks araçlarıyla geliştirildi.
DBRX, Databricks'in MPT ve Dolly projelerinin devamı niteliğinde geliştirildi ve müşterilerle birlikte binlerce LLM eğitildi.

Databricks'te DBRX'e başlarken

DBRX, Databricks Mosaic AI Foundation Model API üzerinden kolayca kullanılabiliyor.
DBRX, Databricks Marketplace'ten indirilip model serving için dağıtılabiliyor.

Sonuç

Databricks, her şirketin GenAI dünyasında kendi verisini ve kaderini kontrol edebilmesi gerektiğine inanıyor.
DBRX, Databricks'in yeni nesil GenAI ürünlerinin temel bileşeni.

Katkılar

DBRX'in geliştirilmesine Mosaic ekibi liderlik etti; Databricks'in çeşitli birimleri iş birliği yaparak çalışmayı tamamladı.

GN⁺ görüşü

DBRX, mevcut GPT modelleriyle rekabet edebilen yeni bir açık kaynak dil modeli olarak, özellikle kod üretimi ve programlama görevlerinde güçlü performans göstermesi beklenen bir model.
MoE mimarisi sayesinde DBRX'in, çıkarım hızı ve model boyutu açısından verimliliği önemli ölçüde artırdığı görülüyor. Bu da kaynak kısıtlı ortamlarda bile yüksek performanslı modellerin kullanılmasını mümkün kılabilir.
DBRX'in açık kaynak yaklaşımı, araştırmacıların ve geliştiricilerin modeli özgürce deneyip iyileştirmesine olanak tanıyor. Bu, yapay zeka topluluğuna önemli bir katkı olabilir.
DBRX'in sunduğu API ve entegre araçlar, şirketlerin kendi dil modellerini daha kolay geliştirip dağıtmasını destekliyor. Bu da şirketlerin yapay zeka teknolojilerini kullanarak rekabet gücünü artırmasına yardımcı olabilir.
DBRX'in yayımlanması, açık kaynak dil modellerinin gelişiminde önemli bir dönüm noktası olabilir; bu modelin gelecekte nasıl gelişeceğini ve farklı alanlarda nasıl uygulanacağını izlemek ilginç olacak.

1 yorum

GN⁺ 2024-03-28

Hacker News görüşleri

Şu anda dikkat çekmeye değer modeller:
- Miqu 70B: genel sohbet için
- Deepseed 33B: kodlama için
- Yi 34B: 32K bağlam ve üzeri sohbetler için
- Bu modellerin fine-tuning yapılmış sürümleri de mevcut
- 34B-70B aralığında başka modeller de var, ancak Qwen modelleri etkileyici değil
- Llama 70B, Mixtral ve Grok modelleri grafikte görünüyor ama en güncel teknik seviye (SOTA) olarak görmek zor, yalnızca Mixtral batch size 1 hızında öne çıkıyor
Model kartı ve kaynak gereksinimleri:
- Model yaklaşık 264GB RAM gerektiriyor
- Parametre sayısı yerine toplam (GPU RAM + CPU RAM) miktarı ve değerlendirme metriklerinin takip edildiği bir geçiş noktasına dair merak var
- Örneğin, float32 kullanan 7B parametreli bir modelin, aynı parametre sayısına sahip ama float4 kullanan bir modelden daha iyi performans gösterme ihtimali yüksek
- Son dönemde tek GPU'ya sığması için yeni çıkan iyi modellerin quantization uygulanmış örnekleri var, ancak quantize edilmiş modeller orijinaliyle aynı model olmadığı için metriklerin yeniden çalıştırılması gerekiyor
Büyük dil modellerinin (LLM) yakınsaması:
- Tüm LLM'lerin aynı veriyle eğitildiğinde belirli bir noktaya yakınsadığını gösteren kanıtlar var
- Görev performansına dair iddialar sadece iddiadan ibaret; bir sonraki Llama ya da Mixtral yine yakınsayacak
- LLM'ler, Linux/Windows veya iOS/Android gibi, temel modeller arasında büyük farklar olmadan evriliyor gibi görünüyor
Karma quantization ve MoE offloading beklentisi:
- MQQ ile Mixed Quantization ve MoE Offloading sayesinde 10GB VRAM'li bir rtx3080 üzerinde Mistral 8x7B çalıştırılabildi
- Bu yöntem DBRX'e de uygulanabilir ve VRAM gereksinimini ciddi ölçüde azaltabilir
Databricks'in ticari faydası:
- Databricks'in açık LLM'lere milyonlarca dolar yatırım yaparak hangi ticari avantajı elde edeceğine dair merak
Grafik karşılaştırmaları ve değerlendirme:
- LLaMa2'nin Human Eval puanını grafiğe koyup Code Llama Instruct 70b ile karşılaştırmamak grafik suçu
- DBRX, Code Llama Instruct'un 67.8 puanını açık ara geçmese de hâlâ etkileyici
Yeni GPU satın alma planı ve VRAM gereksinimleri:
- 16GB VRAM'li bir GPU'nun 70GB modeli iyi çalıştırıp çalıştıramayacağı, ya da 12GB VRAM'li GPU'ya göre belirgin şekilde daha iyi olup olmayacağı soruluyor
- Ollama yerelde iyi çalışıyor; mixtral (7B, 3.4GB) 1080ti üzerinde iyi çalışıyor, ancak 24.6GB sürüm biraz yavaş ve başlangıç süresi belirgin biçimde uzun
Base model onayına yönelik memnuniyetsizlik:
- Base model için onay süreci pek de açık hissettirmiyor
- Birçok kişi indirme fırsatı beklerken instruct model hemen onaylanıyor
- Base model, fine-tuning için daha ilgi çekici
Eğitim verimliliğindeki iyileşme:
- LLM ön eğitim pipeline'ının son 10 ayda neredeyse 4 kat daha hesaplama verimli hale geldiği belirtiliyor
- Eğitim maliyeti çok yüksek olduğu için bu tür iyileşmeler memnuniyet verici ve Moore yasasını izlemesi bekleniyor
Kodlama değerlendirmelerinde kirlenme olasılığı:
- Kodlama değerlendirmeleri eğitim verisi nedeniyle kirlenmiş olabilir
- Bu tür puan şişmesini önlemek için standart bir yöntem olup olmadığı soruluyor

DBRX - Yeni son teknoloji (SOTA) açık LLM

DBRX'in yapısı

Benchmark'lardaki kalite

Kapalı modellerle karşılaştırma

Uzun bağlam görevleri ve RAG'deki kalite

Eğitim verimliliği

Çıkarım verimliliği

DBRX nasıl oluşturuldu

Databricks'te DBRX'e başlarken

Sonuç

Katkılar

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri