- Databricks, yeni açık ve genel amaçlı LLM'i DBRX'i duyurdu
- Standart benchmark'larda mevcut açık LLM'leri geride bırakan yeni bir en üst seviye model olup, daha önce kapalı model API'leriyle sınırlı olan yetenekleri açık topluluk ve şirketlere sunuyor
- GPT-3.5'i geride bırakıyor ve Gemini 1.0 Pro ile de rekabet edebiliyor
- Kod alanında da CodeLLaMA-70B gibi uzman modellere üstün geliyor
- DBRX, eğitim ve çıkarım performansında belirgin iyileşmeler gösteriyor
- Verimliliği artırmak için ince taneli bir Mixture-of-Experts (MoE) mimarisi kullanıyor
- Çıkarım hızı LLaMA2-70B'den 2 kata kadar daha hızlı ve Grok-1'e kıyasla boyutu yaklaşık %40 daha küçük
DBRX'in yapısı
- DBRX, bir sonraki token tahminini kullanarak eğitilen, transformer tabanlı yalnızca decoder mimarisine sahip bir büyük dil modeli (LLM)
- Toplam 132B parametrenin 36B'si etkin ve 12T token'lık metin ve kod verisiyle ön eğitimden geçti
- DBRX, diğer açık MoE modellere kıyasla daha ince taneli bir yapıya sahip ve bunun model kalitesini artırdığı görülüyor
Benchmark'lardaki kalite
- DBRX Instruct, bileşik benchmark'larda, programlama ve matematik benchmark'larında ve MMLU'da önde gelen bir model
- DBRX Instruct, standart benchmark'larda tüm sohbet veya talimat ayarlı modelleri geride bırakıyor
Kapalı modellerle karşılaştırma
- DBRX Instruct, GPT-3.5'i geride bırakıyor ve Gemini 1.0 Pro ile Mistral Medium karşısında rekabetçi
- DBRX Instruct, genel bilgi, sağduyusal akıl yürütme, programlama ve matematiksel akıl yürütmede GPT-3.5'i aşıyor
Uzun bağlam görevleri ve RAG'deki kalite
- DBRX Instruct, en fazla 32K token bağlam penceresiyle eğitildi.
- DBRX Instruct, uzun bağlam benchmark'larında GPT-3.5 Turbo ve GPT-4 Turbo API'nin en güncel sürümleriyle karşılaştırıldı.
- DBRX Instruct, tüm bağlam uzunluklarında ve dizilerin tüm bölümlerinde GPT-3.5 Turbo'dan daha iyi performans gösteriyor.
Eğitim verimliliği
- DBRX MoE mimarisi ve tüm eğitim hattı, eğitim verimliliğini doğruluyor.
- DBRX MoE mimarisi, eğitim için gereken FLOP miktarını azaltırken yüksek kalite sağlıyor.
Çıkarım verimliliği
- DBRX, NVIDIA TensorRT-LLM kullanılarak optimize edilmiş çıkarım altyapısında yüksek çıkarım throughput'u gösteriyor.
- MoE modelleri genellikle toplam parametre sayısına kıyasla daha hızlı çıkarım sunuyor.
DBRX nasıl oluşturuldu
- DBRX, NVIDIA H100 kullanılarak eğitildi ve Databricks araçlarıyla geliştirildi.
- DBRX, Databricks'in MPT ve Dolly projelerinin devamı niteliğinde geliştirildi ve müşterilerle birlikte binlerce LLM eğitildi.
Databricks'te DBRX'e başlarken
- DBRX, Databricks Mosaic AI Foundation Model API üzerinden kolayca kullanılabiliyor.
- DBRX, Databricks Marketplace'ten indirilip model serving için dağıtılabiliyor.
Sonuç
- Databricks, her şirketin GenAI dünyasında kendi verisini ve kaderini kontrol edebilmesi gerektiğine inanıyor.
- DBRX, Databricks'in yeni nesil GenAI ürünlerinin temel bileşeni.
Katkılar
- DBRX'in geliştirilmesine Mosaic ekibi liderlik etti; Databricks'in çeşitli birimleri iş birliği yaparak çalışmayı tamamladı.
GN⁺ görüşü
- DBRX, mevcut GPT modelleriyle rekabet edebilen yeni bir açık kaynak dil modeli olarak, özellikle kod üretimi ve programlama görevlerinde güçlü performans göstermesi beklenen bir model.
- MoE mimarisi sayesinde DBRX'in, çıkarım hızı ve model boyutu açısından verimliliği önemli ölçüde artırdığı görülüyor. Bu da kaynak kısıtlı ortamlarda bile yüksek performanslı modellerin kullanılmasını mümkün kılabilir.
- DBRX'in açık kaynak yaklaşımı, araştırmacıların ve geliştiricilerin modeli özgürce deneyip iyileştirmesine olanak tanıyor. Bu, yapay zeka topluluğuna önemli bir katkı olabilir.
- DBRX'in sunduğu API ve entegre araçlar, şirketlerin kendi dil modellerini daha kolay geliştirip dağıtmasını destekliyor. Bu da şirketlerin yapay zeka teknolojilerini kullanarak rekabet gücünü artırmasına yardımcı olabilir.
- DBRX'in yayımlanması, açık kaynak dil modellerinin gelişiminde önemli bir dönüm noktası olabilir; bu modelin gelecekte nasıl gelişeceğini ve farklı alanlarda nasıl uygulanacağını izlemek ilginç olacak.
1 yorum
Hacker News görüşleri
Şu anda dikkat çekmeye değer modeller:
Model kartı ve kaynak gereksinimleri:
float32kullanan 7B parametreli bir modelin, aynı parametre sayısına sahip amafloat4kullanan bir modelden daha iyi performans gösterme ihtimali yüksekBüyük dil modellerinin (LLM) yakınsaması:
Karma quantization ve MoE offloading beklentisi:
Databricks'in ticari faydası:
Grafik karşılaştırmaları ve değerlendirme:
Yeni GPU satın alma planı ve VRAM gereksinimleri:
Base model onayına yönelik memnuniyetsizlik:
Eğitim verimliliğindeki iyileşme:
Kodlama değerlendirmelerinde kirlenme olasılığı: