- Dünyanın ilk gerçekten açık
instruction-tunedLLM'i - Tüm eğitim kodu, veri seti ve model ağırlıkları tamamen açık. Yani bireyler ya da şirketler, kendi güçlü LLM'lerini oluşturup sahip olabilir
- İnsanlar tarafından oluşturulmuş komutlardan oluşan
databricks-dolly-15kveri setiyle ince ayar yapıldı- 15.000 istem/yanıt çifti. Herkes tarafından değiştirilebilir/genişletilebilir ve ticari amaçla da kullanılabilir
- (
Alpaca,Koala,GPT4All,Vicunavb. ise ticari kullanım için uygun değil)
- (
- Bu veri, 5 bin Databricks çalışanı tarafından doğrudan yazıldı
- 15.000 istem/yanıt çifti. Herkes tarafından değiştirilebilir/genişletilebilir ve ticari amaçla da kullanılabilir
- EleutherAI
pythia12B parametreli dil modeli temel alınıyor
1 yorum
LLM eğitimi için soru seti oluşturmak üzere şirket çalışanlarına açık bir sohbet başlatmışlar; beklenenden çok daha fazla katılım olunca işlerini aksatmasın diye erken kapatmış olmaları gerçekten çok eğlenceli.
Neyse, böyle büyük bir şirketin cesur bir yatırımla yüksek kaliteli bir veri setini tamamen açık kaynak (CC BY-SA 3.0) olarak yayımlamış olması gerçekten övgüyü hak ediyor.
Böyle şirketler yavaş yavaş artıp katılım da çoğalırsa, bir gün GPT-4 seviyesinde ticari kullanıma uygun bir açık kaynak model ortaya çıkmaz mı?