35 puan yazan xguru 2023-04-14 | 1 yorum | WhatsApp'ta paylaş
  • Dünyanın ilk gerçekten açık instruction-tuned LLM'i
  • Tüm eğitim kodu, veri seti ve model ağırlıkları tamamen açık. Yani bireyler ya da şirketler, kendi güçlü LLM'lerini oluşturup sahip olabilir
  • İnsanlar tarafından oluşturulmuş komutlardan oluşan databricks-dolly-15k veri setiyle ince ayar yapıldı
    • 15.000 istem/yanıt çifti. Herkes tarafından değiştirilebilir/genişletilebilir ve ticari amaçla da kullanılabilir
      • (Alpaca, Koala, GPT4All, Vicuna vb. ise ticari kullanım için uygun değil)
    • Bu veri, 5 bin Databricks çalışanı tarafından doğrudan yazıldı
  • EleutherAI pythia 12B parametreli dil modeli temel alınıyor

1 yorum

 
kuroneko 2023-04-14

LLM eğitimi için soru seti oluşturmak üzere şirket çalışanlarına açık bir sohbet başlatmışlar; beklenenden çok daha fazla katılım olunca işlerini aksatmasın diye erken kapatmış olmaları gerçekten çok eğlenceli.

Neyse, böyle büyük bir şirketin cesur bir yatırımla yüksek kaliteli bir veri setini tamamen açık kaynak (CC BY-SA 3.0) olarak yayımlamış olması gerçekten övgüyü hak ediyor.
Böyle şirketler yavaş yavaş artıp katılım da çoğalırsa, bir gün GPT-4 seviyesinde ticari kullanıma uygun bir açık kaynak model ortaya çıkmaz mı?