Meta Llama 3 duyurusundan sonra ilk haftada yaşananlar
(ai.meta.com)- 18/4'te Llama 3 modelinin yayımlanmasının ardından geliştirici topluluğunun tepkisi muazzamdı
- Model 1,2 milyondan fazla indirildi ve geliştiriciler Hugging Face'te 600'den fazla türev model paylaştı
- Llama 3 GitHub deposu 17.000'den fazla yıldız aldı
- LMSYS Chatbot Arena liderlik tablosunda Llama 3 70B Instruct modeli, yalnızca İngilizce değerlendirmede 1. sırayı aldı ve genel sıralamada 6. olarak açık modeller arasında en yüksek sıraya yerleşti (kapalı sahipli modellerin ardından)
Llama 3'ün ilk kullanım örnekleri
- Silikon, donanım ve bulut sağlayıcısı iş ortakları Llama 3'ü kullanıcılarına sunmaya başladı
- Yale Üniversitesi Tıp Fakültesi, EPFL Bilgisayar ve İletişim Bilimleri Okulu ile birlikte, Llama 3'ün çıkışından 24 saat sonra modeli fine-tune ederek tıp alanındaki ilk Llama 3 8B modeli olan Llama-3[8B]-MeditronV1.0'ı tanıttı
- Bu yeni model, MedQA ve MedMCQA gibi standart benchmark'larda aynı parametre sınıfındaki tüm güncel açık modelleri geride bıraktı
- Yale Üniversitesi ve EPFL'nin Llama 2 tabanlı Meditron'un ilk sürümünü nasıl geliştirdiğine dair ayrıntılar ilgili bağlantıda bulunabilir
Llama 3 için gelecek planları
- Önümüzdeki birkaç ay içinde multimodal, çok dilli diyalog, daha uzun context window ve genel yetenek iyileştirmeleri gibi yeni özelliklere sahip modeller yayımlanacak
- Yakında daha fazla ayrıntı paylaşılması ve topluluk odaklı inovasyonun bir sonraki dalgasının görülmesi bekleniyor
3 yorum
Yerli büyük şirketlerin LLM’leri giderek rekabet gücünü daha da kaybediyor. Eğer stratejileri kapalı model olmaksa, performans açısından yeterince rekabetçi olmaları gerekir; yok performans düşük olsa bile kullanım alanlarını genişletmek stratejiyse, o zaman Korece merkezli olmayı öne çıkarmamaları gerekir; ama şu anda tam tersini yapıyorlar.
Korece leaderboard’da anlamsız ağırlık rekabeti yapıp bununla haber çıkararak hisse fiyatını korumaya çalışıyorlar, hahaha