5 puan yazan GN⁺ 2023-07-19 | 1 yorum | WhatsApp'ta paylaş
  • Araştırma ve ticari kullanımın ikisi için de kullanılabilen açık kaynaklı büyük dil modeli
  • Llama 1'e kıyasla %40 daha fazla, 2 trilyon token verisiyle eğitildi
  • 2 kat bağlam uzunluğu: 4096
  • Üç model boyutu: 7B, 13B, 70B
  • Çıkarım, kodlama, yeterlilik ve bilgi testleri gibi birçok benchmark'ta diğer açık kaynak dil modellerinden daha iyi performans (MPT, Falcon, Llama-1)
  • Açık veri kaynaklarıyla eğitildi; ayrıca ince ayar yapılmış Llama-2-chat de açık komut veri setleri ve bir milyondan fazla insan anotasyonunu kullanıyor
    • Reinforcement Learning from Human Feedback (RLHF) kullanıldı. Rejection Sampling ve Proximal Policy Optimization (PPO) dahil
  • İndirmeye dahil olanlar
    • Model code
    • Model Weights
    • README (User Guide)
    • Responsible Use Guide
    • License
    • Acceptable Use Policy
    • Model Card

1 yorum

 
GN⁺ 2023-07-19
Hacker News yorumları
  • Llama 2, belirli benchmark'larda GPT-3.5'i geçiyor ve ona yetişiyor
  • Llama 2, AI2 Reasoning Challenge, HellaSwag ve MMLU testlerinde üstün performans gösteriyor
  • Llama 2, GPT-3.5'e benzer performansa sahipken daha az parametre kullanıyor
  • Llama 2 kolayca test edilebiliyor ve uygulamalara eklenebiliyor
  • Llama 2, bazı kullanıcıların eleştirdiği kapalı bir lisansa sahip
  • Llama 2'ye çeşitli araçlar ve platformlar üzerinden erişilebiliyor
  • Llama 2, bazı durumlarda aşılabilen guardrail'lere sahip
  • Llama 2'nin yayımlanması, sektör için faydalı olumlu bir adım olarak görülüyor
  • Llama 2'nin 2T token ile eğitilmesi, Llama 1'e kıyasla performansı artırdı
  • Llama modellerinin ölçeklenmesi, tüketici GPU'larında güçlü modellerin ortaya çıkmasını sağlayabilir