- CodeLlama-34B ve CodeLlama-34B-Python, Phind'in dahili veri kümesiyle ince ayarlandı; HumanEval'da sırasıyla %67,6 ve %69,5 pass@1 elde ederek GPT-4'ün %67'lik sonucunu aştı
- Yakın zamanda yayımlanan CodeLlama modelleri HumanEval'da etkileyici performans gösterdi; CodeLlama-34B %48,8 pass@1, CodeLlama-34B-Python ise %53,7 pass@1 elde etti
- Her iki model de yaklaşık 80k yüksek kaliteli programlama problemi ve çözümü içeren özel bir veri kümesi üzerinde ince ayarlandı; bu veri kümesi, kod tamamlama örnekleri yerine yönerge-cevap çiftleri içermesi bakımından HumanEval'dan yapısal olarak farklı
- Modeller, DeepSpeed ZeRO 3 ve Flash Attention 2 kullanılarak iki epoch boyunca toplam 160k örnekle eğitildi; bu süreç 32 adet A100-80GB GPU, 4096 token dizi uzunluğu ile üç saatte tamamlandı
- OpenAI'nin kontaminasyon giderme metodolojisi, geçerli sonuçları garanti etmek için veri kümesine uygulandı ve kontamine olmuş örnek bulunmadı. Bu metodoloji, her değerlendirme örneğinden 50 karakterden oluşan üç alt dizgiyi rastgele örnekliyor veya tüm örnek 50 karakterden kısaysa tüm örneği kullanıyor; örneklenen alt dizgilerden biri işlenmiş eğitim örneğinin bir alt dizgisi ise eşleşme olarak kabul ediyor.
- İnce ayarlanmış modeller, HumanEval'da Phind-CodeLlama-34B-v1 için %67,6, Phind-CodeLlama-34B-Python-v1 için ise %69,5 pass@1 puanı elde etti
- Her iki model de doğrulanabilirliği sağlamak ve açık kaynak topluluğunu desteklemek için Huggingface üzerinde yayımlandı; sonuçların bağımsız olarak doğrulanması tavsiye ediliyor
1 yorum
HN gönderisi.
https://news.ycombinator.com/item?id=37267597