İnce ayar yapılmış CodeLlama-34B ile HumanEval'da GPT-4'ü geride bırakmak

(phind.com)

2 puan yazan GN⁺ 2023-08-26 | 1 yorum | WhatsApp'ta paylaş

CodeLlama-34B ve CodeLlama-34B-Python, Phind'in dahili veri kümesiyle ince ayarlandı; HumanEval'da sırasıyla %67,6 ve %69,5 pass@1 elde ederek GPT-4'ün %67'lik sonucunu aştı
Yakın zamanda yayımlanan CodeLlama modelleri HumanEval'da etkileyici performans gösterdi; CodeLlama-34B %48,8 pass@1, CodeLlama-34B-Python ise %53,7 pass@1 elde etti
Her iki model de yaklaşık 80k yüksek kaliteli programlama problemi ve çözümü içeren özel bir veri kümesi üzerinde ince ayarlandı; bu veri kümesi, kod tamamlama örnekleri yerine yönerge-cevap çiftleri içermesi bakımından HumanEval'dan yapısal olarak farklı
Modeller, DeepSpeed ZeRO 3 ve Flash Attention 2 kullanılarak iki epoch boyunca toplam 160k örnekle eğitildi; bu süreç 32 adet A100-80GB GPU, 4096 token dizi uzunluğu ile üç saatte tamamlandı
OpenAI'nin kontaminasyon giderme metodolojisi, geçerli sonuçları garanti etmek için veri kümesine uygulandı ve kontamine olmuş örnek bulunmadı. Bu metodoloji, her değerlendirme örneğinden 50 karakterden oluşan üç alt dizgiyi rastgele örnekliyor veya tüm örnek 50 karakterden kısaysa tüm örneği kullanıyor; örneklenen alt dizgilerden biri işlenmiş eğitim örneğinin bir alt dizgisi ise eşleşme olarak kabul ediyor.
İnce ayarlanmış modeller, HumanEval'da Phind-CodeLlama-34B-v1 için %67,6, Phind-CodeLlama-34B-Python-v1 için ise %69,5 pass@1 puanı elde etti
Her iki model de doğrulanabilirliği sağlamak ve açık kaynak topluluğunu desteklemek için Huggingface üzerinde yayımlandı; sonuçların bağımsız olarak doğrulanması tavsiye ediliyor

1 yorum

alstjr7375 2023-08-27

HN gönderisi.
https://news.ycombinator.com/item?id=37267597

İnce ayar yapılmış CodeLlama-34B ile HumanEval'da GPT-4'ü geride bırakmak

İlgili okumalar

1 yorum