- OpenCoder, açık kaynaklı bir kod büyük dil modeli (LLM) olup 1.5B ve 8B taban ve sohbet modellerini içerir; İngilizce ve Çinceyi destekler
- 2,5 trilyon tokenden oluşan veriyle eğitilmiştir; bunun %90'ı ham koddan, %10'u ise kodla ilgili web verilerinden oluşur
- En üst düzey kod LLM'lerinin performansına ulaşır ve model ağırlıkları, çıkarım kodu, yeniden üretilebilir eğitim verisi, veri işleme hattı, deneysel ablasyon sonuçları ve ayrıntılı eğitim protokolleri sağlar
- Araştırmacıların kod yapay zekasını ilerletip yenilik yapabilmesini destekleyen açık bir platformdur
- OpenCoder'in özellikleri
- Şeffaf veri işleme hattı ve yeniden üretilebilir veri kümeleri üzerine inşa edilmiş, tamamen açık kaynaklı bir kod LLM'si olarak çeşitli kod LLM değerlendirme benchmark'larında en üst düzey performansa ulaşır
- RefineCode: 607 programlama dilini kapsayan, 960 milyar tokenden oluşan yüksek kaliteli ve yeniden üretilebilir bir kod ön eğitim korpusu
- Anlamlı ablasyon çalışmaları: Farklı tasarım seçimleri ve kod LLM'lerinin eğitim stratejilerine dair anlamlı içgörüler sunmak için birden fazla ablasyon deneyi içerir
- Açık kaynak olarak sunulan kaynaklar: nihai model ağırlıkları, tam veri işleme hattı, verimli değerlendirme hattı, yeniden üretilebilir ön eğitim veri kümesi, büyük ölçekli SFT veri kümesi ve ara checkpoint'ler
1 yorum
Hacker News görüşleri
Bilimsel araştırmaya katkı sağlamak için yalnızca model ağırlıkları ve çıkarım kodunu değil, aynı zamanda yeniden üretilebilir eğitim verilerini, veri işleme hattını, deneysel sonuçları ve eğitim protokolünü de açıkça paylaşıyor.
Test sonuçlarına göre halüsinasyon oranı yüksek ve Qwen 2.5 ya da Mistral-Nemo gibi genel modellere kıyasla performansı daha düşük.
arXiv makalesinin ana sayfa bağlantısı: https://opencoder-llm.github.io/
Qwen2.5-Coder-7B'nin HumanEval puanı 61.6 iken, Table 1'de 88.4 olarak görünmesi kafa karıştırıcıydı.
Kod tabanındaki fork'lar ve kopyala-yapıştır nedeniyle dosyaların %75'i tamamen yinelenmiş.
Derleme ve çalıştırma metadatasını (profil oluşturma verileri vb.) içeren eğitim yapan var mı?
İlginç bir makale, ancak model Ruby dahil bazı dillerde Qwen2.5-Coder'dan daha iyi görünmüyor.
Bu modeli çalıştırmak için nasıl bir donanım gerektiği merak ediliyor.
Tesisat önemli.
Güzel.