OpenCoder: En Üst Düzey Kod LLM'leri için Açık Cookbook

(opencoder-llm.github.io)

12 puan yazan GN⁺ 2024-11-10 | 1 yorum | WhatsApp'ta paylaş

OpenCoder, açık kaynaklı bir kod büyük dil modeli (LLM) olup 1.5B ve 8B taban ve sohbet modellerini içerir; İngilizce ve Çinceyi destekler
- 2,5 trilyon tokenden oluşan veriyle eğitilmiştir; bunun %90'ı ham koddan, %10'u ise kodla ilgili web verilerinden oluşur
- En üst düzey kod LLM'lerinin performansına ulaşır ve model ağırlıkları, çıkarım kodu, yeniden üretilebilir eğitim verisi, veri işleme hattı, deneysel ablasyon sonuçları ve ayrıntılı eğitim protokolleri sağlar
- Araştırmacıların kod yapay zekasını ilerletip yenilik yapabilmesini destekleyen açık bir platformdur
OpenCoder'in özellikleri
- Şeffaf veri işleme hattı ve yeniden üretilebilir veri kümeleri üzerine inşa edilmiş, tamamen açık kaynaklı bir kod LLM'si olarak çeşitli kod LLM değerlendirme benchmark'larında en üst düzey performansa ulaşır
- RefineCode: 607 programlama dilini kapsayan, 960 milyar tokenden oluşan yüksek kaliteli ve yeniden üretilebilir bir kod ön eğitim korpusu
- Anlamlı ablasyon çalışmaları: Farklı tasarım seçimleri ve kod LLM'lerinin eğitim stratejilerine dair anlamlı içgörüler sunmak için birden fazla ablasyon deneyi içerir
- Açık kaynak olarak sunulan kaynaklar: nihai model ağırlıkları, tam veri işleme hattı, verimli değerlendirme hattı, yeniden üretilebilir ön eğitim veri kümesi, büyük ölçekli SFT veri kümesi ve ara checkpoint'ler

1 yorum

GN⁺ 2024-11-10

Bilimsel araştırmaya katkı sağlamak için yalnızca model ağırlıkları ve çıkarım kodunu değil, aynı zamanda yeniden üretilebilir eğitim verilerini, veri işleme hattını, deneysel sonuçları ve eğitim protokolünü de açıkça paylaşıyor.
- Bu tür çalışmaların, modelin performansından bağımsız olarak herkese fayda sağladığını vurguluyor.
Test sonuçlarına göre halüsinasyon oranı yüksek ve Qwen 2.5 ya da Mistral-Nemo gibi genel modellere kıyasla performansı daha düşük.
arXiv makalesinin ana sayfa bağlantısı: https://opencoder-llm.github.io/
Qwen2.5-Coder-7B'nin HumanEval puanı 61.6 iken, Table 1'de 88.4 olarak görünmesi kafa karıştırıcıydı.
- Bunun nedeni iki farklı model olması (Qwen2.5-Coder-7B-Base 61.6, Qwen2.5-Coder-7B-Instruct 88.4).
Kod tabanındaki fork'lar ve kopyala-yapıştır nedeniyle dosyaların %75'i tamamen yinelenmiş.
- Dosya düzeyinde hash alındığı için, bunun tüm dosyanın hiç değiştirilmeden kopyalanması olup olmadığından emin olunamıyor.
Derleme ve çalıştırma metadatasını (profil oluşturma verileri vb.) içeren eğitim yapan var mı?
- Bunun modele daha verimli kod yönünde rehberlik edip edemeyeceği merak ediliyor.
İlginç bir makale, ancak model Ruby dahil bazı dillerde Qwen2.5-Coder'dan daha iyi görünmüyor.
Bu modeli çalıştırmak için nasıl bir donanım gerektiği merak ediliyor.
Tesisat önemli.
Güzel.