12 puan yazan GN⁺ 2024-11-10 | 1 yorum | WhatsApp'ta paylaş
  • OpenCoder, açık kaynaklı bir kod büyük dil modeli (LLM) olup 1.5B ve 8B taban ve sohbet modellerini içerir; İngilizce ve Çinceyi destekler
    • 2,5 trilyon tokenden oluşan veriyle eğitilmiştir; bunun %90'ı ham koddan, %10'u ise kodla ilgili web verilerinden oluşur
    • En üst düzey kod LLM'lerinin performansına ulaşır ve model ağırlıkları, çıkarım kodu, yeniden üretilebilir eğitim verisi, veri işleme hattı, deneysel ablasyon sonuçları ve ayrıntılı eğitim protokolleri sağlar
    • Araştırmacıların kod yapay zekasını ilerletip yenilik yapabilmesini destekleyen açık bir platformdur
  • OpenCoder'in özellikleri
    • Şeffaf veri işleme hattı ve yeniden üretilebilir veri kümeleri üzerine inşa edilmiş, tamamen açık kaynaklı bir kod LLM'si olarak çeşitli kod LLM değerlendirme benchmark'larında en üst düzey performansa ulaşır
    • RefineCode: 607 programlama dilini kapsayan, 960 milyar tokenden oluşan yüksek kaliteli ve yeniden üretilebilir bir kod ön eğitim korpusu
    • Anlamlı ablasyon çalışmaları: Farklı tasarım seçimleri ve kod LLM'lerinin eğitim stratejilerine dair anlamlı içgörüler sunmak için birden fazla ablasyon deneyi içerir
    • Açık kaynak olarak sunulan kaynaklar: nihai model ağırlıkları, tam veri işleme hattı, verimli değerlendirme hattı, yeniden üretilebilir ön eğitim veri kümesi, büyük ölçekli SFT veri kümesi ve ara checkpoint'ler

1 yorum

 
GN⁺ 2024-11-10
Hacker News görüşleri
  • Bilimsel araştırmaya katkı sağlamak için yalnızca model ağırlıkları ve çıkarım kodunu değil, aynı zamanda yeniden üretilebilir eğitim verilerini, veri işleme hattını, deneysel sonuçları ve eğitim protokolünü de açıkça paylaşıyor.

    • Bu tür çalışmaların, modelin performansından bağımsız olarak herkese fayda sağladığını vurguluyor.
  • Test sonuçlarına göre halüsinasyon oranı yüksek ve Qwen 2.5 ya da Mistral-Nemo gibi genel modellere kıyasla performansı daha düşük.

  • arXiv makalesinin ana sayfa bağlantısı: https://opencoder-llm.github.io/

  • Qwen2.5-Coder-7B'nin HumanEval puanı 61.6 iken, Table 1'de 88.4 olarak görünmesi kafa karıştırıcıydı.

    • Bunun nedeni iki farklı model olması (Qwen2.5-Coder-7B-Base 61.6, Qwen2.5-Coder-7B-Instruct 88.4).
  • Kod tabanındaki fork'lar ve kopyala-yapıştır nedeniyle dosyaların %75'i tamamen yinelenmiş.

    • Dosya düzeyinde hash alındığı için, bunun tüm dosyanın hiç değiştirilmeden kopyalanması olup olmadığından emin olunamıyor.
  • Derleme ve çalıştırma metadatasını (profil oluşturma verileri vb.) içeren eğitim yapan var mı?

    • Bunun modele daha verimli kod yönünde rehberlik edip edemeyeceği merak ediliyor.
  • İlginç bir makale, ancak model Ruby dahil bazı dillerde Qwen2.5-Coder'dan daha iyi görünmüyor.

  • Bu modeli çalıştırmak için nasıl bir donanım gerektiği merak ediliyor.

  • Tesisat önemli.

  • Güzel.