6 puan yazan GN⁺ 2024-09-06 | 2 yorum | WhatsApp'ta paylaş
  • Yi-Coder, 10 milyardan az parametreyle son teknoloji kodlama performansı sunan açık kaynaklı büyük dil modeli (LLM)
  • 1.5B ve 9B parametreli iki boyutta sunuluyor; verimli çıkarım ve esnek eğitim için hem temel sürüm hem de sohbet sürümü tasarlandı
  • Yi-Coder-9B, GitHub’daki depo düzeyinde kod külliyatı ve CommonCrawl’dan filtrelenen kodla ilgili verilerden elde edilen 2.4T yüksek kaliteli token eklenerek Yi-9B temel alınarak oluşturuldu

Yi-Coder’ın başlıca özellikleri

  • 2.4 trilyon yüksek kaliteli token ile 52 ana programlama dili üzerinde ön eğitim aldı
  • Uzun bağlam modelleme: En fazla 128K tokenlık bağlam penceresiyle proje düzeyinde kod anlama ve üretimi mümkün
  • Küçük ama güçlü: Yi-Coder-9B, CodeQwen1.5 7B ve CodeGeex4 9B gibi 10 milyardan az parametreye sahip diğer modelleri geride bırakıyor, hatta DeepSeek-Coder 33B ile eşdeğer performansa ulaşıyor

Yi-Coder etkileyici kodlama performansı sunuyor

LiveCodeBench

  • LiveCodeBench, LLM’ler için kapsamlı ve adil bir rekabetçi programlama değerlendirmesi sunmak üzere tasarlanmış, herkese açık bir platform
  • Yi-Coder-9B-Chat, etkileyici bir şekilde %23.4 geçme oranına ulaştı ve 10B’den az parametreye sahip modeller arasında %20’yi aşan tek model oldu
  • Bu performans, DeepSeek-Coder-33B-Instruct (%22.3), CodeGeex4-All-9B (%17.8), CodeLlama-34B-Instruct (%13.3), CodeQwen1.5-7B-Chat (%12) modellerini geride bırakıyor

HumanEval, MBPP ve CRUXEval-O

  • Yi-Coder-9B-Chat, HumanEval’de %85.4 ve MBPP’de %73.8 geçme oranına ulaşarak diğer kod LLM’lerini geride bıraktı
  • Ayrıca Yi-Coder 9B, CRUXEval-O’da %50’nin üzerinde doğruluğa ulaşan ilk açık kaynak kod LLM’i oldu

Yi-Coder kod düzenleme ve tamamlama işlerinde öne çıkıyor

CodeEditorBench

  • Yi-Coder-9B, açık kaynak kod LLM’leri arasında etkileyici bir ortalama kazanma oranı elde ediyor ve hem primary hem de plus alt kümelerinde DeepSeek-Coder-33B-Instruct ile CodeQwen1.5-7B-Chat’i sürekli olarak geride bırakıyor

CrossCodeEval

  • Yi-Coder, hem aramalı hem de aramasız senaryolarda Python ve Java veri kümelerinin tamamında benzer ölçekteki diğer modelleri geride bırakıyor
  • Bu da, yazılım deposu düzeyindeki kod külliyatı üzerinde daha uzun bağlam uzunluğu ile eğitimin, Yi-Coder’ın uzun vadeli bağımlılıkları etkili biçimde yakalamasını sağladığını ve bunun üstün performansa katkı verdiğini doğruluyor

Yi-Coder 128K uzun bağlamı modelleyebiliyor

Kod içindeki iğne

  • Yi-Coder’ın uzun bağlam modelleme yeteneğini test etmek için 128K uzunluğunda diziler kullanan "Kod içindeki iğne" adlı sentetik bir görev oluşturuldu
  • Bu görevde basit bir özel fonksiyon, uzun bir kod tabanına rastgele ekleniyor ve modelin kod tabanının sonunda bu fonksiyonu yeniden üretip üretemediği test ediliyor
  • Bu, LLM’in uzun bağlamda temel bilgiyi çıkarıp çıkaramadığını değerlendirerek uzun dizileri anlama konusundaki temel yeteneğini yansıtıyor
  • Yi-Coder-9B, bu görevi 128K uzunluk aralığında kusursuz biçimde tamamladı

Yi-Coder matematiksel akıl yürütmede de parlıyor

Program destekli matematiksel akıl yürütme

  • Yi-Coder, program destekli kurulumda (PAL: Program-aided Language Models) 7 matematiksel akıl yürütme kıyaslamasında değerlendirildi
  • Yi-Coder-9B, dikkat çekici bir şekilde %70.3 doğruluğa ulaşarak DeepSeek-Coder-33B’nin %65.8’ini geride bıraktı

Sonuç

  • Yi-Coder 1.5B/9B’yi hem temel sürüm hem de sohbet sürümüyle topluluğa açık kaynak olarak sunuyoruz
  • Yi-Coder; temel ve rekabetçi programlama, kod düzenleme ve depo düzeyinde tamamlama, uzun bağlam anlama ve matematiksel akıl yürütme dahil çeşitli görevlerde dikkat çekici performans gösteriyor
  • Yi-Coder’ın küçük ölçekli kod LLM’lerinin sınırlarını genişleterek yazılım geliştirmeyi hızlandırıp dönüştürebilecek kullanım senaryolarının önünü açabileceğine inanıyoruz

GN⁺ özeti

  • Yi-Coder’ın avantajı, az sayıda parametreyle bile en güncel kodlama performansını sunabilmesi. Bu, ChatGPT gibi büyük LLM’lerin gerektirdiği devasa hesaplama kaynakları olmadan da güçlü kodlama desteğini mümkün kılabilir
  • Yi-Coder’ın uzun bağlam modelleme yeteneği, büyük projelerin tamamına yayılan kodun anlaşılmasını mümkün kılıyor; bu da özellikle karmaşık kodlama görevlerinde faydalı görünüyor
  • Rekabetçi programlama, kod düzenleme, depo düzeyinde tamamlama, uzun bağlam anlama ve matematiksel akıl yürütme gibi alanlarda üstün performans sergiliyor
  • LLM tabanlı kodlama destek araçlarının önde gelen örnekleri arasında GitHub Copilot ve Amazon CodeWhisperer bulunuyor. Yi-Coder, bunlara kıyasla hafif bir model olma avantajına sahip olsa da, eklenti gibi ek özellikler açısından hâlâ eksik kalıyor
  • Benzer işlevlere sahip diğer projeler arasında DeepSeek-Coder, CodeGeex4 ve CodeLLama yer alıyor
  • Yi-Coder’ın matematiksel akıl yürütme yeteneği ilgi çekici bir nokta. Programlama yoluyla problem çözme yaklaşımı, saf dil modellerinden ayrışan bir yöntem olarak yalnızca matematikte değil, çeşitli alanlarda da LLM’lerin kullanım potansiyelini gösteriyor

2 yorum

 
GN⁺ 2024-09-06
Hacker News görüşleri
  • Claude 3.5 Sonnet, kod odaklı LLM'ler arasında hâlâ en iyi performansı gösteriyor

    • Ancak DeepSeek Coder V2 236B daha ucuz ve daha verimli
    • Aider ve Claude Dev eklentisinde DeepSeek Coder V2 kullanılıyor
  • Yi-Coder, Aider'ın kod düzenleme benchmark'ında GPT-3.5'ten daha düşük puan alıyor

    • Sonnet: 77%
    • GPT-3.5: 58%
    • Yi-Coder-9b-Chat: 54%
    • Yi-Coder-9b-Chat-q4_0: 45%
  • SRE/DevOps/C#/Golang/C++ işlerinde LLM test edildiğinde mantıksız yanıtlar alındığı belirtiliyor

    • Basit bir Python betiği yazma isteğine alakasız bir yanıt veriyor
    • Birden fazla programlama dilinde ilgisiz yanıtlar sunuyor
  • Yazılım mühendisleriyle sanatçıların yapay zeka modellerine tepki verme biçimleri arasındaki farkın ilginç olduğu söyleniyor

  • Belirli dillere özelleşmiş modeller bekleniyor

    • Mevcut modeller birçok dili ele alıyor, ancak belirli bir dilde çok yetkin modellere ihtiyaç var
  • Küçük bir LLM'yi yerelde nasıl kurabileceklerini merak ediyorlar

    • VSCode'da sekmeyle tamamlama özelliğinin çalışıp çalışmadığını soruyorlar
    • GitHub Copilot dışında bulut modellerinin nasıl kurulacağına dair ipuçları istiyorlar
  • Modeli yerel masaüstü PC'de çalıştırmak için önerilen donanım soruluyor

  • SWE-agent ile Yi-Coder-9B-Chat'in performansının görülmek istendiği belirtiliyor

  • Aider benchmark'ı hakkında açıklama isteniyor

    • Her seferinde aynı 113 testi neden geçtiğini merak ediyorlar
    • Modelin genel kod üretme ve düzenleme yeteneğini değerlendirme yöntemini sorguluyorlar
  • Model boyutunun neden ağırlık sayısıyla ifade edildiği soruluyor

    • GPU RAM gereksinimini bilmek istiyorlar
    • Ağırlık sayısının gerçek kullanıcı için ne kadar önemli olduğunu sorguluyorlar