Yi-Coder - Kod için küçük ama güçlü bir LLM

(01-ai.github.io)

6 puan yazan GN⁺ 2024-09-06 | 2 yorum | WhatsApp'ta paylaş

Yi-Coder, 10 milyardan az parametreyle son teknoloji kodlama performansı sunan açık kaynaklı büyük dil modeli (LLM)
1.5B ve 9B parametreli iki boyutta sunuluyor; verimli çıkarım ve esnek eğitim için hem temel sürüm hem de sohbet sürümü tasarlandı
Yi-Coder-9B, GitHub’daki depo düzeyinde kod külliyatı ve CommonCrawl’dan filtrelenen kodla ilgili verilerden elde edilen 2.4T yüksek kaliteli token eklenerek Yi-9B temel alınarak oluşturuldu

Yi-Coder’ın başlıca özellikleri

2.4 trilyon yüksek kaliteli token ile 52 ana programlama dili üzerinde ön eğitim aldı
Uzun bağlam modelleme: En fazla 128K tokenlık bağlam penceresiyle proje düzeyinde kod anlama ve üretimi mümkün
Küçük ama güçlü: Yi-Coder-9B, CodeQwen1.5 7B ve CodeGeex4 9B gibi 10 milyardan az parametreye sahip diğer modelleri geride bırakıyor, hatta DeepSeek-Coder 33B ile eşdeğer performansa ulaşıyor

Yi-Coder etkileyici kodlama performansı sunuyor

LiveCodeBench

LiveCodeBench, LLM’ler için kapsamlı ve adil bir rekabetçi programlama değerlendirmesi sunmak üzere tasarlanmış, herkese açık bir platform
Yi-Coder-9B-Chat, etkileyici bir şekilde %23.4 geçme oranına ulaştı ve 10B’den az parametreye sahip modeller arasında %20’yi aşan tek model oldu
Bu performans, DeepSeek-Coder-33B-Instruct (%22.3), CodeGeex4-All-9B (%17.8), CodeLlama-34B-Instruct (%13.3), CodeQwen1.5-7B-Chat (%12) modellerini geride bırakıyor

HumanEval, MBPP ve CRUXEval-O

Yi-Coder-9B-Chat, HumanEval’de %85.4 ve MBPP’de %73.8 geçme oranına ulaşarak diğer kod LLM’lerini geride bıraktı
Ayrıca Yi-Coder 9B, CRUXEval-O’da %50’nin üzerinde doğruluğa ulaşan ilk açık kaynak kod LLM’i oldu

Yi-Coder kod düzenleme ve tamamlama işlerinde öne çıkıyor

CodeEditorBench

Yi-Coder-9B, açık kaynak kod LLM’leri arasında etkileyici bir ortalama kazanma oranı elde ediyor ve hem primary hem de plus alt kümelerinde DeepSeek-Coder-33B-Instruct ile CodeQwen1.5-7B-Chat’i sürekli olarak geride bırakıyor

CrossCodeEval

Yi-Coder, hem aramalı hem de aramasız senaryolarda Python ve Java veri kümelerinin tamamında benzer ölçekteki diğer modelleri geride bırakıyor
Bu da, yazılım deposu düzeyindeki kod külliyatı üzerinde daha uzun bağlam uzunluğu ile eğitimin, Yi-Coder’ın uzun vadeli bağımlılıkları etkili biçimde yakalamasını sağladığını ve bunun üstün performansa katkı verdiğini doğruluyor

Yi-Coder 128K uzun bağlamı modelleyebiliyor

Kod içindeki iğne

Yi-Coder’ın uzun bağlam modelleme yeteneğini test etmek için 128K uzunluğunda diziler kullanan "Kod içindeki iğne" adlı sentetik bir görev oluşturuldu
Bu görevde basit bir özel fonksiyon, uzun bir kod tabanına rastgele ekleniyor ve modelin kod tabanının sonunda bu fonksiyonu yeniden üretip üretemediği test ediliyor
Bu, LLM’in uzun bağlamda temel bilgiyi çıkarıp çıkaramadığını değerlendirerek uzun dizileri anlama konusundaki temel yeteneğini yansıtıyor
Yi-Coder-9B, bu görevi 128K uzunluk aralığında kusursuz biçimde tamamladı

Yi-Coder matematiksel akıl yürütmede de parlıyor

Program destekli matematiksel akıl yürütme

Yi-Coder, program destekli kurulumda (PAL: Program-aided Language Models) 7 matematiksel akıl yürütme kıyaslamasında değerlendirildi
Yi-Coder-9B, dikkat çekici bir şekilde %70.3 doğruluğa ulaşarak DeepSeek-Coder-33B’nin %65.8’ini geride bıraktı

Sonuç

Yi-Coder 1.5B/9B’yi hem temel sürüm hem de sohbet sürümüyle topluluğa açık kaynak olarak sunuyoruz
Yi-Coder; temel ve rekabetçi programlama, kod düzenleme ve depo düzeyinde tamamlama, uzun bağlam anlama ve matematiksel akıl yürütme dahil çeşitli görevlerde dikkat çekici performans gösteriyor
Yi-Coder’ın küçük ölçekli kod LLM’lerinin sınırlarını genişleterek yazılım geliştirmeyi hızlandırıp dönüştürebilecek kullanım senaryolarının önünü açabileceğine inanıyoruz

GN⁺ özeti

Yi-Coder’ın avantajı, az sayıda parametreyle bile en güncel kodlama performansını sunabilmesi. Bu, ChatGPT gibi büyük LLM’lerin gerektirdiği devasa hesaplama kaynakları olmadan da güçlü kodlama desteğini mümkün kılabilir
Yi-Coder’ın uzun bağlam modelleme yeteneği, büyük projelerin tamamına yayılan kodun anlaşılmasını mümkün kılıyor; bu da özellikle karmaşık kodlama görevlerinde faydalı görünüyor
Rekabetçi programlama, kod düzenleme, depo düzeyinde tamamlama, uzun bağlam anlama ve matematiksel akıl yürütme gibi alanlarda üstün performans sergiliyor
LLM tabanlı kodlama destek araçlarının önde gelen örnekleri arasında GitHub Copilot ve Amazon CodeWhisperer bulunuyor. Yi-Coder, bunlara kıyasla hafif bir model olma avantajına sahip olsa da, eklenti gibi ek özellikler açısından hâlâ eksik kalıyor
Benzer işlevlere sahip diğer projeler arasında DeepSeek-Coder, CodeGeex4 ve CodeLLama yer alıyor
Yi-Coder’ın matematiksel akıl yürütme yeteneği ilgi çekici bir nokta. Programlama yoluyla problem çözme yaklaşımı, saf dil modellerinden ayrışan bir yöntem olarak yalnızca matematikte değil, çeşitli alanlarda da LLM’lerin kullanım potansiyelini gösteriyor

2 yorum

xguru 2024-09-06

Yi - Yeni nesil açık kaynaklı iki dilli LLM
Yi 1.5 - Yeni nesil açık kaynaklı iki dilli LLM

GN⁺ 2024-09-06

Hacker News görüşleri

Claude 3.5 Sonnet, kod odaklı LLM'ler arasında hâlâ en iyi performansı gösteriyor
- Ancak DeepSeek Coder V2 236B daha ucuz ve daha verimli
- Aider ve Claude Dev eklentisinde DeepSeek Coder V2 kullanılıyor
Yi-Coder, Aider'ın kod düzenleme benchmark'ında GPT-3.5'ten daha düşük puan alıyor
- Sonnet: 77%
- GPT-3.5: 58%
- Yi-Coder-9b-Chat: 54%
- Yi-Coder-9b-Chat-q4_0: 45%
SRE/DevOps/C#/Golang/C++ işlerinde LLM test edildiğinde mantıksız yanıtlar alındığı belirtiliyor
- Basit bir Python betiği yazma isteğine alakasız bir yanıt veriyor
- Birden fazla programlama dilinde ilgisiz yanıtlar sunuyor
Yazılım mühendisleriyle sanatçıların yapay zeka modellerine tepki verme biçimleri arasındaki farkın ilginç olduğu söyleniyor
Belirli dillere özelleşmiş modeller bekleniyor
- Mevcut modeller birçok dili ele alıyor, ancak belirli bir dilde çok yetkin modellere ihtiyaç var
Küçük bir LLM'yi yerelde nasıl kurabileceklerini merak ediyorlar
- VSCode'da sekmeyle tamamlama özelliğinin çalışıp çalışmadığını soruyorlar
- GitHub Copilot dışında bulut modellerinin nasıl kurulacağına dair ipuçları istiyorlar
Modeli yerel masaüstü PC'de çalıştırmak için önerilen donanım soruluyor
SWE-agent ile Yi-Coder-9B-Chat'in performansının görülmek istendiği belirtiliyor
Aider benchmark'ı hakkında açıklama isteniyor
- Her seferinde aynı 113 testi neden geçtiğini merak ediyorlar
- Modelin genel kod üretme ve düzenleme yeteneğini değerlendirme yöntemini sorguluyorlar
Model boyutunun neden ağırlık sayısıyla ifade edildiği soruluyor
- GPU RAM gereksinimini bilmek istiyorlar
- Ağırlık sayısının gerçek kullanıcı için ne kadar önemli olduğunu sorguluyorlar

Yi-Coder - Kod için küçük ama güçlü bir LLM

Yi-Coder’ın başlıca özellikleri

Yi-Coder etkileyici kodlama performansı sunuyor

LiveCodeBench

HumanEval, MBPP ve CRUXEval-O

Yi-Coder kod düzenleme ve tamamlama işlerinde öne çıkıyor

CodeEditorBench

CrossCodeEval

Yi-Coder 128K uzun bağlamı modelleyebiliyor

Kod içindeki iğne

Yi-Coder matematiksel akıl yürütmede de parlıyor

Program destekli matematiksel akıl yürütme

Sonuç

GN⁺ özeti

İlgili okumalar

2 yorum

Hacker News görüşleri