- Alibaba'nın Qwen araştırma ekibi, açık kaynaklı (Apache 2.0 lisanslı) LLM serisi Qwen2.5-Coder'ı duyurdu
- Qwen2.5-Coder-32B-Instruct modelinin GPT-4o düzeyinde kodlama yeteneği sunduğu iddia ediliyor
- 32B model, 64GB MacBook Pro M2'de bile çalışabilecek kadar görece küçük bir model
- Benchmark performansında GPT-4o ve Claude 3.5 Sonnet ile benzer ya da daha yüksek skorlar elde ediyor
Benchmark performans karşılaştırması
- Qwen2.5-Coder-32B-Instruct modeli şu benchmark'larda öne çıkıyor:
- LiveCodeBench, Spider, BIRD-SQL testlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi performans gösteriyor
- MBPP, Aider, CodeArena testlerinde performansı biraz geride kalıyor
- HumanEval ve McEval testlerinde benzer seviyede performans sergiliyor
Aider benchmark'ındaki performansı
- Paul Gauthier'nin Aider benchmark'ında da iyi sonuçlar elde edildi
- "Whole edit" benchmark'ında Qwen2.5-Coder-32B-Instruct, GPT-4o ile 3.5 Haiku arasında bir performans gösterdi
- Skor karşılaştırması:
- 3.5 Sonnet: 84%
- 3.5 Haiku: 75%
- Qwen2.5-Coder 32B: 74%
- GPT-4o: 71%
- Qwen2.5-Coder 14B: 69%
- Qwen2.5-Coder 7B: 58%
- "Diff" benchmark'ında GPT-4o ile aynı skoru aldı, Claude 3.5 Haiku'nun ise biraz gerisinde kaldı
Mac'te Qwen2.5-Coder çalıştırma testi
- Kullanıcı, Qwen2.5-Coder-32B-Instruct-GGUF Q8 modelini llm-gguf ile çalıştırmayı denedi ancak GPU kullanılmadığı için yavaştı
- Ollama ve MLX sürümleri MacBook'ta sorunsuz çalıştı
- Ollama kurulum yöntemi:
ollama pull qwen2.5-coder:32b komutuyla 20GB boyutunda kuantize dosya indiriliyor
- Python fonksiyonu oluşturma isteğinde ssl sorunu dışında başarılı şekilde çalıştı
- MLX kullanımı:
- Apple Silicon için MLX framework kullanılarak performans artırıldı
- Mandelbrot fraktalı üreten kod terminalde çalıştırıldı ve ASCII art olarak gösterilmesi başarıyla sağlandı
- Performans metrikleri:
- Token üretim hızı: 10.016 tokens/sec
- Bellek kullanımı: en fazla 32.685GB
Ek test: Pelican on a bicycle benchmark'ı
llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' isteği çalıştırıldı
- Ortaya çıkan sonuç, şekli çok net olmayan bir pelikan ve bisiklet SVG görseli oldu; yine de kullanıcı deneyimi açısından ilgi çekiciydi
Sonuç ve kullanıcı deneyimi
- 32GB bellek kullanımı, Mac'te çalıştırılabilir bir seviyede; diğer uygulamaları kapatmadan da kullanılabiliyor
- Hız ve çıktı kalitesi açısından, bugün mevcut olan barındırılan modellerle rekabet edebilecek düzeyde
- Kullanıcının LLM kullanımının %80'i kod yazımıyla ilgili olduğundan, Qwen2.5-Coder anlamlı bir iyileştirme gibi görünüyor
1 yorum
Kodlama kullanıcı senaryosundan biraz farklı ama Claude'un JSON modunu nasıl uyguladıklarını merak ediyorum. Bazı barındırılan modeller, JSON çıktısı üretmeye yönlendirseniz bile yorum eklenmiş JavaScript ya da Markdown metni oluşturuyor. Barındırılan modelleri birkaç kez kullanmış olma deneyimime göre, yönetilen hizmet kullanmak sonuçlar açısından daha tatmin ediciydi. Görünüşe göre barındırılan modellerle uygulanamayan başka bir şey daha var.