Mac'te sorunsuz çalışan, güçlü kodlama yeteneklerine sahip LLM: Qwen2.5-Coder-32B

(simonwillison.net)

7 puan yazan GN⁺ 2024-11-15 | 1 yorum | WhatsApp'ta paylaş

Alibaba'nın Qwen araştırma ekibi, açık kaynaklı (Apache 2.0 lisanslı) LLM serisi Qwen2.5-Coder'ı duyurdu
Qwen2.5-Coder-32B-Instruct modelinin GPT-4o düzeyinde kodlama yeteneği sunduğu iddia ediliyor
32B model, 64GB MacBook Pro M2'de bile çalışabilecek kadar görece küçük bir model
Benchmark performansında GPT-4o ve Claude 3.5 Sonnet ile benzer ya da daha yüksek skorlar elde ediyor

Benchmark performans karşılaştırması

Qwen2.5-Coder-32B-Instruct modeli şu benchmark'larda öne çıkıyor:
- LiveCodeBench, Spider, BIRD-SQL testlerinde GPT-4o ve Claude 3.5 Sonnet'ten daha iyi performans gösteriyor
- MBPP, Aider, CodeArena testlerinde performansı biraz geride kalıyor
- HumanEval ve McEval testlerinde benzer seviyede performans sergiliyor

Aider benchmark'ındaki performansı

Paul Gauthier'nin Aider benchmark'ında da iyi sonuçlar elde edildi
- "Whole edit" benchmark'ında Qwen2.5-Coder-32B-Instruct, GPT-4o ile 3.5 Haiku arasında bir performans gösterdi
- Skor karşılaştırması:
  - 3.5 Sonnet: 84%
  - 3.5 Haiku: 75%
  - Qwen2.5-Coder 32B: 74%
  - GPT-4o: 71%
  - Qwen2.5-Coder 14B: 69%
  - Qwen2.5-Coder 7B: 58%
- "Diff" benchmark'ında GPT-4o ile aynı skoru aldı, Claude 3.5 Haiku'nun ise biraz gerisinde kaldı

Mac'te Qwen2.5-Coder çalıştırma testi

Kullanıcı, Qwen2.5-Coder-32B-Instruct-GGUF Q8 modelini llm-gguf ile çalıştırmayı denedi ancak GPU kullanılmadığı için yavaştı
Ollama ve MLX sürümleri MacBook'ta sorunsuz çalıştı
Ollama kurulum yöntemi:
- ollama pull qwen2.5-coder:32b komutuyla 20GB boyutunda kuantize dosya indiriliyor
- Python fonksiyonu oluşturma isteğinde ssl sorunu dışında başarılı şekilde çalıştı
MLX kullanımı:
- Apple Silicon için MLX framework kullanılarak performans artırıldı
- Mandelbrot fraktalı üreten kod terminalde çalıştırıldı ve ASCII art olarak gösterilmesi başarıyla sağlandı
- Performans metrikleri:
  - Token üretim hızı: 10.016 tokens/sec
  - Bellek kullanımı: en fazla 32.685GB

Ek test: Pelican on a bicycle benchmark'ı

llm -m qwen2.5-coder:32b 'Generate an SVG of a pelican riding a bicycle' isteği çalıştırıldı
Ortaya çıkan sonuç, şekli çok net olmayan bir pelikan ve bisiklet SVG görseli oldu; yine de kullanıcı deneyimi açısından ilgi çekiciydi

Sonuç ve kullanıcı deneyimi

32GB bellek kullanımı, Mac'te çalıştırılabilir bir seviyede; diğer uygulamaları kapatmadan da kullanılabiliyor
Hız ve çıktı kalitesi açısından, bugün mevcut olan barındırılan modellerle rekabet edebilecek düzeyde
Kullanıcının LLM kullanımının %80'i kod yazımıyla ilgili olduğundan, Qwen2.5-Coder anlamlı bir iyileştirme gibi görünüyor

1 yorum

savvykang 2024-11-15

Kodlama kullanıcı senaryosundan biraz farklı ama Claude'un JSON modunu nasıl uyguladıklarını merak ediyorum. Bazı barındırılan modeller, JSON çıktısı üretmeye yönlendirseniz bile yorum eklenmiş JavaScript ya da Markdown metni oluşturuyor. Barındırılan modelleri birkaç kez kullanmış olma deneyimime göre, yönetilen hizmet kullanmak sonuçlar açısından daha tatmin ediciydi. Görünüşe göre barındırılan modellerle uygulanamayan başka bir şey daha var.