- Kod üretimine özelleştirilmiş Mamba2 dil modeli
- Mamba modeli, transformer modellerden farklı olarak doğrusal zamanlı çıkarım ve teorik olarak sonsuz uzunlukta dizileri modelleyebilme yeteneği sunuyor
- Girdi uzunluğundan bağımsız hızlı yanıtlar sayesinde kullanıcılar modelle kapsamlı biçimde etkileşim kurabiliyor
- Bu verimlilik özellikle kod üretkenliğini etkileyerek SOTA transformer tabanlı modellerle eşdeğer performans gösterebiliyor
- Benchmark sonuçlarına göre 7B modelde Codestral Mamba (7B), mevcut CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B gibi modellerden daha iyi veya neredeyse eşdeğer yetenekler sergiliyor
- Harika bir yerel kod asistanı olması bekleniyor
mistral-inference SDK, TensorRT-LLM üzerinden dağıtılabiliyor ve yerel çıkarım için yakında llama.cpp tarafından da desteklenecek
- Ham ağırlıklar HuggingFace üzerinden indirilebiliyor
2 yorum
Hacker News görüşleri
VS Code'da çalıştırmak için adımlar gerekiyor
FIM özelliğine sahip model önerileri isteniyor
codellama-13bmodelini vim extension ile kullanıyorum, ancak performansı pek iyi değilGemma-27bdaha iyi kod üretiyor ama FIM özelliği yokcodellama-34b'de çıkarım düzgün çalışmıyorMBPP sütununda DeepSeek öne çıkarılmalı
Modelin HuggingFace'te olduğu duyurulmuş ama bağlantı verilmemiş
Mamba2 kullanan yüksek profilli bir model görmek güzel
Mamba'nın daha hızlı olduğu iddia ediliyor ama gecikme sayıları yok
Mamba ile Transformers'ın artıları ve eksileri üzerine bir ürün tanıtımı öneriliyor
Mamba mimarisi için iyi bir açıklama olup olmadığı soruluyor
LLM'lerin genel kavramını anlıyorum, ancak ChatGPT, Claude gibi herkese açık araçları kullanmış biri için uygun video veya yazı önerileri isteniyor
model.boxplayground'unda hızlı bir test yapılmışgpt-4o) kıyasla tamamlanma uzunluğu belirgin şekilde daha kısaCodestral - Mistral'ın kod üretimi için yapay zeka modeli