Mistral AI, yeni dil modeli Codestral Mamba'yı tanıttı

xguru · 2024-07-17T09:43:01+09:00

Kod üretimine özelleştirilmiş Mamba2 dil modeli Mamba modeli, transformer modellerden farklı olarak doğrusal zamanlı çıkarım ve teorik olarak sonsuz uzunlukta dizileri modelleyebilme yeteneği sunuyor Girdi uzunluğundan bağımsız hızlı yanıtlar sayesinde kullanıcılar modelle kapsamlı biçimde etkileşim kurabiliyor Bu verimlilik özellikle kod üretkenliğini etkileyerek SOTA transformer tabanlı modellerle eşdeğer performans gösterebiliyor Benchmark sonuçlarına göre 7B modelde Codestral Mamba (7B), mevcut CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B gibi modellerden daha iyi veya neredeyse eşdeğer yetenekler sergiliyor Harika bir yerel kod asistanı olması bekleniyor mistral-inference SDK, TensorRT-LLM üzerinden dağıtılabiliyor ve yerel çıkarım için yakında llama.cpp tarafından da desteklenecek Ham ağırlıklar HuggingFace üzerinden indirilebiliyor

(mistral.ai)

11 puan yazan xguru 2024-07-17 | 2 yorum | WhatsApp'ta paylaş

Kod üretimine özelleştirilmiş Mamba2 dil modeli
Mamba modeli, transformer modellerden farklı olarak doğrusal zamanlı çıkarım ve teorik olarak sonsuz uzunlukta dizileri modelleyebilme yeteneği sunuyor
- Girdi uzunluğundan bağımsız hızlı yanıtlar sayesinde kullanıcılar modelle kapsamlı biçimde etkileşim kurabiliyor
- Bu verimlilik özellikle kod üretkenliğini etkileyerek SOTA transformer tabanlı modellerle eşdeğer performans gösterebiliyor
Benchmark sonuçlarına göre 7B modelde Codestral Mamba (7B), mevcut CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B gibi modellerden daha iyi veya neredeyse eşdeğer yetenekler sergiliyor
Harika bir yerel kod asistanı olması bekleniyor
mistral-inference SDK, TensorRT-LLM üzerinden dağıtılabiliyor ve yerel çıkarım için yakında llama.cpp tarafından da desteklenecek
Ham ağırlıklar HuggingFace üzerinden indirilebiliyor

2 yorum

xguru 2024-07-17

Hacker News görüşleri

VS Code'da çalıştırmak için adımlar gerekiyor
- Gönderiye bir talimat bağlantısı veya VS Code Extension için tek tıkla kurulum bağlantısı eklemek benimsenmeye yardımcı olabilir
- Birçok kullanıcının ilgisini çekebilecek bir model, ancak gelir yaratabilecek bir harekete geçirici mesajın olmaması sorun
FIM özelliğine sahip model önerileri isteniyor
- codellama-13b modelini vim extension ile kullanıyorum, ancak performansı pek iyi değil
- Gemma-27b daha iyi kod üretiyor ama FIM özelliği yok
- codellama-34b'de çıkarım düzgün çalışmıyor
MBPP sütununda DeepSeek öne çıkarılmalı
- DeepSeek, Codestral'dan daha iyi bir puana sahip
Modelin HuggingFace'te olduğu duyurulmuş ama bağlantı verilmemiş
- bağlantı: HuggingFace Mamba-Codestral-7B-v0.1
Mamba2 kullanan yüksek profilli bir model görmek güzel
Mamba'nın daha hızlı olduğu iddia ediliyor ama gecikme sayıları yok
- Bunu deneyen biri var mı ve gerçekten hızlı mı diye merak ediliyor
Mamba ile Transformers'ın artıları ve eksileri üzerine bir ürün tanıtımı öneriliyor
Mamba mimarisi için iyi bir açıklama olup olmadığı soruluyor
LLM'lerin genel kavramını anlıyorum, ancak ChatGPT, Claude gibi herkese açık araçları kullanmış biri için uygun video veya yazı önerileri isteniyor
- Bunu yerelde çalıştırabilecek donanıma sahip olup olmadığımı görmek istiyorum ama nereden başlayacağımı bilmiyorum
model.box playground'unda hızlı bir test yapılmış
- Diğer modellere (ör. gpt-4o) kıyasla tamamlanma uzunluğu belirgin şekilde daha kısa
- Yanıt hızı beklentileri karşılıyor

xguru 2024-07-17

Codestral - Mistral'ın kod üretimi için yapay zeka modeli

Mistral AI, yeni dil modeli Codestral Mamba'yı tanıttı

İlgili okumalar

2 yorum

Hacker News görüşleri