11 puan yazan xguru 2024-07-17 | 2 yorum | WhatsApp'ta paylaş
  • Kod üretimine özelleştirilmiş Mamba2 dil modeli
  • Mamba modeli, transformer modellerden farklı olarak doğrusal zamanlı çıkarım ve teorik olarak sonsuz uzunlukta dizileri modelleyebilme yeteneği sunuyor
    • Girdi uzunluğundan bağımsız hızlı yanıtlar sayesinde kullanıcılar modelle kapsamlı biçimde etkileşim kurabiliyor
    • Bu verimlilik özellikle kod üretkenliğini etkileyerek SOTA transformer tabanlı modellerle eşdeğer performans gösterebiliyor
  • Benchmark sonuçlarına göre 7B modelde Codestral Mamba (7B), mevcut CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B gibi modellerden daha iyi veya neredeyse eşdeğer yetenekler sergiliyor
  • Harika bir yerel kod asistanı olması bekleniyor
  • mistral-inference SDK, TensorRT-LLM üzerinden dağıtılabiliyor ve yerel çıkarım için yakında llama.cpp tarafından da desteklenecek
  • Ham ağırlıklar HuggingFace üzerinden indirilebiliyor

2 yorum

 
xguru 2024-07-17

Hacker News görüşleri

  • VS Code'da çalıştırmak için adımlar gerekiyor

    • Gönderiye bir talimat bağlantısı veya VS Code Extension için tek tıkla kurulum bağlantısı eklemek benimsenmeye yardımcı olabilir
    • Birçok kullanıcının ilgisini çekebilecek bir model, ancak gelir yaratabilecek bir harekete geçirici mesajın olmaması sorun
  • FIM özelliğine sahip model önerileri isteniyor

    • codellama-13b modelini vim extension ile kullanıyorum, ancak performansı pek iyi değil
    • Gemma-27b daha iyi kod üretiyor ama FIM özelliği yok
    • codellama-34b'de çıkarım düzgün çalışmıyor
  • MBPP sütununda DeepSeek öne çıkarılmalı

    • DeepSeek, Codestral'dan daha iyi bir puana sahip
  • Modelin HuggingFace'te olduğu duyurulmuş ama bağlantı verilmemiş

  • Mamba2 kullanan yüksek profilli bir model görmek güzel

  • Mamba'nın daha hızlı olduğu iddia ediliyor ama gecikme sayıları yok

    • Bunu deneyen biri var mı ve gerçekten hızlı mı diye merak ediliyor
  • Mamba ile Transformers'ın artıları ve eksileri üzerine bir ürün tanıtımı öneriliyor

  • Mamba mimarisi için iyi bir açıklama olup olmadığı soruluyor

  • LLM'lerin genel kavramını anlıyorum, ancak ChatGPT, Claude gibi herkese açık araçları kullanmış biri için uygun video veya yazı önerileri isteniyor

    • Bunu yerelde çalıştırabilecek donanıma sahip olup olmadığımı görmek istiyorum ama nereden başlayacağımı bilmiyorum
  • model.box playground'unda hızlı bir test yapılmış

    • Diğer modellere (ör. gpt-4o) kıyasla tamamlanma uzunluğu belirgin şekilde daha kısa
    • Yanıt hızı beklentileri karşılıyor