- Devstral, yazılım mühendisliği görevleri için geliştirilmiş bir ajanik LLM olup Mistral AI ile All Hands AI iş birliğiyle oluşturuldu
- SWE-Bench Verified kıyaslamasında mevcut açık kaynak modellerden %6'dan fazla daha yüksek olan %46,8 performansa ulaştı
- Rakip modellere (Deepseek-V3, Qwen3 vb.) ve bazı kapalı kaynak modellere (GPT-4.1-mini vb.) kıyasla daha üstün performans gösterdi
- RTX 4090 veya 32GB RAM'e sahip bir Mac'te bile yerel olarak kullanılabilir; kurumsal ortamlar ve copilot senaryoları için de uygun
- Apache 2.0 lisansı altında ücretsiz dağıtılıyor; çeşitli platformlarda hemen kullanılabiliyor ve özelleştirilebiliyor
Devstral'a giriş
- Devstral, kod yazma, düzenleme, issue çözme gibi yazılım mühendisliği görevleri için geliştirilmiş bir ajanik LLM'dir (Agentic Large Language Model)
- Mistral AI ve All Hands AI ortaklığıyla geliştirildi
- Devstral, gerçek dünyadaki GitHub issue'larını gerçekten çözme yöntemiyle eğitildi ve OpenHands ya da SWE-Agent gibi kod ajanı iskeletleri üzerinde çalışır
SWE-Bench Verified kıyaslamasında Devstral'ın performansı
- Devstral, SWE-Bench Verified'da %46,8 puan alarak en iyi açık kaynak model performansını 6 yüzde puandan fazla aştı
- Aynı test iskeleti (OpenHands) temelinde Deepseek-V3-0324(671B), Qwen3 232B-A22B gibi daha büyük modelleri de geride bırakan sonuçlar gösterdi
- Özel test ortamlarında da Devstral, çeşitli kapalı kaynak alternatif modellerden daha iyi performans sergiledi
- Örneğin, en yeni GPT-4.1-mini'ye göre %20'den fazla daha yüksek doğruluk gösterdi
Çeşitlilik ve uygulanabilirlik
- Devstral, RTX 4090 veya 32GB RAM'li bir Mac üzerinde de sorunsuz çalışabildiği için yerel dağıtım ve cihaz üzerinde kullanım açısından avantajlıdır
- OpenHands gibi platformlarda yerel codebase ile entegre olarak issue'ları hızlıca çözebilir
- Kurumsal ortamda gizlilik koruması gerektiren kod depoları için de uygundur
- Copilot'lar, ajan IDE eklentileri ve çeşitli geliştirme ortamları için uygulanabilir
Dağıtım ve kullanım
- Devstral, Apache 2.0 lisansı ile sunulduğundan herkes tarafından ücretsiz kullanılabilir, özelleştirilebilir ve yeniden dağıtılabilir
- Modelin kullanımına dair rehber ve eğitim içerikleri sunuluyor; HuggingFace, Ollama, Kaggle, Unsloth, LM Studio gibi çeşitli platformlardan indirilebiliyor
- Mistral'ın resmi API'sinde de
devstral-small-2505 adıyla sunuluyor ve Mistral Small 3.1 ile aynı fiyatlandırma politikasını benimsiyor
- Kurumsal ortamlarda özel codebase'lere odaklı fine-tuning gibi ileri seviye özelleştirmeler gerekiyorsa iletişime geçilebiliyor
Gelecek planları
- Devstral şu anda araştırma önizlemesi aşamasında
- İleride daha büyük ölçekli ajanik kodlama modelleri de yayımlanacak
- Devstral kullanımı veya Mistral'ın farklı model ve çözümleri hakkında bilgi almak isteyenler resmi iletişim kanalları üzerinden başvurabilir
1 yorum
Hacker News görüşleri
Son zamanlarda önce dosya boyutuna Ollama ile bakıyorum; bu modelin de yaklaşık 14GB olduğunu öğrendim, bkz. https://ollama.com/library/devstral/tags. M2 Mac'te genelde model dosya boyutuna ek olarak yaklaşık %10 daha bellek gerektiğinden, hangi uygulamaları aynı anda çalıştırabileceğimi anlamak için RAM payını buna göre kontrol ediyorum. 20GB altındaki modellerin diğer programları kullanmayı çok etkilemediğini görüyorum. Bu model için beklentim epey yüksek
Yerel modellerle iyi çalışan agentic geliştirme yazılımı önerisine ihtiyacım var. Cursor'ı denedim ama beklediğim kadar memnun kalmadım; editör ile ChatGPT arasında gidip gelmek daha iyi hissettirdi. Localforge ve aider'ı da denedim ama yerel modellerde biraz yavaş kalıyorlar
Ben de katılıyorum. Bu modeli bizzat lokalde çalıştırdım ve etkileyici buldum. Ruby ya da rspec ile ilgili zorlayıcı kodları da iyi ele aldığını gördüm. Bağlamın büyük olduğu durumlarda aider ile test etmeyi planlıyorum
SWE-Bench skoru, açık kaynak bir model için boyutuna kıyasla çok yüksek. %46.8, o3-mini'den (Agentless-lite ile) ya da Claude 3.6'dan (AutoCodeRover ile) daha yüksek, Anthropic'in özel scaffold'u eklenmiş Claude 3.6'dan ise biraz daha düşük. Neredeyse bedavaya çalıştırılabildiğini de düşününce oldukça şaşırtıcı bir model
Ya gerçekten “şaşırtıcı” ya da benchmark'larda bir şeyler yolunda gitmiyor diye düşündürüyor
Acaba kastedilenin Claude 3.7 olup olmadığını kontrol etmek lazım
24GB RAM'li ekran kartı olmayanlar için not bırakayım. Ben bu modeli 8GB RAM ortamında Ollama ile basit işler için kullanıyorum. Geniş context window gereken ve zamanın kritik olduğu işler için ücretli API kullanımını tavsiye ederim.
Sunulan benchmark'lara güvenemiyorum. Kendim denemedim ama Mistral ailesi modeller benchmark'larda benim sonuçlarımda genelde Llama ile benzer şekilde alt sıralarda kalıyor. Gerçek performansın burada gösterildiği kadar iyi olmasını beklemiyorum
All Hands modelini yakın zamanda kullandım; onların da Mistral tabanlı olduğunu düşünüyorum. Benim izlenimim, Claude 3.7 Sonnet ile kıyaslanacak düzeyde değil ama oldukça istikrarlı. "AI pair-coding assistant" olarak kesinlikle iş görür; büyük yapısal işleri de adımları daha küçük parçalara bölerek yaptırırsanız başarabiliyor
Ben de çok inanmıyorum. Böyle şeyleri bence doğrudan test etmek gerekiyor. Örneğin Qwen3 benim kullanımımda geriye gidiş gibiydi, GLM4 ise şu anki çıtam. 70b cogito modeli de gerçekten çok iyi ama pek konuşulmuyor. Projeye, dile ve kullanım amacına göre farkın çok büyük olduğunu düşünüyorum. Yine de bu modeli mutlaka deneyeceğim
Apache 2.0 lisanslı olması çok iyi hissettiriyor. Karmaşık "open weight" şartları olan bir lisans yerine kullanım koşulları net. Bu başlı başına bir artı
Keşke AB bu agent/modelin geliştirme maliyetini üstlense diye düşünüyorum. Eğer gerçekten beklendiği kadar iyi sonuç veriyorsa, Mistral işine odaklanmaya devam edebilir ve Avrupa açısından da akıllıca bir bütçe kullanımı olur
Vergilerimin apache/mit lisanslı modellerin geliştirilmesine gitmesine varım. En azından alternatif modellerin sürmesini sağlar ve büyük şirket tekellerine karşı denge oluşturur. Sonuçta birkaç dev şirketin alanı tek başına kontrol etmesini önlemek önemli
Aslında AB, yapay zeka girişimlerinin kullanabilmesi için süper bilgisayarlar kurmaya para harcadı ve Mistral da bu programın ortaklarından biri
LlamaIndex araç desteğini denerken bu modeli tesadüfen gördüm. Kendi agentic kodlama çözümümde farklı modelleri bağlayıp deniyordum; tam ReAct yaklaşımını uygulamaya başlayacakken bu modelin çıkmasına şaşırdım.
Ama benim agent sistemim bu modelde sadece "araç yok" döndürüyor. Birden fazla agent prompt'unda da "foo aracıyla bar işini yap" gibi açık talimatlar denedim ama yine de çözemedim. ToolSpec, anotasyonlar içeren standart Pydantic nesneleri; diğer modeller genelde araç kullanımını kendiliğinden bulabiliyordu
Çıktıyı kısıtlayarak araç şemasını zorunlu kılabilirsiniz. Biraz destekle hemen her modele uygulanabilir
Mistral'ın yeniden gerçekten açık kaynak bir model çıkarmasına sevindim. Avrupa'da rekabetçi yapay zeka şirketlerine ne kadar ihtiyaç olduğunu tekrar hissediyorum.
Düşük donanımda (ör. MacBook Air) çalışan güncel yerel modeller ya da buna dair bilgi önerisi arıyorum. Hangi modellerin hangi cihaz özelliklerinde 'gerçekten kullanılabilir' olduğunu deneme yapmadan önceden bilmek istiyorum. Ayrıca Ollama ile her iş için 2-3 modeli sürekli elde tutmam gerekip gerekmediğini de anlamaya çalışıyorum. Apple Intelligence henüz çözüm değil
Yerelde çalıştırmak için optimize edilmiş genel amaçlı modeller olarak Gemma 3 veya yeni Mistral Small öneririm. Windows'ta hız darboğazı VRAM iken, M serisi Mac'lerde bellek çip üzerinde olduğu için hızlı kullanılabiliyor. Çalıştırabileceğiniz model boyutu, gerçek RAM'den MacOS'un ve diğer uygulamaların kullandığı alan çıktıktan sonra kalan miktara göre belirleniyor.
Bunu doğrulamanın en iyi yolu doğrudan denemek. Model boyutunu sığdırabiliyorsanız llama.cpp'yi (https://github.com/ggml-org/llama.cpp) kolayca kurup derleyebilirsiniz; M serisi MacBook Air desteği de oldukça iyi. Ben kişisel olarak LMStudio'yu (https://lmstudio.ai/) daha çok kullanıyorum. ChatGPT ya da Claude benzeri kolay bir arayüz sunuyor, ayrıca program içinden model arayıp indirebiliyorsunuz. Başlangıç için tek başına LMStudio bile yeterli; ben de M2 MacBook Air üzerinde sık sık kullanıyorum
Bu modelin performansının hosted LLM'lerle (ör. Claude 3.7) pratikte nasıl kıyaslandığını merak ediyorum