4 puan yazan GN⁺ 2025-05-22 | 1 yorum | WhatsApp'ta paylaş
  • Devstral, yazılım mühendisliği görevleri için geliştirilmiş bir ajanik LLM olup Mistral AI ile All Hands AI iş birliğiyle oluşturuldu
  • SWE-Bench Verified kıyaslamasında mevcut açık kaynak modellerden %6'dan fazla daha yüksek olan %46,8 performansa ulaştı
  • Rakip modellere (Deepseek-V3, Qwen3 vb.) ve bazı kapalı kaynak modellere (GPT-4.1-mini vb.) kıyasla daha üstün performans gösterdi
  • RTX 4090 veya 32GB RAM'e sahip bir Mac'te bile yerel olarak kullanılabilir; kurumsal ortamlar ve copilot senaryoları için de uygun
  • Apache 2.0 lisansı altında ücretsiz dağıtılıyor; çeşitli platformlarda hemen kullanılabiliyor ve özelleştirilebiliyor

Devstral'a giriş

  • Devstral, kod yazma, düzenleme, issue çözme gibi yazılım mühendisliği görevleri için geliştirilmiş bir ajanik LLM'dir (Agentic Large Language Model)
  • Mistral AI ve All Hands AI ortaklığıyla geliştirildi
  • Devstral, gerçek dünyadaki GitHub issue'larını gerçekten çözme yöntemiyle eğitildi ve OpenHands ya da SWE-Agent gibi kod ajanı iskeletleri üzerinde çalışır

SWE-Bench Verified kıyaslamasında Devstral'ın performansı

  • Devstral, SWE-Bench Verified'da %46,8 puan alarak en iyi açık kaynak model performansını 6 yüzde puandan fazla aştı
  • Aynı test iskeleti (OpenHands) temelinde Deepseek-V3-0324(671B), Qwen3 232B-A22B gibi daha büyük modelleri de geride bırakan sonuçlar gösterdi
  • Özel test ortamlarında da Devstral, çeşitli kapalı kaynak alternatif modellerden daha iyi performans sergiledi
    • Örneğin, en yeni GPT-4.1-mini'ye göre %20'den fazla daha yüksek doğruluk gösterdi

Çeşitlilik ve uygulanabilirlik

  • Devstral, RTX 4090 veya 32GB RAM'li bir Mac üzerinde de sorunsuz çalışabildiği için yerel dağıtım ve cihaz üzerinde kullanım açısından avantajlıdır
  • OpenHands gibi platformlarda yerel codebase ile entegre olarak issue'ları hızlıca çözebilir
  • Kurumsal ortamda gizlilik koruması gerektiren kod depoları için de uygundur
  • Copilot'lar, ajan IDE eklentileri ve çeşitli geliştirme ortamları için uygulanabilir

Dağıtım ve kullanım

  • Devstral, Apache 2.0 lisansı ile sunulduğundan herkes tarafından ücretsiz kullanılabilir, özelleştirilebilir ve yeniden dağıtılabilir
  • Modelin kullanımına dair rehber ve eğitim içerikleri sunuluyor; HuggingFace, Ollama, Kaggle, Unsloth, LM Studio gibi çeşitli platformlardan indirilebiliyor
  • Mistral'ın resmi API'sinde de devstral-small-2505 adıyla sunuluyor ve Mistral Small 3.1 ile aynı fiyatlandırma politikasını benimsiyor
  • Kurumsal ortamlarda özel codebase'lere odaklı fine-tuning gibi ileri seviye özelleştirmeler gerekiyorsa iletişime geçilebiliyor

Gelecek planları

  • Devstral şu anda araştırma önizlemesi aşamasında
  • İleride daha büyük ölçekli ajanik kodlama modelleri de yayımlanacak
  • Devstral kullanımı veya Mistral'ın farklı model ve çözümleri hakkında bilgi almak isteyenler resmi iletişim kanalları üzerinden başvurabilir

1 yorum

 
GN⁺ 2025-05-22
Hacker News görüşleri
  • Son zamanlarda önce dosya boyutuna Ollama ile bakıyorum; bu modelin de yaklaşık 14GB olduğunu öğrendim, bkz. https://ollama.com/library/devstral/tags. M2 Mac'te genelde model dosya boyutuna ek olarak yaklaşık %10 daha bellek gerektiğinden, hangi uygulamaları aynı anda çalıştırabileceğimi anlamak için RAM payını buna göre kontrol ediyorum. 20GB altındaki modellerin diğer programları kullanmayı çok etkilemediğini görüyorum. Bu model için beklentim epey yüksek

    • Yerel modellerle iyi çalışan agentic geliştirme yazılımı önerisine ihtiyacım var. Cursor'ı denedim ama beklediğim kadar memnun kalmadım; editör ile ChatGPT arasında gidip gelmek daha iyi hissettirdi. Localforge ve aider'ı da denedim ama yerel modellerde biraz yavaş kalıyorlar

    • Ben de katılıyorum. Bu modeli bizzat lokalde çalıştırdım ve etkileyici buldum. Ruby ya da rspec ile ilgili zorlayıcı kodları da iyi ele aldığını gördüm. Bağlamın büyük olduğu durumlarda aider ile test etmeyi planlıyorum

  • SWE-Bench skoru, açık kaynak bir model için boyutuna kıyasla çok yüksek. %46.8, o3-mini'den (Agentless-lite ile) ya da Claude 3.6'dan (AutoCodeRover ile) daha yüksek, Anthropic'in özel scaffold'u eklenmiş Claude 3.6'dan ise biraz daha düşük. Neredeyse bedavaya çalıştırılabildiğini de düşününce oldukça şaşırtıcı bir model

    • Ya gerçekten “şaşırtıcı” ya da benchmark'larda bir şeyler yolunda gitmiyor diye düşündürüyor

    • Acaba kastedilenin Claude 3.7 olup olmadığını kontrol etmek lazım

  • 24GB RAM'li ekran kartı olmayanlar için not bırakayım. Ben bu modeli 8GB RAM ortamında Ollama ile basit işler için kullanıyorum. Geniş context window gereken ve zamanın kritik olduğu işler için ücretli API kullanımını tavsiye ederim.

    • Toplam çalışma süresi, yükleme ve token değerlendirme hızı gibi ayrıntılı değerler:
      • Örnek 1: 35 saniye sürdü, saniyede 6.27 token işlendi
      • Örnek 2: 4 dakika 44 saniye sürdü, saniyede 5.79 token işlendi
    • API çağrısına kıyasla yaklaşık %20 hızda hissettiriyor. Tavsiye edilen ekran kartı olmadığı için böyle olduğunu düşünüyorum.
    • Benchmark performansının boyutuna göre alışılmadık derecede iyi ayarlanmış göründüğünü düşünüyorum; muhtemelen geliştirme sürecinde benchmark optimizasyonu için tekrar tekrar test edildi. BT alanında pazarlanan çoğu LLM'in de benzer bir strateji izlediği görüşündeyim. Sonuçta “çok fazla test süresi harcamadan kullanılabilirliğini doğrulamak” fena bir ödünleşim değil
  • Sunulan benchmark'lara güvenemiyorum. Kendim denemedim ama Mistral ailesi modeller benchmark'larda benim sonuçlarımda genelde Llama ile benzer şekilde alt sıralarda kalıyor. Gerçek performansın burada gösterildiği kadar iyi olmasını beklemiyorum

    • All Hands modelini yakın zamanda kullandım; onların da Mistral tabanlı olduğunu düşünüyorum. Benim izlenimim, Claude 3.7 Sonnet ile kıyaslanacak düzeyde değil ama oldukça istikrarlı. "AI pair-coding assistant" olarak kesinlikle iş görür; büyük yapısal işleri de adımları daha küçük parçalara bölerek yaptırırsanız başarabiliyor

    • Ben de çok inanmıyorum. Böyle şeyleri bence doğrudan test etmek gerekiyor. Örneğin Qwen3 benim kullanımımda geriye gidiş gibiydi, GLM4 ise şu anki çıtam. 70b cogito modeli de gerçekten çok iyi ama pek konuşulmuyor. Projeye, dile ve kullanım amacına göre farkın çok büyük olduğunu düşünüyorum. Yine de bu modeli mutlaka deneyeceğim

  • Apache 2.0 lisanslı olması çok iyi hissettiriyor. Karmaşık "open weight" şartları olan bir lisans yerine kullanım koşulları net. Bu başlı başına bir artı

    • Bence bu, Mistral'ın stratejik güçlü yanı. Ahlaki olarak kabul edilebilir kullanım söz konusuysa Gemma 3'ü öneririm. Değilse Apache lisanslı bir LLM seçme imkânı doğuyor
  • Keşke AB bu agent/modelin geliştirme maliyetini üstlense diye düşünüyorum. Eğer gerçekten beklendiği kadar iyi sonuç veriyorsa, Mistral işine odaklanmaya devam edebilir ve Avrupa açısından da akıllıca bir bütçe kullanımı olur

    • Vergilerimin apache/mit lisanslı modellerin geliştirilmesine gitmesine varım. En azından alternatif modellerin sürmesini sağlar ve büyük şirket tekellerine karşı denge oluşturur. Sonuçta birkaç dev şirketin alanı tek başına kontrol etmesini önlemek önemli

    • Aslında AB, yapay zeka girişimlerinin kullanabilmesi için süper bilgisayarlar kurmaya para harcadı ve Mistral da bu programın ortaklarından biri

  • LlamaIndex araç desteğini denerken bu modeli tesadüfen gördüm. Kendi agentic kodlama çözümümde farklı modelleri bağlayıp deniyordum; tam ReAct yaklaşımını uygulamaya başlayacakken bu modelin çıkmasına şaşırdım.

    • Ama benim agent sistemim bu modelde sadece "araç yok" döndürüyor. Birden fazla agent prompt'unda da "foo aracıyla bar işini yap" gibi açık talimatlar denedim ama yine de çözemedim. ToolSpec, anotasyonlar içeren standart Pydantic nesneleri; diğer modeller genelde araç kullanımını kendiliğinden bulabiliyordu

    • Çıktıyı kısıtlayarak araç şemasını zorunlu kılabilirsiniz. Biraz destekle hemen her modele uygulanabilir

  • Mistral'ın yeniden gerçekten açık kaynak bir model çıkarmasına sevindim. Avrupa'da rekabetçi yapay zeka şirketlerine ne kadar ihtiyaç olduğunu tekrar hissediyorum.

    • Mistral'ın son modelleri etkileyici. Le Chat Pro için ödeme yapıyorum. Bunun dışında Mistral Small da gerçekten çok kullanışlı. Mistral entegrasyonu kullanan bir startup da geliştiriyorum
  • Düşük donanımda (ör. MacBook Air) çalışan güncel yerel modeller ya da buna dair bilgi önerisi arıyorum. Hangi modellerin hangi cihaz özelliklerinde 'gerçekten kullanılabilir' olduğunu deneme yapmadan önceden bilmek istiyorum. Ayrıca Ollama ile her iş için 2-3 modeli sürekli elde tutmam gerekip gerekmediğini de anlamaya çalışıyorum. Apple Intelligence henüz çözüm değil

    • Yerelde çalıştırmak için optimize edilmiş genel amaçlı modeller olarak Gemma 3 veya yeni Mistral Small öneririm. Windows'ta hız darboğazı VRAM iken, M serisi Mac'lerde bellek çip üzerinde olduğu için hızlı kullanılabiliyor. Çalıştırabileceğiniz model boyutu, gerçek RAM'den MacOS'un ve diğer uygulamaların kullandığı alan çıktıktan sonra kalan miktara göre belirleniyor.

      • Model başına bellek hesabı için HuggingFace vb. yerlerde sunulan quantized model boyutlarına bakabilirsiniz. Q4_K_M seviyesini varsayılan almak makul.
      • Devstral için 14.3GB, buna ek olarak context saklamak için 1-8GB daha gerekiyor.
      • Örnekler:
        • 32GB MacBook Air → Devstral (14.3GB)+4GB, yaklaşık 14GB sistem/diğer uygulamalar için
        • 16GB MacBook Air → Gemma 3 12B (7.3GB)+2GB, yaklaşık 7GB boş alan
        • 8GB MacBook → Gemma 3 4B (2.5GB)+1GB, pratikte gerçek kullanım için tavsiye edilmez
    • Bunu doğrulamanın en iyi yolu doğrudan denemek. Model boyutunu sığdırabiliyorsanız llama.cpp'yi (https://github.com/ggml-org/llama.cpp) kolayca kurup derleyebilirsiniz; M serisi MacBook Air desteği de oldukça iyi. Ben kişisel olarak LMStudio'yu (https://lmstudio.ai/) daha çok kullanıyorum. ChatGPT ya da Claude benzeri kolay bir arayüz sunuyor, ayrıca program içinden model arayıp indirebiliyorsunuz. Başlangıç için tek başına LMStudio bile yeterli; ben de M2 MacBook Air üzerinde sık sık kullanıyorum

  • Bu modelin performansının hosted LLM'lerle (ör. Claude 3.7) pratikte nasıl kıyaslandığını merak ediyorum

    • Aslında kullanım alanları tamamen farklı, o yüzden doğrudan karşılaştırma çok anlamlı değil