MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash, Microsoft'un günlük geliştirici iş akışlarında hızlı ve verimli kodlama desteğini hedefleyen yeni bir kodlama modeli ve VS Code'da GitHub Copilot bireysel kullanıcılarına dağıtılıyor
- Microsoft, bu modeli gerçek geliştirme ortamındaki araçlar ve sistemlerle daha iyi etkileşim kuracak şekilde GitHub Copilot harness'i üzerinde doğrudan eğitti
- Uyarlanabilir yanıt uzunluğu kontrolü sayesinde basit isteklere kısa yanıt verip karmaşık görevlerde daha fazla çıkarım bütçesi kullanıyor; en fazla %60 daha az token ile daha zor problemleri çözüyor {p:60}
- Microsoft'un üretim harness değerlendirmesinde Claude Haiku 4.5'ten 4 temel kodlama benchmark'ının tamamında daha yüksek geçme oranı gösterdi ve SWE-Bench Pro'da %51.2'ye karşı %35.2 ile 16 puan öne geçti
- Ayrı bir adversarial çıkarım benchmark'ında 186 soru ve 34 kategoride %85.8 düzeltilmiş doğruluk elde etti, ancak Einstellung trap gibi temel adversarial kategorilerde doğruluk %50'nin altında kalarak iyileştirme alanı olduğunu gösterdi
Çıkış ve dağıtım
- MAI-Code-1-Flash, hızlı ve verimli günlük geliştirici desteği için oluşturulmuş yeni bir Microsoft kodlama modeli
- Microsoft tarafından uçtan uca geliştirildi ve temiz, uygun şekilde lisanslanmış veriler kullanıyor
- GitHub Copilot bireysel kullanıcılarının VS Code'una dağıtılıyor ve model seçicide ya da varsayılan Auto picker altında kullanılabiliyor
- Ek ayar gerekmiyor; dağıtım ilerledikçe GitHub Copilot görevleri Auto picker üzerinden MAI-Code-1-Flash'a yönlendirecek veya modeli doğrudan model seçicide gösterecek
- Geri bildirimler GitHub Community üzerinden alınacak
Geliştirici iş akışı odaklı tasarım
- MAI-Code-1-Flash, yalnızca benchmark optimizasyonu için değil, geliştiricilerin her gün kullandığı üretim iş akışlarını merkeze alarak tasarlandı
- Üretim ortamında kullanılan GitHub Copilot harness'i üzerinde doğrudan eğitilerek ajan benzeri kodlama görevlerinde çevredeki araç ve sistemleri nasıl kullanacağını öğrenmesi hedeflendi
- Eğitim sırasında kontrol noktaları; temel yazılım mühendisliği görevleri, depo soru-cevapları, refaktör çalışmaları ve gerçek GitHub Copilot kullanımından uyarlanan telemetri tabanlı görevlerle değerlendirildi
- Eğitim, değerlendirme ve üretim ortamlarını hizalama yaklaşımı, çevrimdışı iyileştirmelerin gerçek geliştirici kalitesine yansımasını sağlamayı amaçlıyor
Token verimliliği ve yanıt biçimi
- Görev zorluğuna göre yanıt derinliğini ayarlamak için uyarlanabilir çözüm uzunluğu kontrolü eğitildi
- Basit isteklere kısa yanıt veriyor; daha derin analiz veya daha geniş kod değişikliği gerektiren sorunlarda ise daha fazla çıkarım bütçesi kullanıyor
- Böylece geliştiriciler yararlı çıktıları daha hızlı görmeye başlayabiliyor
- MAI-Code-1-Flash, en fazla %60 daha az token ile daha zor problemleri çözüyor; gecikmeyi azaltma, maliyeti düşürme, token başına getiriyi artırma ve daha akıcı etkileşimli iş akışları hedefleniyor
Kodlama benchmark sonuçları
- Microsoft, SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual ve Terminal Bench 2 üzerinde MAI-Code-1-Flash ile Claude Haiku 4.5'i aynı üretim harness'iyle değerlendirdi
- Değerlendirme, görev başarı oranını ve her görevin tamamlanması için gereken ortalama çözüm token sayısını ölçtü
- MAI-Code-1-Flash, test edilen 4 temel kodlama benchmark'ının tamamında Claude Haiku 4.5'ten daha yüksek geçme oranı elde etti
- SWE-Bench Pro'daki çeşitli gerçek görevlerde %51.2'ye karşı %35.2 ile 16 puan öne geçti
- SWE-Bench Verified'da en fazla %60 daha az token ile daha zor problemleri çözerek doğruluk ve verimliliğin aynı anda iyileşebileceğini gösterdi
Yönerge takibi, çıkarım ve sınırlamalar
- MAI-Code-1-Flash, tabloda yer alan tüm benchmark'larda Claude Haiku 4.5'in önüne geçti; IF Bench'teki hassas yönerge takibinde +28.9 ile en büyük farkı gösterdi
- Advanced IF'in rubrik tabanlı değerlendirmesinde ise +14.5 ile en dar fark görüldü
- Güçlü yönerge takibi performansı, ajan tipi araç kullanımına da yansıyor
- Matematik, bilim ve görsel üretim kodlamasındaki temel çıkarım yeteneklerinde de Claude Haiku 4.5'i geçti
- Standart benchmark'lar, çıkarım kadar ezberi de ödüllendirebilir; bu nedenle Monty Hall problemini görmüş bir model doğru yanıtı verebilirken ödül düzeni ters çevrildiğinde başarısız olabilir
- Microsoft, inverted classics, impossible tasks ve underdetermined scenarios gibi adversarial tuzaklara odaklanan 186 soru ve 34 kategorilik bir benchmark oluşturdu
- MAI-Code-1-Flash, bu adversarial benchmark'ta genel olarak Claude Haiku 4.5'i geride bıraktı ve %85.8 düzeltilmiş doğruluğa ulaştı
- Özellikle çıkarım, yönerge takibi ve imkânsız problemleri fark etmede güçlü performans gösterdi; ancak Einstellung trap gibi temel adversarial kategorilerde doğruluk %50'nin altında kaldığı için iyileştirme alanı sürüyor
1 yorum
Hacker News görüşleri
Model kartına göre bu toplam 137B parametreli bir model
Performansı pek iyi görünmüyor: MAI-Code-1-Flash (137B-A5B) SWE-bench pro'da %51, Qwen3.6-35B-A3B ise SWE-bench pro'da %49,5(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Claude Haiku ile karşılaştırılıyor ama Haiku iyi bir model değil; yerelde ya da API üzerinden maliyetin %10'u seviyesinde çalıştırılabilen küçük açık modellerden bile daha kötü
Microsoft'un neden Copilot'ta kendi geliştirdiği modeli sunmayı bu kadar geciktirdiğini merak ediyordum; bunun OpenAI ile yapılan anlaşmanın bir parçası olabileceğini düşünmeye başladım
Başlangıç için iyi ve rekabet hoş karşılanır, ama Haiku 4.5 gibi küçük bulut modellerini kodlama için neredeyse hiç kullanmadım
Sevimli olsalar da ciddi kodlamada çoğu zaman pahalı olan benim zamanımı boşa harcıyorlar ve bu beni dün iptal ettiğim GitHub Copilot'a geri döndürecek kadar etkileyici değil
GitHub Copilot düne kadar fiyat açısından rekabetçiydi ama istek başına ücretlendirmede en pahalı tarafta yer alan, token başına kota modeline geçti. Gülmek isterseniz yanan subreddit'e bakın: https://www.reddit.com/r/GithubCopilot
Sonrasında neredeyse bedavaya Sonnet+ seviyesinde olan DeepSeek Flash high'a geçtim; daha akıllı bir modele ihtiyaç duyarsam aylık $20'lık Codex'e abone olup şu anda erişilebilir en iyi model olduğunu düşündüğüm GPT 5.5'i kullanırım
Bu yaklaşımda günlük işlerde Haiku'yu oldukça sık kullanıyorum ve saatler süren yüksek karmaşıklıktaki işleri de daha iyi sonuçlarla ve çok daha düşük maliyetle halletmek mümkün oluyor. Üstteki orkestratör görevleri etkili biçimde düzenliyor, kaliteyi gözden geçiriyor ve gereken yerlerde birleştirerek tek bir context window içinde çok büyük bir emeği yerine getiriyor
Haiku'yu doğrudan kullanmıyorum ama büyük işlerdeki token kullanımının %30-40'ını oluşturduğu çok oluyor. Hem tamamlanma süresi hem maliyet iyileşiyor ve Haiku, kelimesi kelimesine verilen talimatları ve planı “yeniden yorumlamadan” izleme konusunda daha iyi; buna karşılık Opus seviyesindeki modeller düşünme sürecinde sürekli şüphe edip geri soru sorma eğiliminde
Bu yüzden Haiku zaman kaybı değil, aksine inanılmaz zaman kazandırıyor. Ama bu noktaya gelmek için önce orkestrasyon sistemini kurup onu sürekli yinelemeli olarak iyileştirmeye çok zaman harcadım. İlginç biçimde, direktör ve sonrasında distinguished engineer olarak çalışma deneyimim, bunu sonuna kadar istikrarlı şekilde çalıştıracak araçları bana verdi; farklı yeteneklerde çoklu ajan akışları da 1000 kişilik bir mühendislik organizasyonunun dinamiklerinden çok da farklı değil
Kendi barındırdığım Qwen 3.6 27B, güvenlik açığı tespitinde ikisini de tutarlı biçimde geçti ve bu oldukça şaşırtıcı bir sonuçtu. Qwen'in Haiku seviyesinde ya da biraz altında olacağını, Sonnet'ten ise kesinlikle daha kötü olacağını düşünüyordum
DeepSeek ve MiMo, Haiku ve Sonnet'ten çok daha iyi performans gösteriyor ve maliyetleri bunun sadece bir kısmı; ayrıca Opus/GPT 5.5 seviyesine daha yakınlar
Ücretsiz gelmiyorsa ya da zaten çoğu zaman tüketemeyeceğiniz bir aboneliğe dahil değilse, Haiku ya da Sonnet kullanmak için neredeyse hiçbir neden görünmüyor
Copilot fiyatını %90 düşürse bile geri döneceğimi sanmıyorum
Haiku'ya benzer şekilde rekabetçi pek çok model var ve Qwen 3.6 35B-A3B gibi çok daha küçük ve ucuz olanlar da mevcut. Bunlar bir dizüstünde çalıştırılabildiği için Microsoft'tan kiralamaya gerek yok
Yeni Copilot faturası karşısında afallamış ama ekosistemde kalmak isteyenler için kullanılabilir bir seçenek olabilir, ancak çoğu kişi için çok daha iyi seçenekler var
Sadece premium ChatGPT bile idare eder; düzenli olarak kullanım sınırına takılsanız da çoğu işi yapabilirsiniz
Gerçekte böyle küçük modelleri kodlama için kullanan var mı? Varsa nasıl kullandığını merak ediyorum
Genelde her şeyi Opus ile hallediyorum. Daha ağır bir modelle plan/tasarım/mimariyi kurup yapılandırılmış işleri böyle küçük modellere devretme şeklinde mi, her iki tarafı da deneyip test etmiş birinin ne düşündüğünü duymak isterim
Ne yazık ki şimdilik karşılaştırılamazlar
Opus ile karmaşık kod tabanlarında bile tasarım, mimari önerileri ve kod değişiklikleri konusunda güvenerek çalışabiliyorum
Küçük modeller ise daha çok “deniyorlar” hissi veriyor. Küçük işlerde oluyor ama karmaşık işlerde bizzat yapmaktan daha fazla iş çıkardıkları sık oluyor
Keşke farklı olsa; 1~2 yıl sonra farklı da olabilir
claude code'da opusplan var; plan modunda Opus kullanıp yürütmede Sonnet'e geçiyor
https://code.claude.com/docs/en/model-config#opusplan-model-...
Düzeltme: Planı Sonnet, yürütmeyi Haiku yapacak şekilde ya da istediğiniz başka kombinasyonlarla da yapılandırılabiliyor
https://code.claude.com/docs/en/model-config#control-the-mod...
Basit özellikler için tam bir plan kurmuyorum. Biraz kod yazıp kısa bir tek satırlık prompt ile modele ne yapması gerektiğini söylüyorum. Bazen yön vermek için koda geçici yorumlar ekliyorum
Genelde kod değişikliği bir dosya ya da paket içinde kaldığında Haiku isteği takip edecek ve çok fazla mahvetmeyecek kadar yeterli oluyor. Zaman içinde yön verme becerisi de geliştirdim. GitHub Copilot kullandığım birkaç ay boyunca ay sonunda kalan kredileri alelacele harcamaya çalıştığım da olmuştu
Sadece AI kod tamamlama bile bazen oldukça iyi olabiliyor. Kodun ne yapması gerektiğini geçici yorumlarla yazıp sadece Tab-Tab-Tab yapınca tüm fonksiyonun tamamlandığı oluyor
İnsanlar daha gelişmiş modelin daha az bozacağını düşündüğü için o tarafa kayma eğiliminde, ama kodu gerçekten anlıyorsanız düşük seviye bir modelle etkileşimli çalışmak daha kolay oluyor
Ana sohbeti “orkestratör” olan Opus olarak belirliyorum, hedefi koyduktan sonra aşağıdaki alt ajanları sırayla kullanıp hedefe ulaşana kadar bastırmasını sağlıyorum
Tekrar: Orkestratör oturumunun token bütçesi bitene kadar devam eder. 1M gibi bir değere ayarlanabilir
Temel mantık, her adımı yönetilebilir boyutta tutarak talimata uyumu artırmak ve maliyeti düşürmektir. Çünkü önbelleğe alınmış tokenlar da maliyetlidir. Prompt tokenları üretim tokenlarından çok daha ucuz olduğundan, Opus'u işi bizzat yöneten olmaktan ziyade daha çok denetleyen yaparsanız maliyette de ciddi tasarruf sağlanır
Öz-iyileştirme aşaması çok pahalıdır ama iyileştirmeler birikir. Günler ya da haftalar sürecek işler koşturacaksanız bunu yapmamak çok daha pahalıya gelir
Düzeltme: Bunu Claude Code'da Anthropic modelleriyle de yapıyorum, çevrimdışı kullanım için Qwen ailesi modelleriyle de
Bu model halüsinasyon oranı düşük olduğu için keşif işleri için iyi; burada çıkan modelin de en iyi kullanım alanı muhtemelen benzer olacaktır. Birçok iş, plan ya da düzeltme öncesinde birden fazla keşif ajanı başlatıyor ve sonrasında birkaç araç çağrısıyla bitiyor; bu yüzden token kullanımı da yüksek
Bu model Haiku 4.5 ile karşılaştırılıyor
Opus ya da Sonnet ile değil; Anthropic'in en küçük modeli olan Haiku ile, üstelik onun da 3 sürüm önceki versiyonuyla karşılaştırılıyor
Herkes neden pencere kaydırmasını böyle berbat şekilde yeniden uyguluyor?
Benchmark'lar hâlâ bu kadar düşükken modelin devrim niteliğindeymiş gibi pazarlanması çok tuhaf
Kodlama yeteneğinin düşük olması sorun değil deniyorsa, buna token fiyat artışı ve “genel amaçlı” model ayarını birlikte bakmak gerekir
Neden bunu matematik ajanı olarak satmıyorlar? Neden birbirlerinin işini kontrol edecek 4 ajanı benim kurmam gerekiyor?
5B parametreyle o seviyede puanlar oldukça iyi ve daha kısa süre öncesine kadar neredeyse inanılmaz sayılırdı
Küçük modeller giderek daha iyi olacak, buluttaki en ileri modeller de küçülecek diye düşünüyorum
Bugünkü devasa altyapı genişlemesinin bir süre sonra demiryolları gibi hissedilmesinin bir nedeni daha bu
Tanıtım blog yazısında çok daha fazla bilgi var
https://microsoft.ai/news/introducingmai-code-1-flash/
Ve bir model kartı da var
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
Başlıktaki aktif 5B ifadesi, 7 MAI modeliyle ilgili daha geniş bir duyurudan geliyor gibi görünüyor
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Önce Haiku’nun aslında ne için bir model olduğunu yeniden hatırlamak gerekiyordu
Anthropic son dönemde Haiku’nun pazarlamasına pek yüklenmedi
Hafif bir modele ihtiyaç varsa Sonnet kullanılıyor. Max planda neredeyse bedava sayılır ve oldukça hızlı. Genel kodlama işlerinde Haiku’nun pek bir yeri varmış gibi görünmüyor
Haiku, büyük ölçekli özetleme/sınıflandırma gerektiğinde kullanılan bir model gibi duruyor
Microsoft’un Haiku’yu kıyas noktası olarak alması düşük bir çıta
Keşke web sitesi Safari’de test edilseydi
iOS kullanıcılarının neredeyse hepsi varsayılan olarak Safari kullanıyor, masaüstü deneyimi de mobil ile epey benzer olduğu için test etmesi kolay
O kaydırma efekti benim ortamımda tamamen tekliyor. Chrome/Edge’de düzgün çalıştığını anlıyorum
Dün bile çıkmış olsaydı, Copilot’un otomatik model seçiminin 9 kat pahalı modeli kullanıp aylık kotayı sessizce bir öğleden sonra içinde eritmesini belki önleyebilirdi