MAI-Code-1-Flash

(microsoft.ai)

3 puan yazan GN⁺ 2026-06-03 | 1 yorum | WhatsApp'ta paylaş

MAI-Code-1-Flash, Microsoft'un günlük geliştirici iş akışlarında hızlı ve verimli kodlama desteğini hedefleyen yeni bir kodlama modeli ve VS Code'da GitHub Copilot bireysel kullanıcılarına dağıtılıyor
Microsoft, bu modeli gerçek geliştirme ortamındaki araçlar ve sistemlerle daha iyi etkileşim kuracak şekilde GitHub Copilot harness'i üzerinde doğrudan eğitti
Uyarlanabilir yanıt uzunluğu kontrolü sayesinde basit isteklere kısa yanıt verip karmaşık görevlerde daha fazla çıkarım bütçesi kullanıyor; en fazla %60 daha az token ile daha zor problemleri çözüyor {p:60}
Microsoft'un üretim harness değerlendirmesinde Claude Haiku 4.5'ten 4 temel kodlama benchmark'ının tamamında daha yüksek geçme oranı gösterdi ve SWE-Bench Pro'da %51.2'ye karşı %35.2 ile 16 puan öne geçti
Ayrı bir adversarial çıkarım benchmark'ında 186 soru ve 34 kategoride %85.8 düzeltilmiş doğruluk elde etti, ancak Einstellung trap gibi temel adversarial kategorilerde doğruluk %50'nin altında kalarak iyileştirme alanı olduğunu gösterdi

Çıkış ve dağıtım

MAI-Code-1-Flash, hızlı ve verimli günlük geliştirici desteği için oluşturulmuş yeni bir Microsoft kodlama modeli
Microsoft tarafından uçtan uca geliştirildi ve temiz, uygun şekilde lisanslanmış veriler kullanıyor
GitHub Copilot bireysel kullanıcılarının VS Code'una dağıtılıyor ve model seçicide ya da varsayılan Auto picker altında kullanılabiliyor
Ek ayar gerekmiyor; dağıtım ilerledikçe GitHub Copilot görevleri Auto picker üzerinden MAI-Code-1-Flash'a yönlendirecek veya modeli doğrudan model seçicide gösterecek
Geri bildirimler GitHub Community üzerinden alınacak

Geliştirici iş akışı odaklı tasarım

MAI-Code-1-Flash, yalnızca benchmark optimizasyonu için değil, geliştiricilerin her gün kullandığı üretim iş akışlarını merkeze alarak tasarlandı
Üretim ortamında kullanılan GitHub Copilot harness'i üzerinde doğrudan eğitilerek ajan benzeri kodlama görevlerinde çevredeki araç ve sistemleri nasıl kullanacağını öğrenmesi hedeflendi
Eğitim sırasında kontrol noktaları; temel yazılım mühendisliği görevleri, depo soru-cevapları, refaktör çalışmaları ve gerçek GitHub Copilot kullanımından uyarlanan telemetri tabanlı görevlerle değerlendirildi
Eğitim, değerlendirme ve üretim ortamlarını hizalama yaklaşımı, çevrimdışı iyileştirmelerin gerçek geliştirici kalitesine yansımasını sağlamayı amaçlıyor

Token verimliliği ve yanıt biçimi

Görev zorluğuna göre yanıt derinliğini ayarlamak için uyarlanabilir çözüm uzunluğu kontrolü eğitildi
Basit isteklere kısa yanıt veriyor; daha derin analiz veya daha geniş kod değişikliği gerektiren sorunlarda ise daha fazla çıkarım bütçesi kullanıyor
Böylece geliştiriciler yararlı çıktıları daha hızlı görmeye başlayabiliyor
MAI-Code-1-Flash, en fazla %60 daha az token ile daha zor problemleri çözüyor; gecikmeyi azaltma, maliyeti düşürme, token başına getiriyi artırma ve daha akıcı etkileşimli iş akışları hedefleniyor

Kodlama benchmark sonuçları

Microsoft, SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual ve Terminal Bench 2 üzerinde MAI-Code-1-Flash ile Claude Haiku 4.5'i aynı üretim harness'iyle değerlendirdi
Değerlendirme, görev başarı oranını ve her görevin tamamlanması için gereken ortalama çözüm token sayısını ölçtü
MAI-Code-1-Flash, test edilen 4 temel kodlama benchmark'ının tamamında Claude Haiku 4.5'ten daha yüksek geçme oranı elde etti
SWE-Bench Pro'daki çeşitli gerçek görevlerde %51.2'ye karşı %35.2 ile 16 puan öne geçti
SWE-Bench Verified'da en fazla %60 daha az token ile daha zor problemleri çözerek doğruluk ve verimliliğin aynı anda iyileşebileceğini gösterdi

Yönerge takibi, çıkarım ve sınırlamalar

MAI-Code-1-Flash, tabloda yer alan tüm benchmark'larda Claude Haiku 4.5'in önüne geçti; IF Bench'teki hassas yönerge takibinde +28.9 ile en büyük farkı gösterdi
Advanced IF'in rubrik tabanlı değerlendirmesinde ise +14.5 ile en dar fark görüldü
Güçlü yönerge takibi performansı, ajan tipi araç kullanımına da yansıyor
Matematik, bilim ve görsel üretim kodlamasındaki temel çıkarım yeteneklerinde de Claude Haiku 4.5'i geçti
Standart benchmark'lar, çıkarım kadar ezberi de ödüllendirebilir; bu nedenle Monty Hall problemini görmüş bir model doğru yanıtı verebilirken ödül düzeni ters çevrildiğinde başarısız olabilir
Microsoft, inverted classics, impossible tasks ve underdetermined scenarios gibi adversarial tuzaklara odaklanan 186 soru ve 34 kategorilik bir benchmark oluşturdu
MAI-Code-1-Flash, bu adversarial benchmark'ta genel olarak Claude Haiku 4.5'i geride bıraktı ve %85.8 düzeltilmiş doğruluğa ulaştı
Özellikle çıkarım, yönerge takibi ve imkânsız problemleri fark etmede güçlü performans gösterdi; ancak Einstellung trap gibi temel adversarial kategorilerde doğruluk %50'nin altında kaldığı için iyileştirme alanı sürüyor

1 yorum

GN⁺ 2026-06-03

Hacker News görüşleri

Model kartına göre bu toplam 137B parametreli bir model
Performansı pek iyi görünmüyor: MAI-Code-1-Flash (137B-A5B) SWE-bench pro'da %51, Qwen3.6-35B-A3B ise SWE-bench pro'da %49,5(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Claude Haiku ile karşılaştırılıyor ama Haiku iyi bir model değil; yerelde ya da API üzerinden maliyetin %10'u seviyesinde çalıştırılabilen küçük açık modellerden bile daha kötü
- Asıl nokta, bu modelin Haiku ile rekabet eden küçük bir model olması gibi görünüyor; sırada "Sonnet" seviyesinde, ardından da Opus seviyesinde rakip modeller gelmesini umuyorum
  Microsoft'un neden Copilot'ta kendi geliştirdiği modeli sunmayı bu kadar geciktirdiğini merak ediyordum; bunun OpenAI ile yapılan anlaşmanın bir parçası olabileceğini düşünmeye başladım
- 137B-A5B ise, önceki başlığın ima ettiği 5B parametreli model değil
Başlangıç için iyi ve rekabet hoş karşılanır, ama Haiku 4.5 gibi küçük bulut modellerini kodlama için neredeyse hiç kullanmadım
Sevimli olsalar da ciddi kodlamada çoğu zaman pahalı olan benim zamanımı boşa harcıyorlar ve bu beni dün iptal ettiğim GitHub Copilot'a geri döndürecek kadar etkileyici değil
GitHub Copilot düne kadar fiyat açısından rekabetçiydi ama istek başına ücretlendirmede en pahalı tarafta yer alan, token başına kota modeline geçti. Gülmek isterseniz yanan subreddit'e bakın: https://www.reddit.com/r/GithubCopilot
Sonrasında neredeyse bedavaya Sonnet+ seviyesinde olan DeepSeek Flash high'a geçtim; daha akıllı bir modele ihtiyaç duyarsam aylık $20'lık Codex'e abone olup şu anda erişilebilir en iyi model olduğunu düşündüğüm GPT 5.5'i kullanırım
- Büyük modeli kullanarak işi topolojik olarak sıralanmış bir görev grafiği şeklinde organize ediyorum, karmaşıklığa göre her göreve küçük modeller atıyorum, ardından büyük model değerlendirme yapıp gerekli yerleri yamalıyor
  Bu yaklaşımda günlük işlerde Haiku'yu oldukça sık kullanıyorum ve saatler süren yüksek karmaşıklıktaki işleri de daha iyi sonuçlarla ve çok daha düşük maliyetle halletmek mümkün oluyor. Üstteki orkestratör görevleri etkili biçimde düzenliyor, kaliteyi gözden geçiriyor ve gereken yerlerde birleştirerek tek bir context window içinde çok büyük bir emeği yerine getiriyor
  Haiku'yu doğrudan kullanmıyorum ama büyük işlerdeki token kullanımının %30-40'ını oluşturduğu çok oluyor. Hem tamamlanma süresi hem maliyet iyileşiyor ve Haiku, kelimesi kelimesine verilen talimatları ve planı “yeniden yorumlamadan” izleme konusunda daha iyi; buna karşılık Opus seviyesindeki modeller düşünme sürecinde sürekli şüphe edip geri soru sorma eğiliminde
  Bu yüzden Haiku zaman kaybı değil, aksine inanılmaz zaman kazandırıyor. Ama bu noktaya gelmek için önce orkestrasyon sistemini kurup onu sürekli yinelemeli olarak iyileştirmeye çok zaman harcadım. İlginç biçimde, direktör ve sonrasında distinguished engineer olarak çalışma deneyimim, bunu sonuna kadar istikrarlı şekilde çalıştıracak araçları bana verdi; farklı yeteneklerde çoklu ajan akışları da 1000 kişilik bir mühendislik organizasyonunun dinamiklerinden çok da farklı değil
- Zor güvenlik açıklarını bulma amacıyla birden fazla modeli benchmark ettim ve bu süreçte Haiku ve Sonnet'e olan güvenim ciddi biçimde düştü
  Kendi barındırdığım Qwen 3.6 27B, güvenlik açığı tespitinde ikisini de tutarlı biçimde geçti ve bu oldukça şaşırtıcı bir sonuçtu. Qwen'in Haiku seviyesinde ya da biraz altında olacağını, Sonnet'ten ise kesinlikle daha kötü olacağını düşünüyordum
  DeepSeek ve MiMo, Haiku ve Sonnet'ten çok daha iyi performans gösteriyor ve maliyetleri bunun sadece bir kısmı; ayrıca Opus/GPT 5.5 seviyesine daha yakınlar
  Ücretsiz gelmiyorsa ya da zaten çoğu zaman tüketemeyeceğiniz bir aboneliğe dahil değilse, Haiku ya da Sonnet kullanmak için neredeyse hiçbir neden görünmüyor
- Neredeyse aynı durum bende de var. DeepSeek neredeyse hiç ret vermedi ve Çin tarzı değerler sayesinde tersine mühendislik, telifli dosya bulma ve kaynağı şüpheli kaynak kodla çalışma gibi konularda çok daha az sürtünme vardı
  Copilot fiyatını %90 düşürse bile geri döneceğimi sanmıyorum
- Bu, Qwen 3.6, Gemma 4, Nemotron 3 Super gibi bir aralıkta görünüyor
  Haiku'ya benzer şekilde rekabetçi pek çok model var ve Qwen 3.6 35B-A3B gibi çok daha küçük ve ucuz olanlar da mevcut. Bunlar bir dizüstünde çalıştırılabildiği için Microsoft'tan kiralamaya gerek yok
  Yeni Copilot faturası karşısında afallamış ama ekosistemde kalmak isteyenler için kullanılabilir bir seçenek olabilir, ancak çoğu kişi için çok daha iyi seçenekler var
- Aylık $20'lık ChatGPT planına Codex'in dahil olması iyi bir fiyat/performans sunuyor
  Sadece premium ChatGPT bile idare eder; düzenli olarak kullanım sınırına takılsanız da çoğu işi yapabilirsiniz
Gerçekte böyle küçük modelleri kodlama için kullanan var mı? Varsa nasıl kullandığını merak ediyorum
Genelde her şeyi Opus ile hallediyorum. Daha ağır bir modelle plan/tasarım/mimariyi kurup yapılandırılmış işleri böyle küçük modellere devretme şeklinde mi, her iki tarafı da deneyip test etmiş birinin ne düşündüğünü duymak isterim
- İşte Opus 4.x kullanıyorum, evde ise böyle “küçük” modelleri (20~80B, aktif 3~4B) kullanıyorum
  Ne yazık ki şimdilik karşılaştırılamazlar
  Opus ile karmaşık kod tabanlarında bile tasarım, mimari önerileri ve kod değişiklikleri konusunda güvenerek çalışabiliyorum
  Küçük modeller ise daha çok “deniyorlar” hissi veriyor. Küçük işlerde oluyor ama karmaşık işlerde bizzat yapmaktan daha fazla iş çıkardıkları sık oluyor
  Keşke farklı olsa; 1~2 yıl sonra farklı da olabilir
- Daha ağır bir modelle plan/tasarım/mimari yapıp yapılandırılmış işleri küçük modele verme işi her zaman böyleydi
  claude code'da opusplan var; plan modunda Opus kullanıp yürütmede Sonnet'e geçiyor
  https://code.claude.com/docs/en/model-config#opusplan-model-...
  Düzeltme: Planı Sonnet, yürütmeyi Haiku yapacak şekilde ya da istediğiniz başka kombinasyonlarla da yapılandırılabiliyor
  https://code.claude.com/docs/en/model-config#control-the-mod...
- Haiku epey ucuz ve çok büyük hatalar yapmadığı için, eski Copilot planında mevcut projelerde etkileşimli kodlama için kullanıyordum
  Basit özellikler için tam bir plan kurmuyorum. Biraz kod yazıp kısa bir tek satırlık prompt ile modele ne yapması gerektiğini söylüyorum. Bazen yön vermek için koda geçici yorumlar ekliyorum
  Genelde kod değişikliği bir dosya ya da paket içinde kaldığında Haiku isteği takip edecek ve çok fazla mahvetmeyecek kadar yeterli oluyor. Zaman içinde yön verme becerisi de geliştirdim. GitHub Copilot kullandığım birkaç ay boyunca ay sonunda kalan kredileri alelacele harcamaya çalıştığım da olmuştu
  Sadece AI kod tamamlama bile bazen oldukça iyi olabiliyor. Kodun ne yapması gerektiğini geçici yorumlarla yazıp sadece Tab-Tab-Tab yapınca tüm fonksiyonun tamamlandığı oluyor
  İnsanlar daha gelişmiş modelin daha az bozacağını düşündüğü için o tarafa kayma eğiliminde, ama kodu gerçekten anlıyorsanız düşük seviye bir modelle etkileşimli çalışmak daha kolay oluyor
- Değişiklik uygulama işini ayrı sorumluluklara bölüyorum
  Ana sohbeti “orkestratör” olan Opus olarak belirliyorum, hedefi koyduktan sonra aşağıdaki alt ajanları sırayla kullanıp hedefe ulaşana kadar bastırmasını sağlıyorum
  1. Adım yürütme (Sonnet): Orkestratör talimatlarına göre 30 dakika/100k token boyunca çalışır
  2. İnceleme (Opus): Önceki adımın işini hata ve talimata sadakat açısından yakından kontrol eder, düzeltir ve hata ile token kullanımını azaltmak için ajan ayarı+araç iyileştirme fırsatlarını dosyaya kaydeder
  3. Öz-iyileştirme (Opus): Kullanıcı müdahalesi gerektirmeyen, etkisi yüksek öz-iyileştirme maddelerini uygular
    Tekrar: Orkestratör oturumunun token bütçesi bitene kadar devam eder. 1M gibi bir değere ayarlanabilir
    Temel mantık, her adımı yönetilebilir boyutta tutarak talimata uyumu artırmak ve maliyeti düşürmektir. Çünkü önbelleğe alınmış tokenlar da maliyetlidir. Prompt tokenları üretim tokenlarından çok daha ucuz olduğundan, Opus'u işi bizzat yöneten olmaktan ziyade daha çok denetleyen yaparsanız maliyette de ciddi tasarruf sağlanır
    Öz-iyileştirme aşaması çok pahalıdır ama iyileştirmeler birikir. Günler ya da haftalar sürecek işler koşturacaksanız bunu yapmamak çok daha pahalıya gelir
    Düzeltme: Bunu Claude Code'da Anthropic modelleriyle de yapıyorum, çevrimdışı kullanım için Qwen ailesi modelleriyle de
- Claude Code'un kendisi de birçok alt ajanı Haiku ile başlatıyor
  Bu model halüsinasyon oranı düşük olduğu için keşif işleri için iyi; burada çıkan modelin de en iyi kullanım alanı muhtemelen benzer olacaktır. Birçok iş, plan ya da düzeltme öncesinde birden fazla keşif ajanı başlatıyor ve sonrasında birkaç araç çağrısıyla bitiyor; bu yüzden token kullanımı da yüksek
Bu model Haiku 4.5 ile karşılaştırılıyor
Opus ya da Sonnet ile değil; Anthropic'in en küçük modeli olan Haiku ile, üstelik onun da 3 sürüm önceki versiyonuyla karşılaştırılıyor
- 4.5 hâlâ en güncel Haiku modeli
Herkes neden pencere kaydırmasını böyle berbat şekilde yeniden uyguluyor?
- Muhtemelen vibe coding ile yapılmış. Ben StopTheMadness ile engelliyorum
- Hemen gözüme battı, ben de anında kapattım
Benchmark'lar hâlâ bu kadar düşükken modelin devrim niteliğindeymiş gibi pazarlanması çok tuhaf
Kodlama yeteneğinin düşük olması sorun değil deniyorsa, buna token fiyat artışı ve “genel amaçlı” model ayarını birlikte bakmak gerekir
Neden bunu matematik ajanı olarak satmıyorlar? Neden birbirlerinin işini kontrol edecek 4 ajanı benim kurmam gerekiyor?
- Anladığım kadarıyla, diğer modellerin aksine MAI modeli, benchmark puanlarını yükseltmek üzere özel tasarlanmış sentetik veri setleriyle henüz ince ayar görmediği için böyle
- Esas mesele fiyat/performans
  5B parametreyle o seviyede puanlar oldukça iyi ve daha kısa süre öncesine kadar neredeyse inanılmaz sayılırdı
  Küçük modeller giderek daha iyi olacak, buluttaki en ileri modeller de küçülecek diye düşünüyorum
  Bugünkü devasa altyapı genişlemesinin bir süre sonra demiryolları gibi hissedilmesinin bir nedeni daha bu
Tanıtım blog yazısında çok daha fazla bilgi var
https://microsoft.ai/news/introducingmai-code-1-flash/
Ve bir model kartı da var
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
Başlıktaki aktif 5B ifadesi, 7 MAI modeliyle ilgili daha geniş bir duyurudan geliyor gibi görünüyor
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Önce Haiku’nun aslında ne için bir model olduğunu yeniden hatırlamak gerekiyordu
Anthropic son dönemde Haiku’nun pazarlamasına pek yüklenmedi
Hafif bir modele ihtiyaç varsa Sonnet kullanılıyor. Max planda neredeyse bedava sayılır ve oldukça hızlı. Genel kodlama işlerinde Haiku’nun pek bir yeri varmış gibi görünmüyor
Haiku, büyük ölçekli özetleme/sınıflandırma gerektiğinde kullanılan bir model gibi duruyor
Microsoft’un Haiku’yu kıyas noktası olarak alması düşük bir çıta
- “Max planda neredeyse bedava” sözü komik bir çelişki
Keşke web sitesi Safari’de test edilseydi
iOS kullanıcılarının neredeyse hepsi varsayılan olarak Safari kullanıyor, masaüstü deneyimi de mobil ile epey benzer olduğu için test etmesi kolay
O kaydırma efekti benim ortamımda tamamen tekliyor. Chrome/Edge’de düzgün çalıştığını anlıyorum
- Firefox+macOS’ta da bariz biçimde scroll hijacking gibi bir şey var ve hissiyatı korkunç
Dün bile çıkmış olsaydı, Copilot’un otomatik model seçiminin 9 kat pahalı modeli kullanıp aylık kotayı sessizce bir öğleden sonra içinde eritmesini belki önleyebilirdi

MAI-Code-1-Flash

Çıkış ve dağıtım

Geliştirici iş akışı odaklı tasarım

Token verimliliği ve yanıt biçimi

Kodlama benchmark sonuçları

Yönerge takibi, çıkarım ve sınırlamalar

İlgili okumalar

1 yorum

Hacker News görüşleri