2 puan yazan GN⁺ 2 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • MAI-Code-1-Flash, Microsoft'un günlük geliştirici iş akışlarında hızlı ve verimli kodlama desteğini hedefleyen yeni bir kodlama modeli ve VS Code'da GitHub Copilot bireysel kullanıcılarına dağıtılıyor
  • Microsoft, bu modeli gerçek geliştirme ortamındaki araçlar ve sistemlerle daha iyi etkileşim kuracak şekilde GitHub Copilot harness'i üzerinde doğrudan eğitti
  • Uyarlanabilir yanıt uzunluğu kontrolü sayesinde basit isteklere kısa yanıt verip karmaşık görevlerde daha fazla çıkarım bütçesi kullanıyor; en fazla %60 daha az token ile daha zor problemleri çözüyor {p:60}
  • Microsoft'un üretim harness değerlendirmesinde Claude Haiku 4.5'ten 4 temel kodlama benchmark'ının tamamında daha yüksek geçme oranı gösterdi ve SWE-Bench Pro'da %51.2'ye karşı %35.2 ile 16 puan öne geçti
  • Ayrı bir adversarial çıkarım benchmark'ında 186 soru ve 34 kategoride %85.8 düzeltilmiş doğruluk elde etti, ancak Einstellung trap gibi temel adversarial kategorilerde doğruluk %50'nin altında kalarak iyileştirme alanı olduğunu gösterdi

Çıkış ve dağıtım

  • MAI-Code-1-Flash, hızlı ve verimli günlük geliştirici desteği için oluşturulmuş yeni bir Microsoft kodlama modeli
  • Microsoft tarafından uçtan uca geliştirildi ve temiz, uygun şekilde lisanslanmış veriler kullanıyor
  • GitHub Copilot bireysel kullanıcılarının VS Code'una dağıtılıyor ve model seçicide ya da varsayılan Auto picker altında kullanılabiliyor
  • Ek ayar gerekmiyor; dağıtım ilerledikçe GitHub Copilot görevleri Auto picker üzerinden MAI-Code-1-Flash'a yönlendirecek veya modeli doğrudan model seçicide gösterecek
  • Geri bildirimler GitHub Community üzerinden alınacak

Geliştirici iş akışı odaklı tasarım

  • MAI-Code-1-Flash, yalnızca benchmark optimizasyonu için değil, geliştiricilerin her gün kullandığı üretim iş akışlarını merkeze alarak tasarlandı
  • Üretim ortamında kullanılan GitHub Copilot harness'i üzerinde doğrudan eğitilerek ajan benzeri kodlama görevlerinde çevredeki araç ve sistemleri nasıl kullanacağını öğrenmesi hedeflendi
  • Eğitim sırasında kontrol noktaları; temel yazılım mühendisliği görevleri, depo soru-cevapları, refaktör çalışmaları ve gerçek GitHub Copilot kullanımından uyarlanan telemetri tabanlı görevlerle değerlendirildi
  • Eğitim, değerlendirme ve üretim ortamlarını hizalama yaklaşımı, çevrimdışı iyileştirmelerin gerçek geliştirici kalitesine yansımasını sağlamayı amaçlıyor

Token verimliliği ve yanıt biçimi

  • Görev zorluğuna göre yanıt derinliğini ayarlamak için uyarlanabilir çözüm uzunluğu kontrolü eğitildi
  • Basit isteklere kısa yanıt veriyor; daha derin analiz veya daha geniş kod değişikliği gerektiren sorunlarda ise daha fazla çıkarım bütçesi kullanıyor
  • Böylece geliştiriciler yararlı çıktıları daha hızlı görmeye başlayabiliyor
  • MAI-Code-1-Flash, en fazla %60 daha az token ile daha zor problemleri çözüyor; gecikmeyi azaltma, maliyeti düşürme, token başına getiriyi artırma ve daha akıcı etkileşimli iş akışları hedefleniyor

Kodlama benchmark sonuçları

  • Microsoft, SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual ve Terminal Bench 2 üzerinde MAI-Code-1-Flash ile Claude Haiku 4.5'i aynı üretim harness'iyle değerlendirdi
  • Değerlendirme, görev başarı oranını ve her görevin tamamlanması için gereken ortalama çözüm token sayısını ölçtü
  • MAI-Code-1-Flash, test edilen 4 temel kodlama benchmark'ının tamamında Claude Haiku 4.5'ten daha yüksek geçme oranı elde etti
  • SWE-Bench Pro'daki çeşitli gerçek görevlerde %51.2'ye karşı %35.2 ile 16 puan öne geçti
  • SWE-Bench Verified'da en fazla %60 daha az token ile daha zor problemleri çözerek doğruluk ve verimliliğin aynı anda iyileşebileceğini gösterdi

Yönerge takibi, çıkarım ve sınırlamalar

  • MAI-Code-1-Flash, tabloda yer alan tüm benchmark'larda Claude Haiku 4.5'in önüne geçti; IF Bench'teki hassas yönerge takibinde +28.9 ile en büyük farkı gösterdi
  • Advanced IF'in rubrik tabanlı değerlendirmesinde ise +14.5 ile en dar fark görüldü
  • Güçlü yönerge takibi performansı, ajan tipi araç kullanımına da yansıyor
  • Matematik, bilim ve görsel üretim kodlamasındaki temel çıkarım yeteneklerinde de Claude Haiku 4.5'i geçti
  • Standart benchmark'lar, çıkarım kadar ezberi de ödüllendirebilir; bu nedenle Monty Hall problemini görmüş bir model doğru yanıtı verebilirken ödül düzeni ters çevrildiğinde başarısız olabilir
  • Microsoft, inverted classics, impossible tasks ve underdetermined scenarios gibi adversarial tuzaklara odaklanan 186 soru ve 34 kategorilik bir benchmark oluşturdu
  • MAI-Code-1-Flash, bu adversarial benchmark'ta genel olarak Claude Haiku 4.5'i geride bıraktı ve %85.8 düzeltilmiş doğruluğa ulaştı
  • Özellikle çıkarım, yönerge takibi ve imkânsız problemleri fark etmede güçlü performans gösterdi; ancak Einstellung trap gibi temel adversarial kategorilerde doğruluk %50'nin altında kaldığı için iyileştirme alanı sürüyor

1 yorum

 
GN⁺ 2 시간 전
Hacker News görüşleri
  • Model kartına göre bu toplam 137B parametreli bir model
    Performansı pek iyi görünmüyor: MAI-Code-1-Flash (137B-A5B) SWE-bench pro'da %51, Qwen3.6-35B-A3B ise SWE-bench pro'da %49,5(https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
    Claude Haiku ile karşılaştırılıyor ama Haiku iyi bir model değil; yerelde ya da API üzerinden maliyetin %10'u seviyesinde çalıştırılabilen küçük açık modellerden bile daha kötü

    • Asıl nokta, bu modelin Haiku ile rekabet eden küçük bir model olması gibi görünüyor; sırada "Sonnet" seviyesinde, ardından da Opus seviyesinde rakip modeller gelmesini umuyorum
      Microsoft'un neden Copilot'ta kendi geliştirdiği modeli sunmayı bu kadar geciktirdiğini merak ediyordum; bunun OpenAI ile yapılan anlaşmanın bir parçası olabileceğini düşünmeye başladım
    • 137B-A5B ise, önceki başlığın ima ettiği 5B parametreli model değil
  • Başlangıç için iyi ve rekabet hoş karşılanır, ama Haiku 4.5 gibi küçük bulut modellerini kodlama için neredeyse hiç kullanmadım
    Sevimli olsalar da ciddi kodlamada çoğu zaman pahalı olan benim zamanımı boşa harcıyorlar ve bu beni dün iptal ettiğim GitHub Copilot'a geri döndürecek kadar etkileyici değil
    GitHub Copilot düne kadar fiyat açısından rekabetçiydi ama istek başına ücretlendirmede en pahalı tarafta yer alan, token başına kota modeline geçti. Gülmek isterseniz yanan subreddit'e bakın: https://www.reddit.com/r/GithubCopilot
    Sonrasında neredeyse bedavaya Sonnet+ seviyesinde olan DeepSeek Flash high'a geçtim; daha akıllı bir modele ihtiyaç duyarsam aylık $20'lık Codex'e abone olup şu anda erişilebilir en iyi model olduğunu düşündüğüm GPT 5.5'i kullanırım

    • Büyük modeli kullanarak işi topolojik olarak sıralanmış bir görev grafiği şeklinde organize ediyorum, karmaşıklığa göre her göreve küçük modeller atıyorum, ardından büyük model değerlendirme yapıp gerekli yerleri yamalıyor
      Bu yaklaşımda günlük işlerde Haiku'yu oldukça sık kullanıyorum ve saatler süren yüksek karmaşıklıktaki işleri de daha iyi sonuçlarla ve çok daha düşük maliyetle halletmek mümkün oluyor. Üstteki orkestratör görevleri etkili biçimde düzenliyor, kaliteyi gözden geçiriyor ve gereken yerlerde birleştirerek tek bir context window içinde çok büyük bir emeği yerine getiriyor
      Haiku'yu doğrudan kullanmıyorum ama büyük işlerdeki token kullanımının %30-40'ını oluşturduğu çok oluyor. Hem tamamlanma süresi hem maliyet iyileşiyor ve Haiku, kelimesi kelimesine verilen talimatları ve planı “yeniden yorumlamadan” izleme konusunda daha iyi; buna karşılık Opus seviyesindeki modeller düşünme sürecinde sürekli şüphe edip geri soru sorma eğiliminde
      Bu yüzden Haiku zaman kaybı değil, aksine inanılmaz zaman kazandırıyor. Ama bu noktaya gelmek için önce orkestrasyon sistemini kurup onu sürekli yinelemeli olarak iyileştirmeye çok zaman harcadım. İlginç biçimde, direktör ve sonrasında distinguished engineer olarak çalışma deneyimim, bunu sonuna kadar istikrarlı şekilde çalıştıracak araçları bana verdi; farklı yeteneklerde çoklu ajan akışları da 1000 kişilik bir mühendislik organizasyonunun dinamiklerinden çok da farklı değil
    • Zor güvenlik açıklarını bulma amacıyla birden fazla modeli benchmark ettim ve bu süreçte Haiku ve Sonnet'e olan güvenim ciddi biçimde düştü
      Kendi barındırdığım Qwen 3.6 27B, güvenlik açığı tespitinde ikisini de tutarlı biçimde geçti ve bu oldukça şaşırtıcı bir sonuçtu. Qwen'in Haiku seviyesinde ya da biraz altında olacağını, Sonnet'ten ise kesinlikle daha kötü olacağını düşünüyordum
      DeepSeek ve MiMo, Haiku ve Sonnet'ten çok daha iyi performans gösteriyor ve maliyetleri bunun sadece bir kısmı; ayrıca Opus/GPT 5.5 seviyesine daha yakınlar
      Ücretsiz gelmiyorsa ya da zaten çoğu zaman tüketemeyeceğiniz bir aboneliğe dahil değilse, Haiku ya da Sonnet kullanmak için neredeyse hiçbir neden görünmüyor
    • Neredeyse aynı durum bende de var. DeepSeek neredeyse hiç ret vermedi ve Çin tarzı değerler sayesinde tersine mühendislik, telifli dosya bulma ve kaynağı şüpheli kaynak kodla çalışma gibi konularda çok daha az sürtünme vardı
      Copilot fiyatını %90 düşürse bile geri döneceğimi sanmıyorum
    • Bu, Qwen 3.6, Gemma 4, Nemotron 3 Super gibi bir aralıkta görünüyor
      Haiku'ya benzer şekilde rekabetçi pek çok model var ve Qwen 3.6 35B-A3B gibi çok daha küçük ve ucuz olanlar da mevcut. Bunlar bir dizüstünde çalıştırılabildiği için Microsoft'tan kiralamaya gerek yok
      Yeni Copilot faturası karşısında afallamış ama ekosistemde kalmak isteyenler için kullanılabilir bir seçenek olabilir, ancak çoğu kişi için çok daha iyi seçenekler var
    • Aylık $20'lık ChatGPT planına Codex'in dahil olması iyi bir fiyat/performans sunuyor
      Sadece premium ChatGPT bile idare eder; düzenli olarak kullanım sınırına takılsanız da çoğu işi yapabilirsiniz
  • Gerçekte böyle küçük modelleri kodlama için kullanan var mı? Varsa nasıl kullandığını merak ediyorum
    Genelde her şeyi Opus ile hallediyorum. Daha ağır bir modelle plan/tasarım/mimariyi kurup yapılandırılmış işleri böyle küçük modellere devretme şeklinde mi, her iki tarafı da deneyip test etmiş birinin ne düşündüğünü duymak isterim

    • İşte Opus 4.x kullanıyorum, evde ise böyle “küçük” modelleri (20~80B, aktif 3~4B) kullanıyorum
      Ne yazık ki şimdilik karşılaştırılamazlar
      Opus ile karmaşık kod tabanlarında bile tasarım, mimari önerileri ve kod değişiklikleri konusunda güvenerek çalışabiliyorum
      Küçük modeller ise daha çok “deniyorlar” hissi veriyor. Küçük işlerde oluyor ama karmaşık işlerde bizzat yapmaktan daha fazla iş çıkardıkları sık oluyor
      Keşke farklı olsa; 1~2 yıl sonra farklı da olabilir
    • Daha ağır bir modelle plan/tasarım/mimari yapıp yapılandırılmış işleri küçük modele verme işi her zaman böyleydi
      claude code'da opusplan var; plan modunda Opus kullanıp yürütmede Sonnet'e geçiyor
      https://code.claude.com/docs/en/model-config#opusplan-model-...
      Düzeltme: Planı Sonnet, yürütmeyi Haiku yapacak şekilde ya da istediğiniz başka kombinasyonlarla da yapılandırılabiliyor
      https://code.claude.com/docs/en/model-config#control-the-mod...
    • Haiku epey ucuz ve çok büyük hatalar yapmadığı için, eski Copilot planında mevcut projelerde etkileşimli kodlama için kullanıyordum
      Basit özellikler için tam bir plan kurmuyorum. Biraz kod yazıp kısa bir tek satırlık prompt ile modele ne yapması gerektiğini söylüyorum. Bazen yön vermek için koda geçici yorumlar ekliyorum
      Genelde kod değişikliği bir dosya ya da paket içinde kaldığında Haiku isteği takip edecek ve çok fazla mahvetmeyecek kadar yeterli oluyor. Zaman içinde yön verme becerisi de geliştirdim. GitHub Copilot kullandığım birkaç ay boyunca ay sonunda kalan kredileri alelacele harcamaya çalıştığım da olmuştu
      Sadece AI kod tamamlama bile bazen oldukça iyi olabiliyor. Kodun ne yapması gerektiğini geçici yorumlarla yazıp sadece Tab-Tab-Tab yapınca tüm fonksiyonun tamamlandığı oluyor
      İnsanlar daha gelişmiş modelin daha az bozacağını düşündüğü için o tarafa kayma eğiliminde, ama kodu gerçekten anlıyorsanız düşük seviye bir modelle etkileşimli çalışmak daha kolay oluyor
    • Değişiklik uygulama işini ayrı sorumluluklara bölüyorum
      Ana sohbeti “orkestratör” olan Opus olarak belirliyorum, hedefi koyduktan sonra aşağıdaki alt ajanları sırayla kullanıp hedefe ulaşana kadar bastırmasını sağlıyorum
      1. Adım yürütme (Sonnet): Orkestratör talimatlarına göre 30 dakika/100k token boyunca çalışır
      2. İnceleme (Opus): Önceki adımın işini hata ve talimata sadakat açısından yakından kontrol eder, düzeltir ve hata ile token kullanımını azaltmak için ajan ayarı+araç iyileştirme fırsatlarını dosyaya kaydeder
      3. Öz-iyileştirme (Opus): Kullanıcı müdahalesi gerektirmeyen, etkisi yüksek öz-iyileştirme maddelerini uygular
        Tekrar: Orkestratör oturumunun token bütçesi bitene kadar devam eder. 1M gibi bir değere ayarlanabilir
        Temel mantık, her adımı yönetilebilir boyutta tutarak talimata uyumu artırmak ve maliyeti düşürmektir. Çünkü önbelleğe alınmış tokenlar da maliyetlidir. Prompt tokenları üretim tokenlarından çok daha ucuz olduğundan, Opus'u işi bizzat yöneten olmaktan ziyade daha çok denetleyen yaparsanız maliyette de ciddi tasarruf sağlanır
        Öz-iyileştirme aşaması çok pahalıdır ama iyileştirmeler birikir. Günler ya da haftalar sürecek işler koşturacaksanız bunu yapmamak çok daha pahalıya gelir
        Düzeltme: Bunu Claude Code'da Anthropic modelleriyle de yapıyorum, çevrimdışı kullanım için Qwen ailesi modelleriyle de
    • Claude Code'un kendisi de birçok alt ajanı Haiku ile başlatıyor
      Bu model halüsinasyon oranı düşük olduğu için keşif işleri için iyi; burada çıkan modelin de en iyi kullanım alanı muhtemelen benzer olacaktır. Birçok iş, plan ya da düzeltme öncesinde birden fazla keşif ajanı başlatıyor ve sonrasında birkaç araç çağrısıyla bitiyor; bu yüzden token kullanımı da yüksek
  • Bu model Haiku 4.5 ile karşılaştırılıyor
    Opus ya da Sonnet ile değil; Anthropic'in en küçük modeli olan Haiku ile, üstelik onun da 3 sürüm önceki versiyonuyla karşılaştırılıyor

    • 4.5 hâlâ en güncel Haiku modeli
  • Herkes neden pencere kaydırmasını böyle berbat şekilde yeniden uyguluyor?

    • Muhtemelen vibe coding ile yapılmış. Ben StopTheMadness ile engelliyorum
    • Hemen gözüme battı, ben de anında kapattım
  • Benchmark'lar hâlâ bu kadar düşükken modelin devrim niteliğindeymiş gibi pazarlanması çok tuhaf
    Kodlama yeteneğinin düşük olması sorun değil deniyorsa, buna token fiyat artışı ve “genel amaçlı” model ayarını birlikte bakmak gerekir
    Neden bunu matematik ajanı olarak satmıyorlar? Neden birbirlerinin işini kontrol edecek 4 ajanı benim kurmam gerekiyor?

    • Anladığım kadarıyla, diğer modellerin aksine MAI modeli, benchmark puanlarını yükseltmek üzere özel tasarlanmış sentetik veri setleriyle henüz ince ayar görmediği için böyle
    • Esas mesele fiyat/performans
      5B parametreyle o seviyede puanlar oldukça iyi ve daha kısa süre öncesine kadar neredeyse inanılmaz sayılırdı
      Küçük modeller giderek daha iyi olacak, buluttaki en ileri modeller de küçülecek diye düşünüyorum
      Bugünkü devasa altyapı genişlemesinin bir süre sonra demiryolları gibi hissedilmesinin bir nedeni daha bu
  • Tanıtım blog yazısında çok daha fazla bilgi var
    https://microsoft.ai/news/introducingmai-code-1-flash/
    Ve bir model kartı da var
    https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
    Başlıktaki aktif 5B ifadesi, 7 MAI modeliyle ilgili daha geniş bir duyurudan geliyor gibi görünüyor
    https://microsoft.ai/news/building-a-hillclimbing-machine-la...

  • Önce Haiku’nun aslında ne için bir model olduğunu yeniden hatırlamak gerekiyordu
    Anthropic son dönemde Haiku’nun pazarlamasına pek yüklenmedi
    Hafif bir modele ihtiyaç varsa Sonnet kullanılıyor. Max planda neredeyse bedava sayılır ve oldukça hızlı. Genel kodlama işlerinde Haiku’nun pek bir yeri varmış gibi görünmüyor
    Haiku, büyük ölçekli özetleme/sınıflandırma gerektiğinde kullanılan bir model gibi duruyor
    Microsoft’un Haiku’yu kıyas noktası olarak alması düşük bir çıta

    • “Max planda neredeyse bedava” sözü komik bir çelişki
  • Keşke web sitesi Safari’de test edilseydi
    iOS kullanıcılarının neredeyse hepsi varsayılan olarak Safari kullanıyor, masaüstü deneyimi de mobil ile epey benzer olduğu için test etmesi kolay
    O kaydırma efekti benim ortamımda tamamen tekliyor. Chrome/Edge’de düzgün çalıştığını anlıyorum

    • Firefox+macOS’ta da bariz biçimde scroll hijacking gibi bir şey var ve hissiyatı korkunç
  • Dün bile çıkmış olsaydı, Copilot’un otomatik model seçiminin 9 kat pahalı modeli kullanıp aylık kotayı sessizce bir öğleden sonra içinde eritmesini belki önleyebilirdi