- Moonshot AI’nin açık ağırlıklı modeli Kimi K2.6, AI Coding Contest Day 12’deki Word Gem Puzzle yarışmasını 22 maç puanı ve 7-1-0 dereceyle kazandı
- Xiaomi’nin MiMo V2-Pro modeli 20 puanla ikinci, ChatGPT GPT-5.5 16 puanla üçüncü, GLM 5.1 15 puanla dördüncü, Claude Opus 4.7 ise 12 puanla beşinci oldu; Anthropic, OpenAI, Google ve xAI modellerinin tamamı ilk iki modelin gerisinde kaldı
- Word Gem Puzzle, 10×10’dan 30×30’a kadar boyutlara sahip kayan taşlı bir harf bulmacası; 7 harften kısa kelimeler ceza alıyor, 7 harf ve üzeri kelimeler
uzunluk - 6puan getiriyor ve her model çifti, her ızgara boyutunda 10 saniye sınırla 5 tur oynuyor - Kimi K2.6, pozitif değerli kelimeleri açan hamleleri tekrar tekrar seçen açgözlü bir kaydırma stratejisiyle toplam 77 puan aldı; MiMo V2-Pro ise fiilen hiç kaydırma yapmadan başlangıç ızgarasındaki 7+ harfli kelimeleri tek seferde gönderip toplam 43 puanla ikinci oldu
- Bu sonuç tek bir bulmacanın genel kıyaslamaları tersine çevirdiği anlamına gelmese de, indirilebilir bir model olan Kimi K2.6’nın Artificial Analysis Intelligence Index’te GPT-5.5’in 60 ve Claude’un 57 puanına karşılık 54 puan alması, rekabet farkının daraldığını gösteriyor
Yarışmanın yapısı ve katılan modeller
- Zhipu AI’nin GLM 5.1 modeli dördüncü olurken, DeepSeek V4 sekizinci sırada kaldı
- Nvidia’nın Nemotron Super 3 ile üretilen kod sözdizimi hataları içerdiği için oyun sunucusuna bağlanamadı; bu yüzden gerçek yarışma 9 model arasında geçti
- Kimi K2.6, 2023’te kurulan Çinli girişim Moonshot AI’nin herkese açık olarak kullanılabilen açık ağırlıklı modeli; MiMo V2-Pro ise şu anda yalnızca API üzerinden erişilebiliyor
- Xiaomi, daha yeni V2.5 Pro modelinin ağırlıklarını yakında yayımlayacağını doğruladı
- Bu sonuç, basitçe “Çin Batı’yı geçti” anlatısından çok, Kimi K2.6 ve MiMo V2-Pro adlı iki belirli modelin zaferi olarak özetleniyor
Word Gem Puzzle kuralları
- Word Gem Puzzle, harf taşları ve tek bir boşluktan oluşan dikdörtgen bir ızgarada oynanan kayan taşlı bir kelime bulmacasıdır
- Izgara boyutu 10×10, 15×15, 20×20, 25×25 veya 30×30 olabilir; bot, boşluğa bitişik bir taşı o boşluğa itebilir
- Bot, istediği anda yatay veya dikey düz bir çizgide oluşan geçerli bir İngilizce kelimeyi gönderebilir
- Çapraz kelimeler ve tersten yazılan kelimeler kabul edilmez
- Puanlama, uzun kelimeleri ödüllendirip kısa kelimeleri cezalandıracak şekilde tasarlanmıştır
- 7 harften kısa kelimeler puan kaybettirir
- 5 harfli kelime 1 puan, 3 harfli kelime 3 puan düşürür
- 7 harf ve üzeri kelimeler
uzunluk - 6puan getirir; örneğin 8 harfli bir kelime 2 puandır
- Aynı kelime yalnızca bir kez gönderilebilir ve başka bir bot daha önce göndermişse puan kazandırmaz
- Her model çifti, her ızgara boyutu için bir tur olmak üzere toplam 5 tur oynadı ve her tur için gerçek zaman sınırı 10 saniyeydi
- Izgaralar, gerçek sözlük kelimeleri bulmaca benzeri çapraz yerleşimle yerleştirildikten sonra kalan hücrelerin Scrabble taş frekansına göre harflerle doldurulması ve son olarak boşluğun karıştırılmasıyla oluşturuldu
- Daha büyük tahtalar daha güçlü karıştırıldığı için 10×10’da birçok çekirdek kelime olduğu gibi kalırken, 30×30’da neredeyse hiçbiri kalmadı
Modellere göre davranış ve başarı/başarısızlık nedenleri
-
Kimi K2.6
- Kimi K2.6, aktif biçimde taş kaydırarak kazandı ve toplam 77 puan ile turnuvanın en yüksek skorunu yaptı
- Stratejisi açgözlüydü: mümkün olan her hamleyi, yeni açtığı pozitif değerli kelimelere göre puanlayıp en iyi hamleyi seçiyor ve bunu tekrarlıyordu
- Pozitif kelime açan bir hamle yoksa alfabetik sıraya göre ilk yasal yönü seçiyordu
- Bu yaklaşım bazen boşluğu ileri geri zıplatıp ilerleme sağlamayan verimsiz bir 2-cycle kenar döngüsü üretiyordu
- Küçük ızgaralarda çekirdek kelimelerin çoğu hâlâ yerinde olduğundan bu verimsizlik zarar yazdı; ancak 30×30’da neredeyse tüm kelimeler bozulduğu için yeniden kurulum gerekti ve çok sayıdaki kaydırma sonunda puana dönüştü
-
MiMo V2-Pro
- MiMo’nun kaydırma kodu depoda vardı, ancak “en yüksek değer 0’dan büyük” koşulu hiç tetiklenmediği için pratikte bir kez bile kaydırma yapmadı
- Bunun yerine başlangıç ızgarasındaki 7+ harfli kelimeleri tarayıp tüm gönderimleri tek bir TCP paketi içinde yolladı
- Bu strateji, karıştırmadan sonra çekirdek kelimelerin hâlâ görünür kalmasına tamamen bağımlı, kırılgan bir yaklaşımdı
- Kelimelerin kaldığı ızgaralarda hızlı puan aldı, kalmadığı ızgaralarda ise hiç puan çıkaramadı
- Nihai toplam skoru 43 puan oldu ve genel klasmanda ikinci sıraya yerleşti
-
Claude Opus 4.7
- Claude da kaydırma yapmadı
- Hamle kayıtlarına göre 25×25 tahtada karıştırma yoğunluğu hâlâ yönetilebilir düzeydeydi, ancak gerçek taş hareketi gerektiren 30×30’da çöktü
- Kayan taş bulmacasında hiç kaydırmamak açık bir sınır olarak ortaya çıktı
-
GPT-5.5
- GPT-5.5, tur başına yaklaşık 120 kaydırma yapan daha temkinli bir yaklaşım kullandı ve sonsuz ileri-geri döngülerini önlemek için bir üst sınır koydu
- En güçlü sonuçlarını 15×15 ve 30×30 ızgaralarda gösterdi
-
Grok Expert 4.2 ve GLM 5.1
- Grok kaydırma yapmadı ama büyük tahtalarda görece iyi puanlar aldı
- GLM, turnuvadaki en agresif kaydırma yapan modeldi ve toplam kaydırma sayısı 800 binin üzerine çıktı
- GLM, pozitif hamleler tükendiğinde ciddi şekilde duraksıyordu
-
DeepSeek V4
- DeepSeek her turda yanlış biçimlendirilmiş veri gönderdi
- Yararlı bir çıktı üretmedi, ancak oynayıp skoru daha da kötüleştirmedi
-
Muse Spark
- Muse, bulabildiği tüm kelimeleri uzunluklarına bakmadan gönderdi
- Puan sistemi, “the”, “and”, “it” gibi kısa kelimeleri ayrım gözetmeden spam’lemeyi önlemek için kısa kelimeleri cezalandıracak şekilde tasarlanmıştı ve rekabetçi modellerin hepsi sözlüğü 7+ harfli kelimelere filtreledi
- Muse, 30×30 ızgarada herhangi bir anda görülebilen yüzlerce kısa geçerli kelimeyi bularak hepsini gönderdi
- Toplam skoru −15.309 puan oldu; 8 maçın tamamını kaybetti ve hiç tur galibiyeti alamadı
- Sunucuya yalnızca bağlanıp hiçbir şey yapmayan bir Muse sürümü olsaydı 0 puan alacaktı; yani gerçek Muse’dan 15.309 puan daha iyi olacaktı
- Muse ile sekizinci sıra arasındaki fark, sekizinci sıra ile birinci sıra arasındaki farktan daha büyüktü
30×30 ızgaranın yarattığı fark
- 30×30 ızgara, katılımcı modeller arasındaki farkları en net biçimde ortaya çıkardı
- Küçük tahtalarda statik tarayıcılarla aktif kaydırıcılar arasındaki fark büyük değildi; ancak en büyük boyutta yalnızca mevcut kelimeleri arayan modeller artık gönderecek kelime bulamaz hâle geldi
- Kimi’nin açgözlü döngüsünde kusurlar vardı, ancak statik tarayıcıların teslim edecek kelimeyi kaybettiği durumda bile üretim yapmayı sürdürdü
- MiMo ile Kimi neredeyse zıt stratejiler kullanmasına rağmen nihai skor farkı yalnızca 2 puandı
- Birinci ile ikinci arasındaki farkta sadece yetenek farkı değil, seed değişkenliği de kısmen etkili oldu
Yapılandırılmış görevlerde ortaya çıkan riskler
- DeepSeek’in yanlış biçimli çıktısı, zaman baskısı altında yabancı bir protokol tanımını ele alış biçimine dair bir işaret niteliğinde
- Muse geçerli kelimeleri bulup gönderdi, ancak puanlama kurallarını da içeren “geçerlilik” anlamını uygulayamadı
- Muse’un başarısızlığı, görevi kısmen okuyup bu kısmi yorumu sonuna kadar yürütme biçiminde ortaya çıktı
- Ceza içeren yapılandırılmış görevlerde model dağıtımı yapılırken, kuralların tamamını yansıtmayan bir yürütme ciddi kayıplara yol açabilir
Sonucun yorumu: sınırlar ve anlamı
- Bu puan sistemi agresif kelime gönderimini ödüllendirecek şekilde kurulmuş durumda ve güçlü biçimde güvenlik ayarı yapılmış modeller bu tür ayrım gözetmeyen gönderimlerde daha temkinli davranabilir
- Böyle durumlarda sonuç, saf yetenek farkından çok görev tasarımı ile modele hizalanmış davranış arasındaki uyumsuzluğu yansıtabilir
- Tek bir meydan okuma, genel kıyaslamaları tersine çevirmez
- Bu bulmaca; gerçek zamanlı karar verme, TCP sunucusuna bağlanma ve yeni bir oyunu doğru şekilde oynayan çalışma kodu yazma becerisini test ediyor
- Uzun bağlam akıl yürütmesini veya genel olarak teknik şartnameye dayalı kod üretimini ölçen bir görev değil
- Kimi K2.6, Artificial Analysis Intelligence Index’te 54 puan, GPT-5.5 60 puan, Claude ise 57 puan aldı
- Bu puanlar tam bir eşitlik göstermese de birbirine yakın ve Kimi K2.6’nın herkesin indirebildiği bir model olması rekabet dengesini değiştiriyor
- Ön cephedeki modellere birkaç puan mesafede bir modeli yerelde serbestçe çalıştırabilmek, bir yıl öncesine göre farklı bir rekabet ortamı yaratıyor
- Bu meydan okuma, farkın küçüldüğünü ve bu tür sonuçların artık ortaya çıkabildiğini gösteren tek bir veri noktası
1 yorum
Hacker News görüşleri
Önümüzdeki 1 yıl boyunca bu tür yazılar çıkmaya devam edecek gibi görünüyor. Çünkü modelleri nesnel olarak karşılaştırmanın bir yolu yok. Token üretim hızı, ortalama çıkarım token sayısı, parametre sayısı, aktif uzman sayısı gibi düşük seviye sayıları çıkarırsanız, her modelin kullanım alanı da farklı, kullanıcısı da farklı ve sonuçlar da deterministik değil
Bu yüzden “bu model şu modeli yendi” türü benchmark’lar ve iddialar gelmeye devam edecek, ama en iyi model diye bir şey yok. Sadece herkesin kendi ölçütüne uyan model var ve sonunda Windows vs MacOS vs Linux gibi herkesin kendi kampında kaldığı bir dünyaya dönüşmesi çok olası
Bunlar açık kaynak ve Amerikan modellerine göre token başına maliyetleri çok daha düşük. Şu an $20’lık Ollama cloud planını kullanıyorum; Claude Pro’nun $20 planında bir iki prompt’ta limite dayanan yan proje işlerimi burada gerçekten yapabiliyorum. Ollama’yı sadece CLI’ı rahat olduğu için seçtim ve bu modelleri sunan çok sayıda sağlayıcı olduğu için kötü şartlara ya da kullanım kurallarına da bağlı kalmıyorsunuz. Bunu ABD ekonomisi için epey kötü bir işaret olarak görüyorum
Her modeli beklenen görevlere göre en yüksek performansı verecek şekilde ince ayarlarsanız, farklı benchmark’lardaki sıralamalar da oldukça yüksek düzeyde birbiriyle örtüşüyor: https://arxiv.org/abs/2507.05195
Ama bu yazının yazarı böyle bir süreç uygulamamış. Her modeli şimdiye kadar 13 soruda sadece birer kez çalıştırmış ve bunların içinden sadece 12. sorunun sonucunu öne çıkarmış. Burada p-değerini hiç düşünmediği için buna p-hacking demek bile zor. Büyük dil modeli kalitesi çalıştırmadan çalıştırmaya ciddi biçimde dalgalanıyor; dolayısıyla her modeli yalnızca bir kez çalıştırmak, iki madeni parayı birer kez atıp birinde tura, diğerinde yazı geldi diye hangisinin daha yanlı olduğunu söylemeye benziyor
Henüz yaygın biçimde benimsenmiş değil ve her paydaş için bir süre daha böyle kalması avantajlı bile olabilir. Pratikte p-hacking’e oldukça benziyor
Bloglar ve yazılar ya doğrudan iş modelidir ya da teknolojinin çevresindeki işlere trafik taşır; değerlendirme yazılarının önemli bir kısmı da ilgi çekmek içindir. Bunun kendisi kötü değil ama çok fazla gürültü üretiyor
Sektör, bir yazılım mühendisinin başka bir mühendisten nesnel olarak daha iyi olup olmadığını neredeyse hiçbir boyutta belirleyemiyor. O hâlde neden modeller için nesnel bir sıralama yapabileceğimizi sanıyoruz, bilmiyorum
Nesnel olarak puanlanabilen testlere doğru gidilmesini olumlu buluyorum
Biz bunu https://gertlabs.com/rankings üzerinde büyük ölçekte yapıyoruz ve yazarın tek seferlik bir örnek çalıştırmış gibi görünmesine rağmen Kimi K2.6’nın iyi performans göstermesi şaşırtıcı değil. Bizim testlerimize göre özellikle kodlamada Kimi, açık ağırlıklı modeller arasında zirvede olan MiMo V2.5 Pro ile istatistiksel belirsizlik aralığında aynı seviyede; araç kullanımında ise DeepSeek V4 Pro’dan açık biçimde daha iyi. GPT 5.5 rahat ara önde ama Kimi, Opus 4.6 ile aynı seviyede ya da daha iyi. Yine de Kimi 2.6’nın sorunu, test ettiğimiz modeller arasında yavaş tarafta kalması
Kodlamayı temsil etmesi için bu tür bulmacaları 100’den fazla örnekle, bulmaca yelpazesinin tamamına yayılmış şekilde test etmek gerekir; ancak o zaman İngilizce sözlük kullanan stratejiyi kimin daha iyi bulduğunu anlayabilirsiniz
Bu, burada dün Flash modellerinin tool calling’de daha iyi olduğuna dair yorumlarla da örtüşüyor. GPT 5.5 ile plan yapıp uygulamayı Flash modellere bırakmak, fiyat/performans açısından iyi bir yol olabilir
Performans sadece dile ve göreve değil, kullandığınız prompt’a ve beklediğiniz sonuca da bağlı. Dahili testlerimizde GPT 5.5 ile Opus 4.7’den hangisinin daha iyi olduğuna karar vermek gerçekten çok zordu. Tarzları farklı ve sonuçta iş biraz zevke kalıyor. Bazen bir modele galibiyeti verip sonra yeniden düşünüp fikrimi değiştiriyordum. Sonunda Opus 4.7’yi hafifçe daha çok tercih ettim
Birkaç gün önce okuduğum bir araştırmaya göre mevcut hızla giderse açık kaynak modellerin birkaç yıl içinde bulut modellerini geçmesi bekleniyor
Birkaç yıl önceki ChatGPT ve Claude’a dönüp bakarsanız, çok küçük bir Qwen modeli bile o dönemdeki bulut tabanlı modellerin yaptığı kodlamaya neredeyse denk. Ölçekleme yasalarını da hesaba katarsanız 9B’den 18B’ye çıkmak yaklaşık %40 artışken 18B’den 35B’ye çıkmak %20 civarı; bu yüzden en azından bulut tabanlı modellerin fiyatlarında değişim olacağını düşünüyorum. Adobe da eskiden aylık $600’dı ama dağıtım ölçeği büyüyünce $20 oldu
Basit gerçek şu: bulut modeller, açık modellerden her zaman kesin biçimde üstün olabilir. Çünkü bulut model sağlayıcıları aynı açık modelleri kendileri de çalıştırabilir. Üstelik özel donanımla dolu büyük veri merkezleri işletmenin ölçek ekonomisini ve verimliliğini de korurlar. En azından herkesin elektrik faturasından daha düşük token başı maliyetle açık modeller sunabilirler. Bunun üstüne bir de model ve çevresindeki sistemler üzerinde çalışan araştırmacıları var; ayrıca GitHub’da popüler olan araçların önünde giden yürütme ortamlarını korumak için en iyi mühendisleri görevlendirebilirler
Yeterince iyi modeller olsa bile, bulut model sağlayıcıları çıkarım için gereken donanımı tedarik etmede daha başarılıysa ne olacak?
Kimi gerçekten çok iyi
Derleyici/sanal makine projesinde Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen ve başkalarını denedim; Claude Pro planı ciddi kodlama işleri için neredeyse kullanılamaz düzeyde. Bu yüzden tarayıcı sohbet modunda kullanıyorum ki tüm projeyi gereksiz yere okuyamasın; Kimi’yi ise OpenCode Go planında pi ile birlikte kullanıyorum. C+Python projesinde Kimi, Sonnet’in önünde sürekli daha iyi sonuç verdi ve ondan istemediğim şeyleri yapacağından hiç endişe etmedim. GLM bir iki kez çok kötü patladı ama Kimi’de bunu yaşamadım
Bu, tek bir görevde çözümün performansına göre yapılan bir ölçüm
Kimi K2.6 kesinlikle frontier ölçeğinde bir model, bu yüzden kapalı frontier modellerle aynı ligde olması çok şaşırtıcı değil. Açık olması güzel ama tek bir tüketici GPU’su olan benim için bunun çok büyük bir anlamı yok
Büyük açık kaynak modelleri çalıştıracak donanımı almaya gücünüz yetmese bile birilerinin yetecek ve onlar, kapalı model maliyetinin yarısına fiyat verip yine de kâr edebilecek. Şu an bunun görünmemesinin tek nedeni, mevcut lider token sağlayıcılarının çıkarım maliyetini sübvanse ediyor olması. Onlar kalite düşürmeye ve gelir maksimizasyon baskısı kurmaya başladığı anda alternatif bir pazar oluşabilir. Açık kaynak modeller olmazsa fiilen alternatif de olmaz. Geliştiricilerin maliyetinin sadece %80’ini talep etmeye çalışsalar bile, çok geride olmayan açık kaynak modellerin varlığı bunu frenleyen bir güç olur. Ellerinde gerçek bir hendek yok
Ben kişisel kullanım için GLM 5.1, Kimi K2.6, MiniMax M2.7 ve Xiaomi MiMo V2.5 Pro kodlama planlarını kullanıyorum; fiyat/performans açısından çok iyiler
Kalite düşüşü ilk başta çok fark edilmeyebilir ama şimdiden sevdiğim frontier modellerin ciddi biçimde zayıflayıp daha önce yapmadıkları aptalca şeyler yaptığını görüyorum. Gittikçe daha bağımlı hâle gelirken, istikrarlı bir platform görevi görecek açık ağırlıklı modellere ihtiyacımız var
Evdeki küçük RTX için istenirse her zaman distillation yapılabilir. Ama tüketici donanımına göre tasarlanmış modellerin geniş çapta benimsenmesi veya frontier laboratuvarlarla rekabetçi kalması zor. Rekabet edebilecek biçim bu ve çıkarımı çalıştıracak yeni nesil açık bulut altyapısını gerektirecek, aynı zamanda teşvik edecek. İlk başta “tek tuşla deploy”, “tek tuşla fine-tune” gibi ürünler gelir; sonrasında ise API arkasına kilitlenmemiş açık ağırlıkların mümkün kıldığı çok daha gelişmiş ürünler ortaya çıkabilir. Şimdi tek eksik, açık ağırlıklı bir Nano Banana Pro / GPT Image 2 ve Seedance 2.0 karşılığı. Mücadele ve odak, veri merkezi sınıfı açık ağırlıklara yönelmeli
Sıralamayı görünce şaşırdım ama testin ne olduğuna bakınca anladım. Kodlamayla çok ilgili görünmüyor
Tüm testlerin güncel genel sıralaması daha anlamlı. Sadece Gemini’nin bu kadar iyi olması hariç: https://aicc.rayonnant.ai
DNP, katılmadı demek. Bu açıdan bakınca Kimi, Claude’dan daha çok ve daha iyi madalya almış
Anekdot niteliğinde ama son birkaç aydır sadece Claude Code kullanıyordum; Pi + Kimi K2.6 yetenekleri beni hoş şekilde şaşırttı. OpenRouter üzerinden kullanınca çok daha hızlı ve çok daha ucuz
Ne yazık ki Kimi, GPT veya Opus’a hiç yaklaşmıyor. Gerçekten öyle olmasını isterdim ama değil
Modelin 3D model üreten kod yazması gereken bir değerlendirme yapıyorum ve mekânsal kavrayış açısından yetersiz kaldığı, ayrıca başarıya ulaşmadan önce çok daha fazla kod hatası ürettiği açık. Burada burada belirli örneklerde daha iyi olabilir ve bu blog yazısı da muhtemelen öyle bir örnek
Bu görsel bir mesele de değil. DeepSeek multimodal değil ama nedense Opus, Blender API’sini çok daha iyi anlıyor. Kapalı frontier modellerin biraz daha iyi olduğu küçük alanlar her zaman varmış gibi görünüyor
Bu, Kimi’nin Claude’dan daha iyi kod yazmasından çok, belirli bir oyunun doğru stratejisini bulmasına benziyor
Yine de ilginç. Asıl önemli nokta, açık ağırlıklı modellerin bu fark anlamlı olacak kadar yaklaşmış olması olabilir
Yapay zeka alanını çok iyi bilmiyorum ama herhangi bir modeli herkes için her şeyi yapacak şekilde eğitmeye çalışmak gerçekten çok saçma görünüyor
Muazzam kaynak gerektiriyor ve yapay zeka şirketlerinin kullandığı her şeyde, yani RAM, SSD, veri merkezleri vb. taraflarda ciddi kıtlık ve piyasa bozulması yaratıyor. Gerçek hayatta bir tesisatçı tutarken ondan peyzaj, oto tamiri ve terzilik de beklemiyoruz. Örneğin shell, Python ve C kodlamasına özel bir uygulama indirebilmek ya da hatta bu tür 3 uygulamanın birbiriyle konuşması, kaynak kullanımı açısından çok daha iyi görünüyor. Belki 16GB RAM’li sıradan bir makinede bile çalışabilir. Fortran, COBOL ve Lisp de yazabilen devasa tek bir modele mutlaka ihtiyaç yok. İnsanlar uzmanlaşmayla gayet iyi iş çıkardı; mevcut “tek model her şeye hükmedecek ve sadece ulus ölçeğinde veri merkezlerinde çalışacak” yolundan ziyade daha küçük ve odaklı yapay zeka modellerinin daha çok keşfedilmesini isterim
GPT-3’ten beri insanlar hiçbir modelin bu kadar genel olamayacağını, bu yüzden fine-tuning’in iyi olduğunu söylüyordu; ama her yeni nesilde bunun o kadar da doğru olmadığı biraz daha ortaya çıkıyor