Kimi K2.6, kodlama yarışmasında Claude, GPT-5.5 ve Gemini’yi geçti

(thinkpol.ca)

3 puan yazan GN⁺ 1 시간 전 | 1 yorum | WhatsApp'ta paylaş

Moonshot AI’nin açık ağırlıklı modeli Kimi K2.6, AI Coding Contest Day 12’deki Word Gem Puzzle yarışmasını 22 maç puanı ve 7-1-0 dereceyle kazandı
Xiaomi’nin MiMo V2-Pro modeli 20 puanla ikinci, ChatGPT GPT-5.5 16 puanla üçüncü, GLM 5.1 15 puanla dördüncü, Claude Opus 4.7 ise 12 puanla beşinci oldu; Anthropic, OpenAI, Google ve xAI modellerinin tamamı ilk iki modelin gerisinde kaldı
Word Gem Puzzle, 10×10’dan 30×30’a kadar boyutlara sahip kayan taşlı bir harf bulmacası; 7 harften kısa kelimeler ceza alıyor, 7 harf ve üzeri kelimeler uzunluk - 6 puan getiriyor ve her model çifti, her ızgara boyutunda 10 saniye sınırla 5 tur oynuyor
Kimi K2.6, pozitif değerli kelimeleri açan hamleleri tekrar tekrar seçen açgözlü bir kaydırma stratejisiyle toplam 77 puan aldı; MiMo V2-Pro ise fiilen hiç kaydırma yapmadan başlangıç ızgarasındaki 7+ harfli kelimeleri tek seferde gönderip toplam 43 puanla ikinci oldu
Bu sonuç tek bir bulmacanın genel kıyaslamaları tersine çevirdiği anlamına gelmese de, indirilebilir bir model olan Kimi K2.6’nın Artificial Analysis Intelligence Index’te GPT-5.5’in 60 ve Claude’un 57 puanına karşılık 54 puan alması, rekabet farkının daraldığını gösteriyor

Yarışmanın yapısı ve katılan modeller

Zhipu AI’nin GLM 5.1 modeli dördüncü olurken, DeepSeek V4 sekizinci sırada kaldı
Nvidia’nın Nemotron Super 3 ile üretilen kod sözdizimi hataları içerdiği için oyun sunucusuna bağlanamadı; bu yüzden gerçek yarışma 9 model arasında geçti
Kimi K2.6, 2023’te kurulan Çinli girişim Moonshot AI’nin herkese açık olarak kullanılabilen açık ağırlıklı modeli; MiMo V2-Pro ise şu anda yalnızca API üzerinden erişilebiliyor
Xiaomi, daha yeni V2.5 Pro modelinin ağırlıklarını yakında yayımlayacağını doğruladı
Bu sonuç, basitçe “Çin Batı’yı geçti” anlatısından çok, Kimi K2.6 ve MiMo V2-Pro adlı iki belirli modelin zaferi olarak özetleniyor

Word Gem Puzzle kuralları

Word Gem Puzzle, harf taşları ve tek bir boşluktan oluşan dikdörtgen bir ızgarada oynanan kayan taşlı bir kelime bulmacasıdır
Izgara boyutu 10×10, 15×15, 20×20, 25×25 veya 30×30 olabilir; bot, boşluğa bitişik bir taşı o boşluğa itebilir
Bot, istediği anda yatay veya dikey düz bir çizgide oluşan geçerli bir İngilizce kelimeyi gönderebilir
Çapraz kelimeler ve tersten yazılan kelimeler kabul edilmez
Puanlama, uzun kelimeleri ödüllendirip kısa kelimeleri cezalandıracak şekilde tasarlanmıştır
- 7 harften kısa kelimeler puan kaybettirir
- 5 harfli kelime 1 puan, 3 harfli kelime 3 puan düşürür
- 7 harf ve üzeri kelimeler uzunluk - 6 puan getirir; örneğin 8 harfli bir kelime 2 puandır
Aynı kelime yalnızca bir kez gönderilebilir ve başka bir bot daha önce göndermişse puan kazandırmaz
Her model çifti, her ızgara boyutu için bir tur olmak üzere toplam 5 tur oynadı ve her tur için gerçek zaman sınırı 10 saniyeydi
Izgaralar, gerçek sözlük kelimeleri bulmaca benzeri çapraz yerleşimle yerleştirildikten sonra kalan hücrelerin Scrabble taş frekansına göre harflerle doldurulması ve son olarak boşluğun karıştırılmasıyla oluşturuldu
Daha büyük tahtalar daha güçlü karıştırıldığı için 10×10’da birçok çekirdek kelime olduğu gibi kalırken, 30×30’da neredeyse hiçbiri kalmadı

Modellere göre davranış ve başarı/başarısızlık nedenleri

Kimi K2.6
- Kimi K2.6, aktif biçimde taş kaydırarak kazandı ve toplam 77 puan ile turnuvanın en yüksek skorunu yaptı
- Stratejisi açgözlüydü: mümkün olan her hamleyi, yeni açtığı pozitif değerli kelimelere göre puanlayıp en iyi hamleyi seçiyor ve bunu tekrarlıyordu
- Pozitif kelime açan bir hamle yoksa alfabetik sıraya göre ilk yasal yönü seçiyordu
- Bu yaklaşım bazen boşluğu ileri geri zıplatıp ilerleme sağlamayan verimsiz bir 2-cycle kenar döngüsü üretiyordu
- Küçük ızgaralarda çekirdek kelimelerin çoğu hâlâ yerinde olduğundan bu verimsizlik zarar yazdı; ancak 30×30’da neredeyse tüm kelimeler bozulduğu için yeniden kurulum gerekti ve çok sayıdaki kaydırma sonunda puana dönüştü
MiMo V2-Pro
- MiMo’nun kaydırma kodu depoda vardı, ancak “en yüksek değer 0’dan büyük” koşulu hiç tetiklenmediği için pratikte bir kez bile kaydırma yapmadı
- Bunun yerine başlangıç ızgarasındaki 7+ harfli kelimeleri tarayıp tüm gönderimleri tek bir TCP paketi içinde yolladı
- Bu strateji, karıştırmadan sonra çekirdek kelimelerin hâlâ görünür kalmasına tamamen bağımlı, kırılgan bir yaklaşımdı
- Kelimelerin kaldığı ızgaralarda hızlı puan aldı, kalmadığı ızgaralarda ise hiç puan çıkaramadı
- Nihai toplam skoru 43 puan oldu ve genel klasmanda ikinci sıraya yerleşti
Claude Opus 4.7
- Claude da kaydırma yapmadı
- Hamle kayıtlarına göre 25×25 tahtada karıştırma yoğunluğu hâlâ yönetilebilir düzeydeydi, ancak gerçek taş hareketi gerektiren 30×30’da çöktü
- Kayan taş bulmacasında hiç kaydırmamak açık bir sınır olarak ortaya çıktı
GPT-5.5
- GPT-5.5, tur başına yaklaşık 120 kaydırma yapan daha temkinli bir yaklaşım kullandı ve sonsuz ileri-geri döngülerini önlemek için bir üst sınır koydu
- En güçlü sonuçlarını 15×15 ve 30×30 ızgaralarda gösterdi
Grok Expert 4.2 ve GLM 5.1
- Grok kaydırma yapmadı ama büyük tahtalarda görece iyi puanlar aldı
- GLM, turnuvadaki en agresif kaydırma yapan modeldi ve toplam kaydırma sayısı 800 binin üzerine çıktı
- GLM, pozitif hamleler tükendiğinde ciddi şekilde duraksıyordu
DeepSeek V4
- DeepSeek her turda yanlış biçimlendirilmiş veri gönderdi
- Yararlı bir çıktı üretmedi, ancak oynayıp skoru daha da kötüleştirmedi
Muse Spark
- Muse, bulabildiği tüm kelimeleri uzunluklarına bakmadan gönderdi
- Puan sistemi, “the”, “and”, “it” gibi kısa kelimeleri ayrım gözetmeden spam’lemeyi önlemek için kısa kelimeleri cezalandıracak şekilde tasarlanmıştı ve rekabetçi modellerin hepsi sözlüğü 7+ harfli kelimelere filtreledi
- Muse, 30×30 ızgarada herhangi bir anda görülebilen yüzlerce kısa geçerli kelimeyi bularak hepsini gönderdi
- Toplam skoru −15.309 puan oldu; 8 maçın tamamını kaybetti ve hiç tur galibiyeti alamadı
- Sunucuya yalnızca bağlanıp hiçbir şey yapmayan bir Muse sürümü olsaydı 0 puan alacaktı; yani gerçek Muse’dan 15.309 puan daha iyi olacaktı
- Muse ile sekizinci sıra arasındaki fark, sekizinci sıra ile birinci sıra arasındaki farktan daha büyüktü

30×30 ızgaranın yarattığı fark

30×30 ızgara, katılımcı modeller arasındaki farkları en net biçimde ortaya çıkardı
Küçük tahtalarda statik tarayıcılarla aktif kaydırıcılar arasındaki fark büyük değildi; ancak en büyük boyutta yalnızca mevcut kelimeleri arayan modeller artık gönderecek kelime bulamaz hâle geldi
Kimi’nin açgözlü döngüsünde kusurlar vardı, ancak statik tarayıcıların teslim edecek kelimeyi kaybettiği durumda bile üretim yapmayı sürdürdü
MiMo ile Kimi neredeyse zıt stratejiler kullanmasına rağmen nihai skor farkı yalnızca 2 puandı
Birinci ile ikinci arasındaki farkta sadece yetenek farkı değil, seed değişkenliği de kısmen etkili oldu

Yapılandırılmış görevlerde ortaya çıkan riskler

DeepSeek’in yanlış biçimli çıktısı, zaman baskısı altında yabancı bir protokol tanımını ele alış biçimine dair bir işaret niteliğinde
Muse geçerli kelimeleri bulup gönderdi, ancak puanlama kurallarını da içeren “geçerlilik” anlamını uygulayamadı
Muse’un başarısızlığı, görevi kısmen okuyup bu kısmi yorumu sonuna kadar yürütme biçiminde ortaya çıktı
Ceza içeren yapılandırılmış görevlerde model dağıtımı yapılırken, kuralların tamamını yansıtmayan bir yürütme ciddi kayıplara yol açabilir

Sonucun yorumu: sınırlar ve anlamı

Bu puan sistemi agresif kelime gönderimini ödüllendirecek şekilde kurulmuş durumda ve güçlü biçimde güvenlik ayarı yapılmış modeller bu tür ayrım gözetmeyen gönderimlerde daha temkinli davranabilir
Böyle durumlarda sonuç, saf yetenek farkından çok görev tasarımı ile modele hizalanmış davranış arasındaki uyumsuzluğu yansıtabilir
Tek bir meydan okuma, genel kıyaslamaları tersine çevirmez
Bu bulmaca; gerçek zamanlı karar verme, TCP sunucusuna bağlanma ve yeni bir oyunu doğru şekilde oynayan çalışma kodu yazma becerisini test ediyor
Uzun bağlam akıl yürütmesini veya genel olarak teknik şartnameye dayalı kod üretimini ölçen bir görev değil
Kimi K2.6, Artificial Analysis Intelligence Index’te 54 puan, GPT-5.5 60 puan, Claude ise 57 puan aldı
Bu puanlar tam bir eşitlik göstermese de birbirine yakın ve Kimi K2.6’nın herkesin indirebildiği bir model olması rekabet dengesini değiştiriyor
Ön cephedeki modellere birkaç puan mesafede bir modeli yerelde serbestçe çalıştırabilmek, bir yıl öncesine göre farklı bir rekabet ortamı yaratıyor
Bu meydan okuma, farkın küçüldüğünü ve bu tür sonuçların artık ortaya çıkabildiğini gösteren tek bir veri noktası

1 yorum

GN⁺ 1 시간 전

Hacker News görüşleri

Önümüzdeki 1 yıl boyunca bu tür yazılar çıkmaya devam edecek gibi görünüyor. Çünkü modelleri nesnel olarak karşılaştırmanın bir yolu yok. Token üretim hızı, ortalama çıkarım token sayısı, parametre sayısı, aktif uzman sayısı gibi düşük seviye sayıları çıkarırsanız, her modelin kullanım alanı da farklı, kullanıcısı da farklı ve sonuçlar da deterministik değil
Bu yüzden “bu model şu modeli yendi” türü benchmark’lar ve iddialar gelmeye devam edecek, ama en iyi model diye bir şey yok. Sadece herkesin kendi ölçütüne uyan model var ve sonunda Windows vs MacOS vs Linux gibi herkesin kendi kampında kaldığı bir dünyaya dönüşmesi çok olası
- Asıl mesele model karşılaştırma yöntemi değil, Kimi K2.6 ve DeepSeek v4 Pro’nun Opus’la neredeyse aynı seviyede olması; bu başlı başına oldukça büyük bir olay
  Bunlar açık kaynak ve Amerikan modellerine göre token başına maliyetleri çok daha düşük. Şu an $20’lık Ollama cloud planını kullanıyorum; Claude Pro’nun $20 planında bir iki prompt’ta limite dayanan yan proje işlerimi burada gerçekten yapabiliyorum. Ollama’yı sadece CLI’ı rahat olduğu için seçtim ve bu modelleri sunan çok sayıda sağlayıcı olduğu için kötü şartlara ya da kullanım kurallarına da bağlı kalmıyorsunuz. Bunu ABD ekonomisi için epey kötü bir işaret olarak görüyorum
- Modelleri karşılaştırmanın nesnel bir yolu var. Tekrarlı örnekleme ve istatistiksel analizle sonuçların ileride de korunup korunmayacağını, yoksa sadece şans eseri mi oluştuğunu değerlendirmek gerekir
  Her modeli beklenen görevlere göre en yüksek performansı verecek şekilde ince ayarlarsanız, farklı benchmark’lardaki sıralamalar da oldukça yüksek düzeyde birbiriyle örtüşüyor: https://arxiv.org/abs/2507.05195
  Ama bu yazının yazarı böyle bir süreç uygulamamış. Her modeli şimdiye kadar 13 soruda sadece birer kez çalıştırmış ve bunların içinden sadece 12. sorunun sonucunu öne çıkarmış. Burada p-değerini hiç düşünmediği için buna p-hacking demek bile zor. Büyük dil modeli kalitesi çalıştırmadan çalıştırmaya ciddi biçimde dalgalanıyor; dolayısıyla her modeli yalnızca bir kez çalıştırmak, iki madeni parayı birer kez atıp birinde tura, diğerinde yazı geldi diye hangisinin daha yanlı olduğunu söylemeye benziyor
- Kısmen katılıyorum ama metrikleri karşılaştırılabilir hâle getirme yönünde çalışmalar sürüyor. Örneğin: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  Henüz yaygın biçimde benimsenmiş değil ve her paydaş için bir süre daha böyle kalması avantajlı bile olabilir. Pratikte p-hacking’e oldukça benziyor
- Benim büyük dil modeli kullanım senaryolarım ve ajan tabanlı çalışma ortamlarım oldukça sınırlı, bu yüzden yeni bir model ya da yürütme aracı çıkınca sadece kendi kullanım durumlarımdan bir iki tanesini dener, öznel bir yargıya varır ve benchmark’ların çoğunu görmezden gelirim
  Bloglar ve yazılar ya doğrudan iş modelidir ya da teknolojinin çevresindeki işlere trafik taşır; değerlendirme yazılarının önemli bir kısmı da ilgi çekmek içindir. Bunun kendisi kötü değil ama çok fazla gürültü üretiyor
- Sonunda insan işe almaya benzer bir noktaya varacağız gibi geliyor. CV’ye, yani benchmark’lara bakabilirsiniz ama biriyle gerçekten 6 ay çalışmadan emin olamazsınız
  Sektör, bir yazılım mühendisinin başka bir mühendisten nesnel olarak daha iyi olup olmadığını neredeyse hiçbir boyutta belirleyemiyor. O hâlde neden modeller için nesnel bir sıralama yapabileceğimizi sanıyoruz, bilmiyorum
Nesnel olarak puanlanabilen testlere doğru gidilmesini olumlu buluyorum
Biz bunu https://gertlabs.com/rankings üzerinde büyük ölçekte yapıyoruz ve yazarın tek seferlik bir örnek çalıştırmış gibi görünmesine rağmen Kimi K2.6’nın iyi performans göstermesi şaşırtıcı değil. Bizim testlerimize göre özellikle kodlamada Kimi, açık ağırlıklı modeller arasında zirvede olan MiMo V2.5 Pro ile istatistiksel belirsizlik aralığında aynı seviyede; araç kullanımında ise DeepSeek V4 Pro’dan açık biçimde daha iyi. GPT 5.5 rahat ara önde ama Kimi, Opus 4.6 ile aynı seviyede ya da daha iyi. Yine de Kimi 2.6’nın sorunu, test ettiğimiz modeller arasında yavaş tarafta kalması
- Nesnel olarak puanlanabilir olabilir ama bu, birinin kodlama becerisini gösterdiği anlamına gelmez. Bu test daha çok hangi modelin diğer botlara karşı neredeyse tesadüfen en iyi stratejiyi bulduğunu ölçüyor
  Kodlamayı temsil etmesi için bu tür bulmacaları 100’den fazla örnekle, bulmaca yelpazesinin tamamına yayılmış şekilde test etmek gerekir; ancak o zaman İngilizce sözlük kullanan stratejiyi kimin daha iyi bulduğunu anlayabilirsiniz
- Ajan tabanlı iş akışlarında Qwen Flash ve DeepSeek Flash modelleri oldukça iyi görünüyor
  Bu, burada dün Flash modellerinin tool calling’de daha iyi olduğuna dair yorumlarla da örtüşüyor. GPT 5.5 ile plan yapıp uygulamayı Flash modellere bırakmak, fiyat/performans açısından iyi bir yol olabilir
- Benim deneyimimde benchmark’lar oldukça anlamsız
  Performans sadece dile ve göreve değil, kullandığınız prompt’a ve beklediğiniz sonuca da bağlı. Dahili testlerimizde GPT 5.5 ile Opus 4.7’den hangisinin daha iyi olduğuna karar vermek gerçekten çok zordu. Tarzları farklı ve sonuçta iş biraz zevke kalıyor. Bazen bir modele galibiyeti verip sonra yeniden düşünüp fikrimi değiştiriyordum. Sonunda Opus 4.7’yi hafifçe daha çok tercih ettim
- Testler ve sonuçlar açık kaynak mı?
- İnsanlar için neden bir bağlam boyutu ölçümü veremediğimizi merak ediyorum. Yeterince iyi bir yaklaşık değer üretmeye yetecek kadar bilim varmış gibi geliyor
Birkaç gün önce okuduğum bir araştırmaya göre mevcut hızla giderse açık kaynak modellerin birkaç yıl içinde bulut modellerini geçmesi bekleniyor
Birkaç yıl önceki ChatGPT ve Claude’a dönüp bakarsanız, çok küçük bir Qwen modeli bile o dönemdeki bulut tabanlı modellerin yaptığı kodlamaya neredeyse denk. Ölçekleme yasalarını da hesaba katarsanız 9B’den 18B’ye çıkmak yaklaşık %40 artışken 18B’den 35B’ye çıkmak %20 civarı; bu yüzden en azından bulut tabanlı modellerin fiyatlarında değişim olacağını düşünüyorum. Adobe da eskiden aylık $600’dı ama dağıtım ölçeği büyüyünce $20 oldu
- Bu pek mantıklı değil ve geçerli koşulların çok ötesine trend ekstrapolasyonu yapılıyor gibi kokuyor
  Basit gerçek şu: bulut modeller, açık modellerden her zaman kesin biçimde üstün olabilir. Çünkü bulut model sağlayıcıları aynı açık modelleri kendileri de çalıştırabilir. Üstelik özel donanımla dolu büyük veri merkezleri işletmenin ölçek ekonomisini ve verimliliğini de korurlar. En azından herkesin elektrik faturasından daha düşük token başı maliyetle açık modeller sunabilirler. Bunun üstüne bir de model ve çevresindeki sistemler üzerinde çalışan araştırmacıları var; ayrıca GitHub’da popüler olan araçların önünde giden yürütme ortamlarını korumak için en iyi mühendisleri görevlendirebilirler
- Olabilir ama donanım tarafı beni düşündürüyor
  Yeterince iyi modeller olsa bile, bulut model sağlayıcıları çıkarım için gereken donanımı tedarik etmede daha başarılıysa ne olacak?
- “Adobe aylık $600’dü, sonra dağıtım ölçeği büyüyünce $20 oldu” derken hangi üründen söz edildiğini bilmiyorum. Adobe’nin bu kadar pahalı bir ürünü olduğunu hiç duymadım
- Aylık $600 mü? Yoksa ömür boyu lisans için tek seferlik $600’ı mı kastediyorsun? Adobe’de bu kadar pahalı bir plan duymadım
- Okuduğunu söylediğin araştırmanın linki varsa paylaşmanı isterim
Kimi gerçekten çok iyi
Derleyici/sanal makine projesinde Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen ve başkalarını denedim; Claude Pro planı ciddi kodlama işleri için neredeyse kullanılamaz düzeyde. Bu yüzden tarayıcı sohbet modunda kullanıyorum ki tüm projeyi gereksiz yere okuyamasın; Kimi’yi ise OpenCode Go planında pi ile birlikte kullanıyorum. C+Python projesinde Kimi, Sonnet’in önünde sürekli daha iyi sonuç verdi ve ondan istemediğim şeyleri yapacağından hiç endişe etmedim. GLM bir iki kez çok kötü patladı ama Kimi’de bunu yaşamadım
- “Claude Pro planı ciddi kodlama işleri için neredeyse kullanılamaz” derken neden böyle dediğini merak ediyorum. Bu, ciddi kodlama için Claude Pro’nun genelde ilk tercih olduğu yönündeki yaygın algının tam tersi gibi duruyor
Bu, tek bir görevde çözümün performansına göre yapılan bir ölçüm
Kimi K2.6 kesinlikle frontier ölçeğinde bir model, bu yüzden kapalı frontier modellerle aynı ligde olması çok şaşırtıcı değil. Açık olması güzel ama tek bir tüketici GPU’su olan benim için bunun çok büyük bir anlamı yok
- Açık kaynağın değeri benim onu yerelde çalıştırabilmemde değil, birilerinin çalıştırabiliyor olmasında
  Büyük açık kaynak modelleri çalıştıracak donanımı almaya gücünüz yetmese bile birilerinin yetecek ve onlar, kapalı model maliyetinin yarısına fiyat verip yine de kâr edebilecek. Şu an bunun görünmemesinin tek nedeni, mevcut lider token sağlayıcılarının çıkarım maliyetini sübvanse ediyor olması. Onlar kalite düşürmeye ve gelir maksimizasyon baskısı kurmaya başladığı anda alternatif bir pazar oluşabilir. Açık kaynak modeller olmazsa fiilen alternatif de olmaz. Geliştiricilerin maliyetinin sadece %80’ini talep etmeye çalışsalar bile, çok geride olmayan açık kaynak modellerin varlığı bunu frenleyen bir güç olur. Ellerinde gerçek bir hendek yok
- Elbette anlamı var. Bu sayede Anthropic ve OpenAI’nin kodlama planlarından çok daha ucuz planlar mümkün oluyor
  Ben kişisel kullanım için GLM 5.1, Kimi K2.6, MiniMax M2.7 ve Xiaomi MiMo V2.5 Pro kodlama planlarını kullanıyorum; fiyat/performans açısından çok iyiler
- Bu gerçekten önemli
  Kalite düşüşü ilk başta çok fark edilmeyebilir ama şimdiden sevdiğim frontier modellerin ciddi biçimde zayıflayıp daha önce yapmadıkları aptalca şeyler yaptığını görüyorum. Gittikçe daha bağımlı hâle gelirken, istikrarlı bir platform görevi görecek açık ağırlıklı modellere ihtiyacımız var
- Gelecek burada. H200 üzerinde çalışan açık ağırlıklı modeller, ürün ve gerçek altyapı inşa etmek için çok daha fazla fırsat sunuyor
  Evdeki küçük RTX için istenirse her zaman distillation yapılabilir. Ama tüketici donanımına göre tasarlanmış modellerin geniş çapta benimsenmesi veya frontier laboratuvarlarla rekabetçi kalması zor. Rekabet edebilecek biçim bu ve çıkarımı çalıştıracak yeni nesil açık bulut altyapısını gerektirecek, aynı zamanda teşvik edecek. İlk başta “tek tuşla deploy”, “tek tuşla fine-tune” gibi ürünler gelir; sonrasında ise API arkasına kilitlenmemiş açık ağırlıkların mümkün kıldığı çok daha gelişmiş ürünler ortaya çıkabilir. Şimdi tek eksik, açık ağırlıklı bir Nano Banana Pro / GPT Image 2 ve Seedance 2.0 karşılığı. Mücadele ve odak, veri merkezi sınıfı açık ağırlıklara yönelmeli
Sıralamayı görünce şaşırdım ama testin ne olduğuna bakınca anladım. Kodlamayla çok ilgili görünmüyor
Tüm testlerin güncel genel sıralaması daha anlamlı. Sadece Gemini’nin bu kadar iyi olması hariç: https://aicc.rayonnant.ai
- Sıralamanın ayrıntılarına bakarsanız Kimi K2.6 yalnızca son 5 challenge’da yer almış. Ondan önce Claude baskındı; yalnızca son 5’e bakarsanız Kimi 1 numara
- Altın madalya sıralaması ancak tüm modeller tüm testlere katıldığında anlamlı olur
  DNP, katılmadı demek. Bu açıdan bakınca Kimi, Claude’dan daha çok ve daha iyi madalya almış
- Bu kadar çok modelle uğraşan bir sitenin mobilde responsive olmaması ironik
- Verdiğin link aslında Kimi’nin üstünlüğünü doğruluyor
Anekdot niteliğinde ama son birkaç aydır sadece Claude Code kullanıyordum; Pi + Kimi K2.6 yetenekleri beni hoş şekilde şaşırttı. OpenRouter üzerinden kullanınca çok daha hızlı ve çok daha ucuz
Ne yazık ki Kimi, GPT veya Opus’a hiç yaklaşmıyor. Gerçekten öyle olmasını isterdim ama değil
Modelin 3D model üreten kod yazması gereken bir değerlendirme yapıyorum ve mekânsal kavrayış açısından yetersiz kaldığı, ayrıca başarıya ulaşmadan önce çok daha fazla kod hatası ürettiği açık. Burada burada belirli örneklerde daha iyi olabilir ve bu blog yazısı da muhtemelen öyle bir örnek
- Biraz konu dışı ama son birkaç haftadır DeepSeek V4 Pro kullandım; genel olarak Opus’la aynı seviyede. Yalnız Blender söz konusu olduğunda değil
  Bu görsel bir mesele de değil. DeepSeek multimodal değil ama nedense Opus, Blender API’sini çok daha iyi anlıyor. Kapalı frontier modellerin biraz daha iyi olduğu küçük alanlar her zaman varmış gibi görünüyor
- Adil olmak gerekirse herkesin 3D model ihtiyacı yok
Bu, Kimi’nin Claude’dan daha iyi kod yazmasından çok, belirli bir oyunun doğru stratejisini bulmasına benziyor
Yine de ilginç. Asıl önemli nokta, açık ağırlıklı modellerin bu fark anlamlı olacak kadar yaklaşmış olması olabilir
Yapay zeka alanını çok iyi bilmiyorum ama herhangi bir modeli herkes için her şeyi yapacak şekilde eğitmeye çalışmak gerçekten çok saçma görünüyor
Muazzam kaynak gerektiriyor ve yapay zeka şirketlerinin kullandığı her şeyde, yani RAM, SSD, veri merkezleri vb. taraflarda ciddi kıtlık ve piyasa bozulması yaratıyor. Gerçek hayatta bir tesisatçı tutarken ondan peyzaj, oto tamiri ve terzilik de beklemiyoruz. Örneğin shell, Python ve C kodlamasına özel bir uygulama indirebilmek ya da hatta bu tür 3 uygulamanın birbiriyle konuşması, kaynak kullanımı açısından çok daha iyi görünüyor. Belki 16GB RAM’li sıradan bir makinede bile çalışabilir. Fortran, COBOL ve Lisp de yazabilen devasa tek bir modele mutlaka ihtiyaç yok. İnsanlar uzmanlaşmayla gayet iyi iş çıkardı; mevcut “tek model her şeye hükmedecek ve sadece ulus ölçeğinde veri merkezlerinde çalışacak” yolundan ziyade daha küçük ve odaklı yapay zeka modellerinin daha çok keşfedilmesini isterim
- Esas olarak doğru ama her zaman değil
  GPT-3’ten beri insanlar hiçbir modelin bu kadar genel olamayacağını, bu yüzden fine-tuning’in iyi olduğunu söylüyordu; ama her yeni nesilde bunun o kadar da doğru olmadığı biraz daha ortaya çıkıyor

Kimi K2.6, kodlama yarışmasında Claude, GPT-5.5 ve Gemini’yi geçti

Yarışmanın yapısı ve katılan modeller

Word Gem Puzzle kuralları

Modellere göre davranış ve başarı/başarısızlık nedenleri

Kimi K2.6

MiMo V2-Pro

Claude Opus 4.7

GPT-5.5

Grok Expert 4.2 ve GLM 5.1

DeepSeek V4

Muse Spark

30×30 ızgaranın yarattığı fark

Yapılandırılmış görevlerde ortaya çıkan riskler

Sonucun yorumu: sınırlar ve anlamı

İlgili okumalar

1 yorum

Hacker News görüşleri