Kimi K2.6 tanıtıldı - açık kaynak kodlamada ilerleme

(kimi.com)

5 puan yazan GN⁺ 9 일 전 | 3 yorum | WhatsApp'ta paylaş

Uzun soluklu kodlama ve ajan tabanlı işlerde performansı yükselten bir model; birden çok dilde ve frontend·devops·performans optimizasyonu genelinde genelleme performansı güçlendirildi
Karmaşık mühendislik işlerini sürekli çalışan kodlama ile ele alıyor; binlerce araç çağrısı ve 12 saati aşan kesintisiz çalıştırma sonrasında Zig çıkarım optimizasyonunda ve exchange-coreun kapsamlı yeniden düzenlenmesinde büyük ölçekli throughput artışları kaydedildi
Basit bir promptu tam bir frontend arayüzüne dönüştürüyor ve görüntü·video üretim araçlarını da kullanarak kimlik doğrulama·veritabanı işleri içeren basit full-stack iş akışlarını destekliyor
Agent Swarm yapısını 300 alt ajan ve 4.000 koordinasyon adımı ölçeğine genişleterek arama·araştırma·doküman yazımı·dosya oluşturma işlerini paralel çalıştırıyor; PDF·slayt·hesap tablosu·Word belgelerinin biçim ve stilini yeniden kullanılabilir skills'e dönüştürüyor
Kapsamı proaktif ajanlar ve Claw Groups'a kadar genişleterek uzun süreli otonom işletim, çok ajanlı iş birliği ve iş yeniden atamayı gerçekleştiriyor; benchmark'lar ve kurumsal beta testlerinde kodlama·araç çağrısı·uzun süreli çalışma güvenilirliğinde iyileşme doğrulandı

Uzun soluklu kodlama

Uzun soluklu kodlama görevlerinde performans artışı doğrulandı; Rust·Go·Python gibi çeşitli dillerde ve frontend·devops·performans optimizasyonu gibi farklı görevlerde genelleme performansı güçlendirildi
- Kurum içi kodlama benchmark'ı Kimi Code Bench üzerinde, karmaşık uçtan uca görevlerin genelinde Kimi K2.5'e kıyasla büyük iyileşmeler kaydedildi
Karmaşık mühendislik işlerinde sürekli çalışan kodlama yürütüyor
- Mac yerel ortamına Qwen3.5-0.8B modelini indirme ve dağıtma başarıyla tamamlandı
- Nispeten niş bir dil olan Zig ile model çıkarımı uygulanıp optimize edildi; dağılım dışı genelleme performansı gösterildi
- 4.000'den fazla araç çağrısı, 12 saati aşan kesintisiz çalışma, 14 yineleme sonunda throughput yaklaşık 15 tokens/sec düzeyinden yaklaşık 193 tokens/sec seviyesine çıkarıldı
- Son hız, LM Studio'ya kıyasla yaklaşık %20 daha hızlı
8 yıllık açık kaynak finansal eşleştirme motoru exchange-core kapsamlı biçimde yeniden düzenlendi
- 13 saatlik çalışma boyunca 12 optimizasyon stratejisi yinelendi; 1.000'den fazla araç çağrısıyla 4.000'den fazla satır kod hassas biçimde düzenlendi
- CPU ve bellek tahsisi flame graph analiziyle gizli darboğazlar tespit edildi
- Çekirdek iş parçacığı topolojisi 4ME+2RE'den 2ME+1RE'ye yeniden yapılandırıldı
- Zaten performans sınırına yakın çalışan motorda medyan throughput %185 arttı (0.43→1.24 MT/s), peak throughput %133 arttı (1.23→2.86 MT/s)
Beta testlerindeki kurumsal değerlendirmelerde de uzun soluklu kodlama güvenilirliği ve araç çağrısı kalitesi hakkında çok sayıda olumlu geri bildirim doğrulandı
- Baseten, önde gelen kapalı modellerle benzer düzeyde kodlama performansı; üçüncü taraf framework anlayışına dayanan güçlü araç çağrısı kalitesi; karmaşık ve uzun süreli mühendislik işlerine uygunluk belirtti
- Blackbox, uzun süreli·ajan tabanlı kodlama iş akışlarında açık kaynak modeller için yeni bir standart; karmaşık çok aşamalı görev işleme; yüksek kod kalitesi; uzun oturumlarda kararlılık; bariz olmayan bug'ları bulabilme yeteneği belirtti
- CodeBuddy, K2.5'e kıyasla kod üretim doğruluğunda %12 artış, uzun bağlam kararlılığında %18 iyileşme, araç çağrısı başarı oranında %96.60 kaydetti
- Factory, kendi benchmark'larıyla yan yana yapılan değerlendirmede %15 iyileşme bildirdi
- Fireworks, en büyük iyileşme noktaları olarak uzun soluklu güvenilirlik ve talimat izleme yeteneğini gösterdi
- Hermes Agent, araç çağrılarıyla ajan döngülerinin sıkılığı, kodlama gelişimi ve yaratıcı kapsamın genişlemesini belirtti
- Kilo, düşük maliyete karşılık SOTA düzeyinde performans ve kod tabanının tamamında uzun bağlamlı işlerde güçlü yönler belirtti
- Ollama, kodlama ve ajan araçlarına uygunluk, uzun çok aşamalı oturumlarda kararlılık ve mevcut entegrasyonlarla anında uyumluluk belirtti
- OpenCode, görev parçalama ve araç çağrılarında kararlılık, yineleme overhead'inin azalması ve uçtan uca deneyimin güvenilirliğini belirtti
- Qoder, araç çağrısı ve model çağrısı sıklığında artış, görev yürütme sırasında daha fazla proaktiflik, kullanıcı kesintisi ve gecikmede azalma belirtti
- Vercel, Next.js benchmark'ında %50'den fazla iyileşme, platformda üst sıralarda performans ve maliyet/verimlilik temelinde ajan tabanlı kodlama ile frontend üretimine uygunluk belirtti

Kodlama odaklı tasarım

Güçlü kodlama yeteneği sayesinde basit bir promptu tam bir frontend arayüzüne dönüştürebiliyor
- Estetik bir hero section, etkileşimli ögeler, scroll tetiklemeli efektler içeren zengin animasyonlar gibi yapılandırılmış düzenler üretebiliyor
Görüntü·video üretim araçlarını kullanma yeteneği sayesinde görsel olarak tutarlı varlık üretimini destekliyor
- Daha yüksek kaliteye ve daha dikkat çekici bir hero section oluşturmaya katkı sağlıyor
Statik frontend'in ötesine geçerek basit full-stack iş akışlarına kadar genişliyor
- Kimlik doğrulama, kullanıcı etkileşimi ve veritabanı işlemlerini içeriyor
- İşlem kayıtları veya oturum yönetimi gibi hafif kullanım senaryolarını destekliyor
Kurum içi Kimi Design Bench oluşturuldu
- Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming olmak üzere dört kategoriden oluşuyor
- Google AI Studio ile karşılaştırıldığında çeşitli kategorilerde umut verici sonuçlar ve iyi performans kaydedildi
K2.6 Agent örnek çıktıları sunuldu
- Tek bir prompt ve önceden yapılandırılmış harness·araçlar kullanılarak üretildi
- Estetik açıdan, zengin etkileşimler içeren güzel frontend tasarımları yer alıyor
- İşlevsellik açısından, gömülü veritabanı ve kimlik doğrulama içeriyor
- Araç kullanımı açısından, görüntü·video üretim araçlarıyla oluşturulmuş rafine web siteleri içeriyor

Geliştirilmiş Agent Swarm

Yalnızca dikey ölçekleme değil, yatay ölçekleme odaklı bir yapı benimsendi
- Agent Swarm, işleri dinamik olarak heterojen alt görevlere ayırıyor ve kendi oluşturduğu alan uzmanı ajanlar bunları paralel yürütüyor
K2.5 Agent Swarm araştırma önizlemesi temel alınarak, Kimi K2.6 Agent Swarm ile deneyimde niteliksel bir sıçrama sunuldu
- Geniş arama ile derin araştırma birleştiriliyor
- Büyük ölçekli belge analizi ile uzun metin yazımı birleştiriliyor
- Birden fazla formatta içerik üretimi paralel yürütülüyor
- Tek bir otonom çalıştırma içinde belge·web sitesi·slayt·hesap tablosunu kapsayan uçtan uca çıktılar sağlanıyor
Mimarinin yatay ölçek kapasitesi büyütüldü
- 300 alt ajan, 4.000 koordinasyon adımını eşzamanlı yürütüyor
- K2.5'in 100 alt ajanı ve 1.500 adımına kıyasla büyük bir genişleme
- Büyük ölçekli paralelleştirme ile uçtan uca gecikme azaltıldı, çıktı kalitesi artırıldı ve Agent Swarm'ın operasyon sınırları genişletildi
PDF·hesap tablosu·slayt·Word belgeleri gibi yüksek kaliteli dosyalar Skills'e dönüştürülebiliyor
- Belgelerin yapı ve stil özellikleri yakalanıp korunuyor
- Sonraki görevlerde aynı kalite ve format yeniden üretilebiliyor
Çok sayıda örnek görev sunuldu
- 100 küresel yarı iletken varlığı üzerinde 5 quant stratejisi tasarlanıp çalıştırıldı; McKinsey tarzı PPT yeniden kullanılabilir bir skill'e dönüştürüldü; ayrıntılı modelleme hesap tabloları ve eksiksiz yönetici sunum materyalleri sağlandı
- Zengin görsel verilere sahip yüksek kaliteli bir astrofizik makalesi yeniden kullanılabilir akademik bir skill'e dönüştürüldü; çıkarım akışı ve görselleştirme yöntemleri çıkarıldı; 40 sayfalık·7.000 kelimelik araştırma makalesi, 20.000'den fazla girdiye sahip yapılandırılmış veri kümesi, astronomi düzeyinde 14 grafik üretildi
- Yüklenen özgeçmiş temel alınarak 100 alt ajan oluşturuldu, California'daki ilgili 100 işle eşleştirme yapıldı; yapılandırılmış fırsat veri kümesi ve 100 özelleştirilmiş özgeçmiş sağlandı
- Google Maps üzerinde Los Angeles'ta resmi web sitesi olmayan 30 perakende mağaza tespit edildi; her mağaza için dönüşüm odaklı landing page oluşturuldu

Proaktif ajanlar

OpenClaw ve Hermes gibi otonom·proaktif ajanlarda güçlü performans kaydedildi
- Birden çok uygulama arasında 7/24 kesintisiz çalışan türleri destekliyor
Basit sohbet tabanlı etkileşimlerden ayrılan iş akışları hedefleniyor
- Takvim yönetimi, kod çalıştırma ve platformlar arası iş orkestrasyonu için sürekli arka plan ajanları gerekiyor
RL altyapı ekibi, K2.6 tabanlı ajanlarla 5 gün boyunca otonom işletim gerçekleştirdi
- İzleme, olay müdahalesi ve sistem işletiminden sorumluydu
- Kalıcı bağlamı koruma, çok iş parçacıklı görev işleme ve alarmdan çözüme kadar tüm yaşam döngüsünü yürütme gösterildi
- Hassas bilgiler çıkarıldıktan sonra görev günlüklerinin bulunduğu belirtildi
Gerçek dünya ortamlarında güvenilirlik iyileşmeleri ölçüldü
- Daha doğru API yorumlama
- Daha kararlı uzun süreli çalışma performansı
- Uzun araştırma görevlerinde gelişmiş güvenlik farkındalığı
Kurum içi değerlendirme paketi Claw Bench ile performans artışı nicel olarak ölçüldü
- Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization olmak üzere beş alan içeriyor
- Tüm metriklerde Kimi K2.5'e kıyasla görev tamamlama oranı ve araç çağrısı doğruluğu belirgin biçimde iyileşti
- Özellikle insan gözetimi olmadan sürekli otonom işletim gerektiren iş akışlarında güçlü iyileşmeler kaydedildi

Bring Your Own Agents

Güçlü orkestrasyon yeteneği temelinde proaktif ajanlar Claw Groups'a genişletiliyor
- Agent Swarm mimarisinin yeni bir uygulama biçimi olarak araştırma önizlemesi sunuldu
Açık ve heterojen bir ekosistem benimsendi
- Farklı ajanlar ve insanlar gerçek iş birlikçileri olarak birlikte çalışabiliyor
- Kullanıcılar, hangi cihazda olursa olsun ve hangi modelle çalışırsa çalışsın, ajanları sisteme dahil edebiliyor
- Her ajanın kendine özgü araç seti, skill'leri ve kalıcı bellek bağlamı bulunuyor
- Yerel dizüstü bilgisayarlar, mobil cihazlar, bulut instance'ları gibi farklı ortamlardaki ajanlar ortak çalışma alanına doğal biçimde entegre oluyor
Merkezi olarak Kimi K2.6, uyarlanabilir bir koordinatör rolü üstleniyor
- Her ajanın skill profili ve kullanılabilir araçlarına göre görevler dinamik biçimde dağıtılıyor
- Görevler uygun yeteneklerle eşleştirilerek optimize ediliyor
- Ajan başarısızlığı veya tıkanma algılandığında görevler yeniden atanıyor ya da alt görevler yeniden üretiliyor
- Başlangıçtan doğrulamaya ve tamamlanmaya kadar çıktıların tüm yaşam döngüsü aktif biçimde yönetiliyor
Claw Groups için kurum içi kullanım örnekleri de yer alıyor
- İnsan-ajan iş akışlarını gerçek dünyada iyileştirmek için kurum içinde ajan pazarlama ekibi kullanılıyor
- Demo Makers, Benchmark Makers, Social Media Agents, Video Makers gibi uzman ajanlar birlikte çalışıyor
- Uçtan uca içerik üretimi ve lansman kampanyaları yürütülüyor
- K2.6, ara sonuçların paylaşımını ve fikirlerin tutarlı nihai çıktılara dönüşmesini koordine ediyor
İnsan ve AI arasındaki ilişki, soru-cevap ya da basit görev atamasının ötesine geçerek gerçek bir iş birliği ortaklığına genişletiliyor
- "my agent", "your agent", "our team" sınırlarının iş birliği sistemi içinde doğal biçimde silikleştiği gelecek vizyonu sunuluyor

Benchmark tablosu

Agentic alanındaki başlıca sayılar
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 için sırasıyla 74.9 ve 78.4
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
Coding alanındaki başlıca sayılar
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
Reasoning & Knowledge alanındaki başlıca sayılar
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
Vision alanındaki başlıca sayılar
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
Resmî Kimi-K2.6 benchmark sonuçlarının yeniden üretimi için resmî API kullanımı öneriliyor
- Üçüncü taraf sağlayıcı seçimi için Kimi Vendor Verifier (KVV) referansı da veriliyor

Dipnotlar

Genel test ayrıntıları
- Kimi K2.6 ve Kimi K2.5 için thinking mode enabled, Claude Opus 4.6 için max effort, GPT-5.4 için xhigh reasoning effort, Gemini 3.1 Pro için high thinking level koşullarında sonuçlar raporlandı
- Aksi belirtilmedikçe Kimi K2.6 deneyleri temperature 1.0, top-p 1.0, 262,144 tokens bağlam uzunluğu ile yürütüldü
- Açık puanı bulunmayan benchmark'lar, Kimi K2.6 ile aynı koşullarda yeniden değerlendirildi ve yıldız (*) ile işaretlendi
- Yıldızsız sonuçlar resmî raporlardan alıntılandı
Akıl yürütme benchmark'ları
- GPT-5.4 ve Claude 4.6'nın IMO-AnswerBench puanları z.ai blogundan alındı
- Humanity's Last Exam (HLE) ve diğer akıl yürütme görevleri, en fazla 98,304 tokens üretim uzunluğuyla değerlendirildi
- Varsayılan raporlama değeri HLE full set
- Yalnızca metin alt kümesinde Kimi K2.6, araçsız %36.4 accuracy, araçlarla %55.5 accuracy kaydetti
Araç destekli ve ajan tabanlı görevler
- HLE with tools, BrowseComp, DeepSearchQA, WideSearch için search, code-interpreter, web-browsing araçları eklendi
- HLE-Full with tools için en fazla üretim uzunluğu 262,144 tokens, adım başı sınır 49,152 tokens
- Bağlam penceresi eşik değeri aşıldığında yalnızca en son araçla ilgili mesaj turunu tutan basit bir bağlam yönetimi stratejisi kullanıldı
- BrowseComp puanları, Kimi K2.5 ve DeepSeek-V3.2 ile aynı discard-all stratejisi bağlam yönetimi kullanılarak elde edildi
- DeepSearchQA testlerinde Kimi K2.6 için bağlam yönetimi uygulanmadı; desteklenen bağlam uzunluğunu aşan görevler doğrudan başarısız sayıldı
- Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro için DeepSearchQA puanları Claude Opus 4.7 System Card'dan alıntılandı
- WideSearch sonuçları hide tool result bağlam yönetimi ayarıyla raporlandı
- Test sistem prompt'u Kimi K2.5 technical report ile aynı
- Claw Eval, version 1.1, max-tokens-per-step 16384 ile yürütüldü
- APEX-Agents için herkese açık 480 görevden 452 görev değerlendirildi
  - Artificial Analysis ile aynı şekilde Investment Banking Worlds 244, 246 hariç tutuldu
  - Hariç tutma nedeni dış çalışma zamanı bağımlılıkları
Kodlama görevleri
- Terminal-Bench 2.0 puanı, varsayılan ajan framework'ü Terminus-2 ve sağlanan JSON parser kullanılarak preserve thinking mode ile elde edildi
- SWE-Bench ailesi değerlendirmeleri (Verified, Multilingual, Pro dahil), SWE-agent temel alınarak değiştirilmiş kurum içi değerlendirme framework'ü ile yapıldı
- Bu framework'ün araç yapılandırması bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool asgari setinden oluşuyor
- Kodlama görevleri için raporlanan puanların tamamı 10 bağımsız çalıştırmanın ortalaması
Vision benchmark'ları
- max-tokens 98,304, 3 çalıştırma ortalaması (avg@3) uygulandı
- Python aracı kullanımı ayarında max-tokens-per-step 65,536, max-steps 50 ile çok adımlı akıl yürütme yürütüldü
- MMMU-Pro, resmî protokol izlenerek girdi sırası korunup görseller öne yerleştirilerek değerlendirildi

3 yorum

GN⁺ 9 일 전

Hacker News yorumları

OpenRouter ile bağlayıp denedim; bu modelin SVG pelikanı sadece çizmekle kalmayıp animasyon hızını da ayarlayabilen bir HTML içine sarıp dışa aktarması etkileyiciydi. Sohbet kaydı ve HTML bu gist'te var, çalışır örnek ise bu bağlantıda görülebilir
- Artık bu tür pelikan SVG'lerinin eğitim veri setine girmiş olabileceğini düşünüyorum
- Bu tam bir gereğinden fazla çalışkan havası veriyordu; Kimi adı da nedense kulağa örnek öğrenci gibi geliyor
- Ne yazık ki pelikanın bacakları ve ayaklarına aynı özen gösterilmemiş gibi. Sol bacak felçliymiş gibi hareket etmiyor, sağ ayak bileği ise rahatsız edici şekilde fırıl fırıl dönüyor
- Beta döneminde kullanmıştım; oldukça iyi bir modeldi ve bazı anlarda Opus ya da GPT dışında bir model kullandığımı unuttuğum oluyordu. Yine de Opus hâlâ daha iyi ve bana göre GPT tarafı daha zorlanıyor gibiydi. Backend işlerinde küçük bir niş vardı ama beceriniz varsa Opus ile de benzer şekilde çözülebiliyordu; genel olarak ise eksik yönleri daha fazlaydı
- Cidden merak ediyorum: Neredeyse her yeni model başlığında bunu paylaşmanın amacı ne? Belki biraz yaşlanmış ve huysuzum ama çoktan bayatladı ve düşük eforlu bir Reddit yorumu gibi geliyor
İlk benchmark'lara bakılırsa Kimi K2.6, Kimi K2 Thinking'e kıyasla ciddi şekilde iyileşmiş. Önceki model bizim benchmark'larımızda pek iyi değildi ve quantization için de en iyi ayarları kullanmıştık. Şu anda Kimi K2.6, tek atış kodlama akıl yürütmesi alanında open-weight modeller arasında en üst sıralarda; GLM 5.1'den biraz daha iyi ve yaklaşık 3 ay önceki SOTA modellerle de rekabet edebiliyor, yani Gemini 3.1 Pro Preview ile benzer seviyede görünüyor. Agent tipi testler hâlâ sürüyor ve open-weight modeller uzun bağlamlı agent iş akışlarında zayıf olma eğiliminde, ancak GLM 5.1 oldukça iyi dayanmıştı; bu yüzden Kimi'nin sonucunu merak ediyorum. Yalnız hem eski hem yeni sürüm biraz yavaş, bu da agent kodlama için gerçek kullanımda sınırlayıcı olabilir. Eski Kimi K2 benchmark optimizasyonuna fazla yüklenmişti ve zor problemleri çözmekten çok varyasyon ve sıcaklığı artırmakla daha ilgili görünüyordu; bu model ise çok daha güçlü bir genel amaçlı model gibi duruyor. Genel olarak open-weight tarafı gerçekten çok iyi görünüyor; neredeyse her hafta frontier seviyesinde yeni bir model geliyor gibi. Ayrıntılı benchmark'lar gertlabs sitesinde görülebilir
- K2.6'nın Sonnet 4.6'ya göre fiyat ve performans olarak nerede durduğunu merak ediyorum
- Diller arasında performans farkının bu kadar büyük olması oldukça şaşırtıcıydı
Çin'in belki de dünyadaki en önemli teknolojiyi açık kaynak yaklaşımıyla itmesi, ABD'nin ise tam tersine gitmesi bana ironik biçimde komik geliyor
- Bence motivasyonlardan biri ABD şirketlerini dengelemek. En büyük oyuncular OpenAI ve Anthropic ve ikisi de ABD şirketi; dolayısıyla open-weight modeller ne kadar yaygınlaşırsa bu ikisinin sektördeki hakimiyeti o kadar zayıflar. Çinli şirketler ABD tarzı kapalı model stratejisini seçse çoğu kişi yine ChatGPT ya da Claude kullanırdı; bu yüzden zaten büyük kâr elde etmek zor görünüyorsa, open-weight yayımlayıp ABD şirketlerinin aşırı kârını azaltmak daha gerçekçi olabilir
- Büyük teknolojik ilerlemelerin sonunda açıklık sayesinde hızlandığını düşünüyorum. Sadece iPhone'a bakın: GPS, internet, sesli asistan, dokunmatik ekran, mikroişlemci, lityum iyon pil gibi birçok temel teknoloji devlet araştırmalarından ya da kamuya yakın, açık araştırmalardan çıktı. Özel şirketler rakiplerine devrim niteliğinde bir ilerlemeyi kolay kolay açmaz; bu yüzden alanın tamamını ilerletmek istiyorsanız sonunda teknolojiyi açmanız gerekir
- Bu güncellemeyle Kimi K2.6'nın en güçlü açık multimodal yapay zeka modeli olduğunu düşünüyorum. Elbette içeriden biri değilim. Açık AI benchmark'larını topladığımda, Opus 4.6 max effort ile karşılaştırınca agent tarafı 5'e 5, kodlama Kimi 5'e Opus 1, akıl yürütme ve bilgi Kimi 1'e Opus 4, görsel tarafta ise Kimi 9'a Opus 0 çıkıyordu. Tabii benchmark'ları model üreticileri seçtiği için önyargı payı var, ama yine de kodlama ve akıl yürütme maddelerinin çoğu oldukça standarttı
- O kadar da tek taraflı değil. Google da yakın zamanda Gemma 4 yayımladı, Allen AI da open Olmo ailesini çıkarıyor. Yine de Çin açık modellerinin belirgin biçimde daha güçlü göründüğü doğru; özellikle Qwen 3 ailesi ağırlık sınıfının üstünde performans gösteriyor gibi
- Çin laboratuvarlarının neden modellerini açık kaynak olarak yayımladığına dair birçok tahmin yapılıyor, ama bence neden basit ve net. Fiilen sahip oldukları tek ticari strateji bu olabilir. Bunu şu yazımda özetledim
Kimi'nin beklediğimden daha az ilgi görmesi bana hep şaşırtıcı gelmiştir. Yaratıcılık ve kalite açısından sürekli dikkat çekiyordu ve epey uzun süre favori modelimdi. Tabii otorite sayılmam
- İyi ama bence henüz Claude seviyesinde değil. Üstelik API tarafında sık sık kapasite sorunları oluyor. Yine de fiyat/kalite oranı inanılmaz; birkaç hafta ya da ay önce yüklediğim 40 dolarlık bakiyenin hâlâ yarısını bile bitiremedim
- SVG saat çizebilen az sayıdaki modelden biri olması da eğlenceliydi. Örnekler bu sitede görülebilir
- Bu performans seviyesinde OpenRouter'da çok ucuz olması da ayrı güzeldi. Umarım 2.6 da bu geleneği sürdürür
- Kagi Assistant'ta seçenek olarak kullandım; arama ve özetlemenin yoğun olduğu bir ortamda sonuçları hoşuma gitti. Özellikle liste odaklı ya da Markdown'a boğulmuş tipik LLM üslubu yerine doğal düzyazı istediğimde iyiydi. Emin biçimde karşılaştırmak zor ama çıktı akışını daha iyi hale getirmek için kaynağı cesurca yeniden düzenleme eğilimindeydi; bazen ayrı işlenmiş ilgili fikirleri birleştirmek ya da isteğe gerçekten yanıt vermek için bu tür düzenlemeler faydalı oluyordu
- İlk K2 çıktığında hatırlıyorum; bir süre yaratıcı yazarlıkta diğer modellerin belirgin şekilde önündeydi
Burada Kimi'yi gerçek işinde kullanmış olan var mı merak ediyorum. Ben bir kez denedim; benchmark'lar gösterişli görünse de gerçek kullanım izlenimi pek etkileyici değildi. Buna karşılık Qwen 3.6 oldukça iyiydi; Opus kadar değil ama Sonnet ile rahatça kapışır gibi geldi
- Codex kotam bitince yerine Kimi K2.5 kullanıyordum; küçük ve orta ölçekli işler için fena değildi. Ama karmaşık işler için kullanınca sonrasında iki gün boyunca Codex ile temizlik yapmak gerekiyordu; umarım 2.6 biraz daha iyidir
- GLM-5.1 öncesinde Opus 4.5 ile Kimi 4.5 arasında gidip gelerek kullanıyordum ve Kimi tarafında da sonuçlar oldukça iyiydi
- Muhtemelen zaten kullanıyorsunuzdur. Cursor'da composer-2 modelini kullanıyorsanız bu Kimi ailesinden geliyor. Planlama tarafı üst düzey, icrada da composer-2 içinde iyi çalışıyor gibi geliyor
Eğer benchmark hissi ile gerçek kullanım algısı örtüşüyorsa, bu olay Çin yapay zekasının ABD'nin en üst düzey laboratuvar modelleriyle neredeyse başa baş geldiği bir DeepSeek anı olabilir gibi geliyor
- Önceki nesil modellerle karşılaştırınca evet denebilir, ama sözde 10T sınıfı efsanevi modellerle karşılaştırınca hâlâ hiç yakın olmadığını düşünüyorum
Benim testlerime ve aibenchy karşılaştırmasına göre Kimi K2.6, Kimi K2.5'ten sadece biraz daha iyiydi. Özellikle bulmacalarda, alan uzmanlığı gerektiren sorularda ve tuzaklı doğruluk görevlerinde sık sık talimata uymama ve yanlış cevaplar gördüm. Kodlama modeli olarak harika olabilir ama genel zeka hissi hâlâ en üst SOTA'nın biraz altında gibi
- OpenRouter'da max tokens değerini 8192 yapıp denedim ama non-thinking modunda bile tüm yanıtlar kesilmiş geldi. Bu bir dağıtım sorunu olabilir ama senin bağlantında da çok fazla çıktı token'ı üretiyor gibi görünüyordu
Bazen gelecekte, eskiden bir oda kaplayan bilgisayarların bugün cebimize girmesi gibi, bir gün veri merkezine denk gelen hesaplama gücünün telefon gibi tek bir cihaza sığıp sığmayacağını merak ediyorum. Teknolojik ilerleme hızı her yıl artıyormuş gibi göründüğü için, böyle bir değişim de daha çabuk gelir mi diye düşünüyorum
- Bu yönde ilk çalışmalar zaten var. Örneğin Taalas gibi şirketler LLM ASIC geliştiriyor ve HC1'in llama 8b üzerinde saniyede 17k token verdiği söyleniyor. Hâlâ 2.5kW düzeyinde olduğu için telefondan çok tek sunucuya yakın ama ilk çip olması açısından önemli. Fotoniğe dayalı hesaplama gibi alternatifler de güç tüketimini ciddi biçimde düşürebilir, ancak şimdilik araştırma aşamasında görünüyor. Yapay zekaya çok büyük para akıyor ve mevcut GPU inference'ı çok enerji tüketiyor; bu nedenle bu alandaki gelişmelerin oldukça hızlı olacağını tahmin ediyorum
- Ben o kadar hızlı olacağını sanmıyorum. Tarihsel olarak daha çok üstel küçülme gördük ve bu eğilim sürerse oda büyüklüğündeki hesaplamanın cep boyutuna inmesi yine benzer süre almalı. Üstelik son dönemde bu üstel eğilimin de altında kalıyoruz ve zaten üstel büyümenin uzun süre devam etmesi zordur. Teknolojik ilerlemenin süreceğine ve hesaplama aygıtlarının küçülmeye devam edeceğine katılıyorum, ama bu tek başına bir sonraki küçülme aşamasının daha kısa sürede geleceği anlamına gelmez
Bu sabah boyunca uygulamama bağlayıp test ettim; his olarak sonuçlar Sonnet 4.6'ya benziyordu. Resmî doğrulama olmadan tamamen hissiyata dayalı bir izlenim tabii ama frontier modellerde gerçek rekabetin artması sevindirici
- K2.6 ve GLM 5.1 sayesinde artık Sonnet düzeyi zekâyı Haiku düzeyi fiyata kullanıyormuşuz gibi geliyor. Bu gerçekten harika. Anthropic'in de yeni bir Haiku çıkarmasını isterim; daha ucuz modellerle rekabet edebilmek için mevcut Haiku'nun üçte biri ile beşte biri fiyat aralığında bir ürüne ihtiyaç var gibi görünüyor. Gemma-4 bu fiyat bandında oldukça iyi iş çıkarıyor
Bu model için kodlamaya yönelik sabit ücretli bir plan olup olmadığını merak ettim. Yani token sınırı yerine sadece API çağrısı sınırı olan bir model var mı diye bakıyordum; ayrıca son zamanlarda z.ai'de GLM ödemesi başarısız olduğu için aboneliğim kesildi ve fiyatlar da birkaç ay içinde aşırı yükseldi
- Kimi'nin de diğer hizmetlere çok benzeyen kendi abonelik sistemi var; Kimi Code sayfasından bakabilirsin

ingwannu 9 일 전

Kişisel olarak Fireworks.ai’nin firepass’i ile ayda 30 dolara kimi2.5’i sınırsız şekilde gayet iyi kullanıyordum; bu yüzden yakında firepass’e de uygulanacak olan bu 2.6’daki performans artışını gerçekten çok merakla bekliyorum.

API üzerinden kısa süre denediğimde, 2.5’e kıyasla çok büyük bir ilerleme olduğunu hissettim

chlrhdmltkfkd 8 일 전

Vay, yeni kayıtları kapatmışlar.

Kimi K2.6 tanıtıldı - açık kaynak kodlamada ilerleme

Uzun soluklu kodlama

Kodlama odaklı tasarım

Geliştirilmiş Agent Swarm

Proaktif ajanlar

Bring Your Own Agents

Benchmark tablosu

Dipnotlar

Genel test ayrıntıları

Akıl yürütme benchmark'ları

Araç destekli ve ajan tabanlı görevler

Kodlama görevleri

Vision benchmark'ları

İlgili okumalar

3 yorum

Hacker News yorumları