- Moonshot AI tarafından duyurulan Kimi K2.5, metin ve görseli birlikte optimize eden açık kaynaklı çok modlu ajan modeli olarak, tek bir modelde akıl yürütme, kodlama, görsel ve ajan görevlerinin tamamını kapsamlı biçimde ele alıyor
- Mevcut sıralı ajanların sınırlarını aşmak için Agent Swarm paralel ajan orkestrasyonunu kullanarak karmaşık görevleri aynı anda parçalara ayırıp yürütüyor
- Görüntü, video, belge, web ve OS ortamlarını da kapsayan geniş kapsamlı benchmark değerlendirmelerinde ticari ve açık kaynaklı modellerle karşılaştırmalı performans sunuyor
- Görsel pekiştirmeli öğrenmenin metin akıl yürütme performansını da iyileştirdiği çapraz modal aktarım etkisi deneysel olarak doğrulanıyor
- Eğitilmiş checkpoint'leri yayımlayarak genel amaçlı ajan sistemi araştırmaları ve gerçek kullanım alanlarına genişlemeyi hedefliyor
Genel bakış ve sorun tanımı
- Büyük dil modelleri, basit soru-cevabın ötesine geçerek araç kullanımı ve uzun vadeli planlama yapabilen ajan zekasına evriliyor
- Mevcut çok modlu modeller, metin merkezli tasarıma görsel ekleme yaklaşımını benimsediği için modlar arası çakışmalar ve genelleme sınırları taşıyor
- Karmaşık gerçek dünya görevlerinde sıralı ajan çalıştırmanın yarattığı gecikme ve bağlam sınırları temel darboğazlardan biri oluyor
Kimi K2.5'in temel tasarımı
- Metin–görsel ortak ön eğitim ile eğitimin başından itibaren iki modu belirli oranlarda karıştırarak hizalamayı güçlendiriyor
- MoonViT-3D görsel encoder kullanarak orijinal çözünürlüklü görüntüler ve uzun süreli videoları aynı yapı içinde işliyor
- Görsele özel SFT olmadan da performansın ortaya çıktığı zero-vision SFT stratejisini benimsiyor
- Yetenek birimleri temelinde kurulan ortak çok modlu pekiştirmeli öğrenme ile bilgi, akıl yürütme, kodlama ve ajan yeteneklerini birlikte geliştiriyor
Agent Swarm mimarisi
- Merkezi orkestratör, görevi paralelleştirilebilir alt problemlere ayırıyor ve uzman alt ajanları dinamik olarak oluşturuyor
- Her alt ajan, bağımsız yerel bağlam içinde çalışarak küresel bağlamın kirlenmesini önlüyor
- Tüm kayıtlar yerine yalnızca özetlenmiş sonuçları seçici biçimde birleştirerek bağlam sharding uyguluyor
- Paralel yürütmeyi teşvik eden eğitim prompt'ları ve Critical Steps metriği ile gecikmeyi en aza indirmeyi öğreniyor
Eğitim bileşimi ve ölçek
- Temel model Kimi K2, 1 trilyon parametreli MoE yapısı ile 15 trilyon token metin üzerinde ön eğitimden geçirildi
- Joint long-context eğitimi sayesinde azami 256k bağlam uzunluğunu destekliyor
- Görüntü, video, OCR, belge ve OS ekran görüntüleri gibi çeşitli çok modlu verileri içeriyor
Değerlendirme ve performans: başlıca model karşılaştırmalarına odaklı özet
- Kimi K2.5, ticari modelleri (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) ve açık kaynaklı modelleri (DeepSeek-V3.2, Qwen3-VL-235B) içeren aynı koşullardaki karşılaştırmalı değerlendirmeler yaptı
- Tüm değerlendirmeler temperature 1.0, top-p 0.95 ve azami 256k bağlam uzunluğu ayarıyla gerçekleştirildi
-
Akıl yürütme ve genel bilgi benchmark'ları
- AIME 2025'te Kimi K2.5, 96.1 ile Claude Opus 4.5'i (92.8) ve Gemini 3 Pro'yu (95.0) geride bırakırken GPT-5.2'ye (100) yakın bir performans kaydetti
- HMMT 2025 ve IMO-AnswerBench'te de Claude Opus 4.5 ve Qwen3-VL'e kıyasla yüksek puanlarını korudu
- GPQA-Diamond'da 87.6 ile Claude Opus 4.5'e (87.0) yakın, açık kaynaklı modellere göre ise daha güçlü performans gösterdi
- LongBench v2'de en yüksek puanı Gemini 3 Pro aldı, ancak Kimi K2.5 DeepSeek-V3.2 ve Qwen3-VL karşısında rekabetçi sonuçlar sundu
-
Kodlama ve yazılım mühendisliği
- SWE-Bench Verified'da Kimi K2.5, 76.8 ile DeepSeek-V3.2'ye (76.2) yakın seyretti ve Qwen3-VL'i (73.1) geçti
- SWE-Bench Pro ve Multilingual'da ticari modellerin gerisinde kalsa da açık kaynak tarafında üst sıralarda yer aldı
- LiveCodeBench v6'da 85.0 puanla Claude Opus 4.5'i (82.2) ve Qwen3-VL'i (83.3) geride bıraktı
- PaperBench(CodeDev) ve CyberGym'de ticari modeller hâlâ üstün olsa da Kimi K2.5 gerçek kullanım için uygulanabilir düzeyde istikrarlı performans sergiledi
-
Ajan ve arama tabanlı görevler
- BrowseComp'ta tek ajan bazında 60.6 puanla Claude Opus 4.5'i (37.0) açık farkla geçti
- Agent Swarm uygulandığında BrowseComp'ta 78.4, WideSearch'te 79.0 elde ederek tek ajan yapısına göre belirgin performans artışı gösterdi
- WideSearch'te tek ajan bazında Claude Opus 4.5 daha yüksek puan aldı, ancak paralel ajan yapılandırmasında Kimi K2.5 üstünlük sağladı
- DeepSearchQA ve FinSearchComp ailesinde de ticari modellere yakın sonuçlar kaydetti
-
Görsel, belge ve video anlama
- MMMU-Pro, OCRBench, OmniDocBench 1.5 gibi testlerde Qwen3-VL ile doğrudan karşılaştırıldı ve genel olarak görsel akıl yürütme ile belge anlamada rekabetçiliğini korudu
- GPT-5.2, bazı görsel değerlendirmelerde yaklaşık %10 çıktı başarısızlık oranı gösterdiği için ihtiyatlı biçimde puanlandı
- Uzun ve kısa video benchmark'larında Kimi K2.5 tutarlı performans gösterdi; tek görüntü odaklı modellere kıyasla daha istikrarlı sonuçlar verdi
-
Genel değerlendirme
- Kimi K2.5, bazı metriklerde en iyi ticari modellere ulaşamasa da, açık kaynaklı çok modlu ve ajan modelleri içinde en geniş kapsamlı ve dengeli performanslardan birini gösteriyor
- Özellikle Agent Swarm kullanıldığında ajan ve arama odaklı görevlerde belirgin üstünlük ortaya çıkıyor
- Akıl yürütme, kodlama, görsel ve ajan yeteneklerini tek bir açık modelde birleştirmesiyle yalnızca deneysel değil, fiilen kullanılabilir genel amaçlı bir ajan modeli sunuyor
Sınırlamalar ve gözlemler
- Bazı ticari modellerde görsel benchmark'larda çıktı başarısızlık oranı görüldüğü için puanlama ihtiyatlı yapıldı
- Uzun ajan görevlerinde bağlam yönetimi stratejisine bağlı performans farkı oldukça büyük olabiliyor
- Bazı yüksek maliyetli benchmark'lar API kararlılığı sorunları nedeniyle değerlendirmeye dahil edilmedi
Yayın ve kullanım
- Kimi K2.5'in post-training checkpoint'leri açık kaynak olarak yayımlandı
- Genel amaçlı ajan sistemleri, çok modlu araştırmalar ve gerçek otomasyon iş yükleri için yeniden kullanılabilir bir temel model niteliği taşıyor
- Metin ve görseli ayırmayan yaklaşım ile paralel ajan yapısının General Agentic Intelligence'a giden pratik bir yol olabileceği öne sürülüyor
Henüz yorum yok.