Kimi K2.5 teknik raporu [PDF] - Görsel ajan zekasına doğru açık çok modlu model

(github.com/MoonshotAI)

5 puan yazan GN⁺ 2026-02-01 | Henüz yorum yok. | WhatsApp'ta paylaş

Moonshot AI tarafından duyurulan Kimi K2.5, metin ve görseli birlikte optimize eden açık kaynaklı çok modlu ajan modeli olarak, tek bir modelde akıl yürütme, kodlama, görsel ve ajan görevlerinin tamamını kapsamlı biçimde ele alıyor
Mevcut sıralı ajanların sınırlarını aşmak için Agent Swarm paralel ajan orkestrasyonunu kullanarak karmaşık görevleri aynı anda parçalara ayırıp yürütüyor
Görüntü, video, belge, web ve OS ortamlarını da kapsayan geniş kapsamlı benchmark değerlendirmelerinde ticari ve açık kaynaklı modellerle karşılaştırmalı performans sunuyor
Görsel pekiştirmeli öğrenmenin metin akıl yürütme performansını da iyileştirdiği çapraz modal aktarım etkisi deneysel olarak doğrulanıyor
Eğitilmiş checkpoint'leri yayımlayarak genel amaçlı ajan sistemi araştırmaları ve gerçek kullanım alanlarına genişlemeyi hedefliyor

Genel bakış ve sorun tanımı

Büyük dil modelleri, basit soru-cevabın ötesine geçerek araç kullanımı ve uzun vadeli planlama yapabilen ajan zekasına evriliyor
Mevcut çok modlu modeller, metin merkezli tasarıma görsel ekleme yaklaşımını benimsediği için modlar arası çakışmalar ve genelleme sınırları taşıyor
Karmaşık gerçek dünya görevlerinde sıralı ajan çalıştırmanın yarattığı gecikme ve bağlam sınırları temel darboğazlardan biri oluyor

Kimi K2.5'in temel tasarımı

Metin–görsel ortak ön eğitim ile eğitimin başından itibaren iki modu belirli oranlarda karıştırarak hizalamayı güçlendiriyor
MoonViT-3D görsel encoder kullanarak orijinal çözünürlüklü görüntüler ve uzun süreli videoları aynı yapı içinde işliyor
Görsele özel SFT olmadan da performansın ortaya çıktığı zero-vision SFT stratejisini benimsiyor
Yetenek birimleri temelinde kurulan ortak çok modlu pekiştirmeli öğrenme ile bilgi, akıl yürütme, kodlama ve ajan yeteneklerini birlikte geliştiriyor

Agent Swarm mimarisi

Merkezi orkestratör, görevi paralelleştirilebilir alt problemlere ayırıyor ve uzman alt ajanları dinamik olarak oluşturuyor
Her alt ajan, bağımsız yerel bağlam içinde çalışarak küresel bağlamın kirlenmesini önlüyor
Tüm kayıtlar yerine yalnızca özetlenmiş sonuçları seçici biçimde birleştirerek bağlam sharding uyguluyor
Paralel yürütmeyi teşvik eden eğitim prompt'ları ve Critical Steps metriği ile gecikmeyi en aza indirmeyi öğreniyor

Eğitim bileşimi ve ölçek

Temel model Kimi K2, 1 trilyon parametreli MoE yapısı ile 15 trilyon token metin üzerinde ön eğitimden geçirildi
Joint long-context eğitimi sayesinde azami 256k bağlam uzunluğunu destekliyor
Görüntü, video, OCR, belge ve OS ekran görüntüleri gibi çeşitli çok modlu verileri içeriyor

Değerlendirme ve performans: başlıca model karşılaştırmalarına odaklı özet

Kimi K2.5, ticari modelleri (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) ve açık kaynaklı modelleri (DeepSeek-V3.2, Qwen3-VL-235B) içeren aynı koşullardaki karşılaştırmalı değerlendirmeler yaptı
Tüm değerlendirmeler temperature 1.0, top-p 0.95 ve azami 256k bağlam uzunluğu ayarıyla gerçekleştirildi
Akıl yürütme ve genel bilgi benchmark'ları
- AIME 2025'te Kimi K2.5, 96.1 ile Claude Opus 4.5'i (92.8) ve Gemini 3 Pro'yu (95.0) geride bırakırken GPT-5.2'ye (100) yakın bir performans kaydetti
- HMMT 2025 ve IMO-AnswerBench'te de Claude Opus 4.5 ve Qwen3-VL'e kıyasla yüksek puanlarını korudu
- GPQA-Diamond'da 87.6 ile Claude Opus 4.5'e (87.0) yakın, açık kaynaklı modellere göre ise daha güçlü performans gösterdi
- LongBench v2'de en yüksek puanı Gemini 3 Pro aldı, ancak Kimi K2.5 DeepSeek-V3.2 ve Qwen3-VL karşısında rekabetçi sonuçlar sundu
Kodlama ve yazılım mühendisliği
- SWE-Bench Verified'da Kimi K2.5, 76.8 ile DeepSeek-V3.2'ye (76.2) yakın seyretti ve Qwen3-VL'i (73.1) geçti
- SWE-Bench Pro ve Multilingual'da ticari modellerin gerisinde kalsa da açık kaynak tarafında üst sıralarda yer aldı
- LiveCodeBench v6'da 85.0 puanla Claude Opus 4.5'i (82.2) ve Qwen3-VL'i (83.3) geride bıraktı
- PaperBench(CodeDev) ve CyberGym'de ticari modeller hâlâ üstün olsa da Kimi K2.5 gerçek kullanım için uygulanabilir düzeyde istikrarlı performans sergiledi
Ajan ve arama tabanlı görevler
- BrowseComp'ta tek ajan bazında 60.6 puanla Claude Opus 4.5'i (37.0) açık farkla geçti
- Agent Swarm uygulandığında BrowseComp'ta 78.4, WideSearch'te 79.0 elde ederek tek ajan yapısına göre belirgin performans artışı gösterdi
- WideSearch'te tek ajan bazında Claude Opus 4.5 daha yüksek puan aldı, ancak paralel ajan yapılandırmasında Kimi K2.5 üstünlük sağladı
- DeepSearchQA ve FinSearchComp ailesinde de ticari modellere yakın sonuçlar kaydetti
Görsel, belge ve video anlama
- MMMU-Pro, OCRBench, OmniDocBench 1.5 gibi testlerde Qwen3-VL ile doğrudan karşılaştırıldı ve genel olarak görsel akıl yürütme ile belge anlamada rekabetçiliğini korudu
- GPT-5.2, bazı görsel değerlendirmelerde yaklaşık %10 çıktı başarısızlık oranı gösterdiği için ihtiyatlı biçimde puanlandı
- Uzun ve kısa video benchmark'larında Kimi K2.5 tutarlı performans gösterdi; tek görüntü odaklı modellere kıyasla daha istikrarlı sonuçlar verdi
Reklam
Genel değerlendirme
- Kimi K2.5, bazı metriklerde en iyi ticari modellere ulaşamasa da, açık kaynaklı çok modlu ve ajan modelleri içinde en geniş kapsamlı ve dengeli performanslardan birini gösteriyor
- Özellikle Agent Swarm kullanıldığında ajan ve arama odaklı görevlerde belirgin üstünlük ortaya çıkıyor
- Akıl yürütme, kodlama, görsel ve ajan yeteneklerini tek bir açık modelde birleştirmesiyle yalnızca deneysel değil, fiilen kullanılabilir genel amaçlı bir ajan modeli sunuyor

Sınırlamalar ve gözlemler

Bazı ticari modellerde görsel benchmark'larda çıktı başarısızlık oranı görüldüğü için puanlama ihtiyatlı yapıldı
Uzun ajan görevlerinde bağlam yönetimi stratejisine bağlı performans farkı oldukça büyük olabiliyor
Bazı yüksek maliyetli benchmark'lar API kararlılığı sorunları nedeniyle değerlendirmeye dahil edilmedi

Yayın ve kullanım

Kimi K2.5'in post-training checkpoint'leri açık kaynak olarak yayımlandı
Genel amaçlı ajan sistemleri, çok modlu araştırmalar ve gerçek otomasyon iş yükleri için yeniden kullanılabilir bir temel model niteliği taşıyor
Metin ve görseli ayırmayan yaklaşım ile paralel ajan yapısının General Agentic Intelligence'a giden pratik bir yol olabileceği öne sürülüyor

Kimi K2.5 teknik raporu [PDF] - Görsel ajan zekasına doğru açık çok modlu model

Genel bakış ve sorun tanımı

Kimi K2.5'in temel tasarımı

Agent Swarm mimarisi

Eğitim bileşimi ve ölçek

Değerlendirme ve performans: başlıca model karşılaştırmalarına odaklı özet

Akıl yürütme ve genel bilgi benchmark'ları

Kodlama ve yazılım mühendisliği

Ajan ve arama tabanlı görevler

Görsel, belge ve video anlama

Genel değerlendirme

Sınırlamalar ve gözlemler

Yayın ve kullanım

İlgili okumalar

Henüz yorum yok.