- Kimi K2.5, yaklaşık 15 trilyon görsel ve metin tokenı ile ek eğitimden geçirilmiş multimodal açık kaynak bir model olup kod yazma ve görsel işleme yeteneklerini birleştiriyor
- En fazla 100 alt ajanı paralel biçimde kontrol eden Agent Swarm yapısı sayesinde karmaşık görevleri 4,5 kat daha hızlı yerine getiriyor
- Kimi Code ve Kimi App ile entegre çalışarak görüntü ve video tabanlı kodlama, görsel hata ayıklama, ofis otomasyonu gibi çeşitli pratik işlevler sunuyor
- Dahili benchmark'larda kodlama, görsel yetenekler ve ofis üretkenliği alanlarının tamamında K2'ye kıyasla anlamlı performans artışı kaydedildi
- Açık kaynak topluluğunda AGI (genel yapay zeka) yönünde somut ilerleme gösteren bir model olarak değerlendiriliyor
Kimi K2.5'e genel bakış
- Kimi K2.5, K2 modeli temel alınarak yaklaşık 15 trilyon karma görsel ve metin tokenı ile ek ön eğitimden geçirilmiş yerel multimodal model
- Kodlama ve görsel yetenekleri birleştirirken otonom agent swarm paradigmasını hayata geçiriyor
- En fazla 100 alt ajan, paralel olarak en fazla 1.500 araç çağrısı gerçekleştirebiliyor ve tek bir ajana kıyasla en fazla 4,5 kat daha hızlı çalışma süresi sağlıyor
- Kimi.com, Kimi App, API ve Kimi Code üzerinden sunuluyor; Instant, Thinking, Agent ve Agent Swarm (beta) modlarını destekliyor
Kodlama ve görsel yeteneklerin birleşimi
- K2.5, frontend geliştirme konusunda güçlü bir açık kaynak kodlama modeli olarak, sohbet tabanlı arayüzler ve scroll-trigger animation gibi karmaşık UI'leri otomatik oluşturabiliyor
- Görüntü ve video tabanlı görsel kodlama desteği sunuyor; kullanıcı niyetini görsel olarak ifade ettiğinde bunu koda dönüştürüyor
- Örneğin videodan bir web sitesini yeniden kurabiliyor ya da bir labirent görselinde BFS algoritması ile en kısa yolu (113.557 adım) bulabiliyor
- Büyük ölçekli görsel-metin ortak eğitimi sayesinde görsel ve dil yetenekleri birlikte gelişiyor
- Dahili Kimi Code Bench'te derleme, hata ayıklama, refactoring ve test gibi çok dilli kodlama işlerinin genelinde K2'ye göre tutarlı performans artışı gösterdi
- Kimi Code, terminal ile VSCode, Cursor, Zed gibi IDE'lerle entegre oluyor; görüntü ve video girişi ile otomatik beceri migrasyonu desteği sunuyor
Agent Swarm
- K2.5 Agent Swarm, tek bir ajanı büyütmek yerine paralel iş birliği odaklı bir yapı kullanıyor ve Parallel-Agent Reinforcement Learning (PARL) ile eğitildi
- Orkestratör ajan, işi paralelleştirilebilir alt görevlere bölüyor; sabit alt ajanlar ise bunları aynı anda yürütüyor
- Ödül fonksiyonu, başlangıçta paralelliğin keşfini teşvik ediyor ve zamanla giderek görev kalitesi Q(τ) merkezine kayıyor
- Paralel yürütmenin verimliliğini değerlendirmek için Critical Steps adlı gecikme odaklı bir metrik kullanılıyor
- Dahili değerlendirmelerde uçtan uca yürütme süresi %80 kısaldı ve karmaşık uzun süreli görevleri işleme yeteneği arttı
- Örnek: 100 farklı alt alanda YouTube içerik üreticileri bulma görevinde, 100 alt ajan paralel oluşturulup sonuçlar birleştiriliyor
Ofis üretkenliği
- K2.5 Agent, büyük ölçekli ofis işlerinin otomasyonunu destekliyor; belge, hesap tablosu, PDF ve slayt oluşturmayı sohbet içinde gerçekleştirebiliyor
- Dahili AI Office Benchmark ve General Agent Benchmark'ta sırasıyla %59,3 ve %24,3 iyileşme kaydedildi
- Word'e yorum ekleme, Pivot Table tabanlı finansal modelleme, PDF içinde LaTeX formülleri yazma gibi ileri düzey işleri yerine getirebiliyor
- 10.000 kelimelik tez ya da 100 sayfalık belge üretimi gibi uzun işler birkaç dakika içinde tamamlanabiliyor
Sonuç
- Kimi K2.5, görsel tabanlı kodlama, agent swarm ve ofis otomasyonu olmak üzere üç alanda ilerleme göstererek gerçek dünya kısıtları altında AGI'ye yaklaşımı ortaya koyuyor
- Gelecekte agentic intelligence'ın ölçeğini genişleterek bilgi emeğinin sınırlarını yeniden tanımlamayı hedefliyor
Ek: başlıca benchmark sonuçları
- Reasoning, Vision, Coding, Agentic Search dahil 7 alanda GPT-5.2, Claude 4.5, Gemini 3 Pro gibi modellerle karşılaştırıldı
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Görsel, kodlama ve agentic search benchmark'larının çoğunda üst sıralarda performans gösterdi
- Tüm deneyler 256k token context, temperature=1.0, top-p=0.95 ayarlarında yürütüldü
- Kimi Vendor Verifier (KVV) ile üçüncü taraf hizmetlerin doğruluğu doğrulanabiliyor
1 yorum
Hacker News görüşleri
Hugging Face'teki Kimi-K2.5 sayfasına bakınca bunun 1 trilyon parametreli bir model olduğu görülüyor
MIT lisansını temel alıyor, ancak aylık aktif kullanıcı sayısı 100 milyonu aşan veya geliri 20 milyon doların üzerinde olan ticari hizmetlerde arayüzde “Kimi K2.5” ibaresinin gösterilmesi şartı eklenmiş
Teknik olarak hayranlık verici ama zaten evde çalıştırılamayacak bir şeyi ücretsiz yayımladıkları için risk de sanki yarı yarıya azalmış gibi
API'de agent swarm'dan bahsediliyor; bunun ağırlıkları da yayımlanmış mı öğrenmek isterim
“Deepseek moment” tam bir yıl önceydi
O zamana kıyasla bugün gerçekten çok daha fazla teknoloji ücretsiz yayımlanıyor ve OpenAI'nin kapalı yaklaşımından tamamen farklı bir özgürlük hissi var
Buna GLM 4.7 flash, Minimax-M2 ve Qwen serisini de ekleyince tablo gerçekten çok çeşitli oluyor
Ben OpenAI ve Anthropic aboneliklerimi iki yıl önce iptal ettim ve bunu hiç özlemedim
Reddit'te de garip şekilde sürekli ‘pro-deepseek’ yorumları geliyordu. Neredeyse Apple tarzı bir pazarlama gibiydi
Çinli şirketlerin bunu insanlık sevgisinden dolayı yayımladığını sanmıyorum
Birden fazla modeli karşılaştırmak için faydalı bazı siteler paylaşılmış
Kimi K2.5, en fazla 100 alt ajanı paralel çalıştırıyor ve en fazla 1.500 araç çağrısını paralel işliyor
Sadece basit araç çağrıları değil, ajan orkestrasyonunun kendisini de pekiştirmeli öğrenme (RL) ile eğitmiş olmaları ilgi çekici
Genelde yapı, modelin “call tool X” çıktısını vermesi, IDE'nin bunu çalıştırması ve sonucu geri iletmesi şeklinde olur
Ben Claude Code'un TeammateTool özelliğiyle benzer bir etki görüyorum
Moonshot AI, K2.5'in yanı sıra Kimi Code ürününü de tanıttı
Mevcut Kimi CLI'dan gelişen bir terminal kodlama ajanı; geçen aydan beri kullandım ve oldukça stabil
GitHub: MoonshotAI/kimi-cli
zsh hook'u var; böylece her yerden ajan moduna geçilebiliyor
K2.5'in otomatik olarak alt ajanlar oluşturup swarm kuracak şekilde eğitilmiş olması ilginç
Claude Code'un dinamik alt ajanlarına benziyor ama çok daha fazla ajanı otonom biçimde yönetebiliyor
Claude'un da benzer bir eğitim yapıp yapmadığı ve bunun sonraki sürümde açıklanıp açıklanmayacağı merak uyandırıyor
Son dönemde Çinli modeller kıyaslama çıtasını Claude Opus üzerinden kuruyor
Qwen3 max thinking ve Kimi K2.5, Sonnet yerine Opus ile karşılaştırılıyor. Neredeyse aynı hızla arayı kapatıyorlar
Kimi K2'nin duygusal zekasının (emotional intelligence) yüksek olduğu yönünde çok yorum vardı
K2.5'in bu özelliği sürdürüp sürdürmeyeceğini merak ediyorum
CCP-bench puanı K2.5'te büyük ölçüde iyileşmiş
İlgili görsele bakılabilir
Kimi ekibini başarısından dolayı tebrik ediyorum
Ama yine de neden Claude'un kodlamada hâlâ 1 numara olduğunu merak ediyorum. Bunun kodlamaya özel eğitimden mi, yoksa genel eğitim kalitesinden mi kaynaklandığını bilmek isterim
Keşke biri Opus 4.5'i kodlamada geçse
Hatta modeller bazen benchmark'lara aşırı uyum sağlamış oluyor
GPT5.2 ve Opus 4.5'i ikisini de kullandım; gerçek kodlama performansları neredeyse aynı
Üstelik K2.5'in fiyatı üst düzey modellerin 1/5'i seviyesinde, bu yüzden umut verici
Opus ise sık sık gereksiz soyutlamalara veya hardcode çözümlere gidiyor