Kimi, açık kaynak görsel SOTA agentic modeli Kimi K2.5'i tanıttı

(kimi.com)

3 puan yazan GN⁺ 2026-01-28 | 1 yorum | WhatsApp'ta paylaş

Kimi K2.5, yaklaşık 15 trilyon görsel ve metin tokenı ile ek eğitimden geçirilmiş multimodal açık kaynak bir model olup kod yazma ve görsel işleme yeteneklerini birleştiriyor
En fazla 100 alt ajanı paralel biçimde kontrol eden Agent Swarm yapısı sayesinde karmaşık görevleri 4,5 kat daha hızlı yerine getiriyor
Kimi Code ve Kimi App ile entegre çalışarak görüntü ve video tabanlı kodlama, görsel hata ayıklama, ofis otomasyonu gibi çeşitli pratik işlevler sunuyor
Dahili benchmark'larda kodlama, görsel yetenekler ve ofis üretkenliği alanlarının tamamında K2'ye kıyasla anlamlı performans artışı kaydedildi
Açık kaynak topluluğunda AGI (genel yapay zeka) yönünde somut ilerleme gösteren bir model olarak değerlendiriliyor

Kimi K2.5'e genel bakış

Kimi K2.5, K2 modeli temel alınarak yaklaşık 15 trilyon karma görsel ve metin tokenı ile ek ön eğitimden geçirilmiş yerel multimodal model
- Kodlama ve görsel yetenekleri birleştirirken otonom agent swarm paradigmasını hayata geçiriyor
En fazla 100 alt ajan, paralel olarak en fazla 1.500 araç çağrısı gerçekleştirebiliyor ve tek bir ajana kıyasla en fazla 4,5 kat daha hızlı çalışma süresi sağlıyor
Kimi.com, Kimi App, API ve Kimi Code üzerinden sunuluyor; Instant, Thinking, Agent ve Agent Swarm (beta) modlarını destekliyor

Kodlama ve görsel yeteneklerin birleşimi

K2.5, frontend geliştirme konusunda güçlü bir açık kaynak kodlama modeli olarak, sohbet tabanlı arayüzler ve scroll-trigger animation gibi karmaşık UI'leri otomatik oluşturabiliyor
Görüntü ve video tabanlı görsel kodlama desteği sunuyor; kullanıcı niyetini görsel olarak ifade ettiğinde bunu koda dönüştürüyor
- Örneğin videodan bir web sitesini yeniden kurabiliyor ya da bir labirent görselinde BFS algoritması ile en kısa yolu (113.557 adım) bulabiliyor
Reklam
Büyük ölçekli görsel-metin ortak eğitimi sayesinde görsel ve dil yetenekleri birlikte gelişiyor
Dahili Kimi Code Bench'te derleme, hata ayıklama, refactoring ve test gibi çok dilli kodlama işlerinin genelinde K2'ye göre tutarlı performans artışı gösterdi
Kimi Code, terminal ile VSCode, Cursor, Zed gibi IDE'lerle entegre oluyor; görüntü ve video girişi ile otomatik beceri migrasyonu desteği sunuyor

Agent Swarm

K2.5 Agent Swarm, tek bir ajanı büyütmek yerine paralel iş birliği odaklı bir yapı kullanıyor ve Parallel-Agent Reinforcement Learning (PARL) ile eğitildi
- Orkestratör ajan, işi paralelleştirilebilir alt görevlere bölüyor; sabit alt ajanlar ise bunları aynı anda yürütüyor
Ödül fonksiyonu, başlangıçta paralelliğin keşfini teşvik ediyor ve zamanla giderek görev kalitesi Q(τ) merkezine kayıyor
Paralel yürütmenin verimliliğini değerlendirmek için Critical Steps adlı gecikme odaklı bir metrik kullanılıyor
Dahili değerlendirmelerde uçtan uca yürütme süresi %80 kısaldı ve karmaşık uzun süreli görevleri işleme yeteneği arttı
- Örnek: 100 farklı alt alanda YouTube içerik üreticileri bulma görevinde, 100 alt ajan paralel oluşturulup sonuçlar birleştiriliyor

Ofis üretkenliği

K2.5 Agent, büyük ölçekli ofis işlerinin otomasyonunu destekliyor; belge, hesap tablosu, PDF ve slayt oluşturmayı sohbet içinde gerçekleştirebiliyor
Dahili AI Office Benchmark ve General Agent Benchmark'ta sırasıyla %59,3 ve %24,3 iyileşme kaydedildi
Word'e yorum ekleme, Pivot Table tabanlı finansal modelleme, PDF içinde LaTeX formülleri yazma gibi ileri düzey işleri yerine getirebiliyor
10.000 kelimelik tez ya da 100 sayfalık belge üretimi gibi uzun işler birkaç dakika içinde tamamlanabiliyor

Sonuç

Kimi K2.5, görsel tabanlı kodlama, agent swarm ve ofis otomasyonu olmak üzere üç alanda ilerleme göstererek gerçek dünya kısıtları altında AGI'ye yaklaşımı ortaya koyuyor
Gelecekte agentic intelligence'ın ölçeğini genişleterek bilgi emeğinin sınırlarını yeniden tanımlamayı hedefliyor

Ek: başlıca benchmark sonuçları

Reasoning, Vision, Coding, Agentic Search dahil 7 alanda GPT-5.2, Claude 4.5, Gemini 3 Pro gibi modellerle karşılaştırıldı
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
Görsel, kodlama ve agentic search benchmark'larının çoğunda üst sıralarda performans gösterdi
Tüm deneyler 256k token context, temperature=1.0, top-p=0.95 ayarlarında yürütüldü
Kimi Vendor Verifier (KVV) ile üçüncü taraf hizmetlerin doğruluğu doğrulanabiliyor

1 yorum

GN⁺ 2026-01-28

Hacker News görüşleri

Hugging Face'teki Kimi-K2.5 sayfasına bakınca bunun 1 trilyon parametreli bir model olduğu görülüyor
MIT lisansını temel alıyor, ancak aylık aktif kullanıcı sayısı 100 milyonu aşan veya geliri 20 milyon doların üzerinde olan ticari hizmetlerde arayüzde “Kimi K2.5” ibaresinin gösterilmesi şartı eklenmiş
- 1 trilyon demek, int4 bazında bile yaklaşık yarım terabayt VRAM gerekir gibi görünüyor
  Teknik olarak hayranlık verici ama zaten evde çalıştırılamayacak bir şeyi ücretsiz yayımladıkları için risk de sanki yarı yarıya azalmış gibi
- Cursor geliştiricileri Composer modelinin GLM tabanlı olduğunu gizlemeye çalışıyordu; bu onlar için epey rahatsız edici bir haber olabilir
- Kimi K2.5'in thinking, instruct, agent ve agent swarm(beta) sürümlerinin hepsinin açık kaynak olup olmadığını merak ediyorum
  API'de agent swarm'dan bahsediliyor; bunun ağırlıkları da yayımlanmış mı öğrenmek isterim
- “Gelir 20 milyon doları aşarsa arayüzde Kimi K2.5 gösterilsin” maddesini görünce, insanın aklına “1 milyon dolar ödeyin” demek daha mantıklı olmaz mı diye geliyor
“Deepseek moment” tam bir yıl önceydi
O zamana kıyasla bugün gerçekten çok daha fazla teknoloji ücretsiz yayımlanıyor ve OpenAI'nin kapalı yaklaşımından tamamen farklı bir özgürlük hissi var
- DeepSeekR1'den sonra v3-0324, v3.1, v3.1-terminus, v3.2-speciale gibi sürümlerle Çin menşeli modellerin gelişim hızı şaşırtıcı
  Buna GLM 4.7 flash, Minimax-M2 ve Qwen serisini de ekleyince tablo gerçekten çok çeşitli oluyor
  Ben OpenAI ve Anthropic aboneliklerimi iki yıl önce iptal ettim ve bunu hiç özlemedim
- Bu tesadüf değil. Çinli şirketler Bahar Bayramı öncesinde büyük çaplı sürümler yayımlamayı sık yapıyor; bu yüzden 17 Şubat'tan önce daha fazlası da gelebilir
- Bu kadar büyük bir modeli neden ücretsiz yayımladıklarını merak ediyorum. İş modeli ne olabilir diye düşündürüyor
- Deepseek'in aslında pazarlama odaklı bir proje olduğunu düşünüyorum
  Reddit'te de garip şekilde sürekli ‘pro-deepseek’ yorumları geliyordu. Neredeyse Apple tarzı bir pazarlama gibiydi
- Ama bu tür modeller güvenlik saldırıları veya biyolojik saldırılar için de kötüye kullanılabilir
  Çinli şirketlerin bunu insanlık sevgisinden dolayı yayımladığını sanmıyorum
Birden fazla modeli karşılaştırmak için faydalı bazı siteler paylaşılmış
- lmarena.ai/leaderboard — modeller arası ELO karşılaşmaları
- dashboard.safe.ai — CAIS gösterge paneli
- clocks.brianmoore.com — modellerin saat çizme karşılaştırması
- eqbench.com — duygusal zeka kıyaslaması
- ocrarena.ai/battle — OCR kapışması
- mafia-arena.com — Mafya oyunu kapışması
- openrouter.ai/rankings — OpenRouter tabanlı pazar payı
Kimi K2.5, en fazla 100 alt ajanı paralel çalıştırıyor ve en fazla 1.500 araç çağrısını paralel işliyor
Sadece basit araç çağrıları değil, ajan orkestrasyonunun kendisini de pekiştirmeli öğrenme (RL) ile eğitmiş olmaları ilgi çekici
- Ama 1.500 araç çağrısı tam bir maliyet yapısı kâbusu. Birkaç on adımda bile marj eriyor; VC parası olmadan sürdürülebilir görünmüyor
- “self-direct an agent swarm” ifadesinin modelin dahili bir özelliği mi olduğu, yoksa IDE/hizmet seviyesinde mi uygulandığı merak konusu
  Genelde yapı, modelin “call tool X” çıktısını vermesi, IDE'nin bunu çalıştırması ve sonucu geri iletmesi şeklinde olur
- Paralel ajanlar basit ama güçlü bir numara
  Ben Claude Code'un TeammateTool özelliğiyle benzer bir etki görüyorum
Moonshot AI, K2.5'in yanı sıra Kimi Code ürününü de tanıttı
Mevcut Kimi CLI'dan gelişen bir terminal kodlama ajanı; geçen aydan beri kullandım ve oldukça stabil
GitHub: MoonshotAI/kimi-cli
- Bu sadece basit bir kodlama ajanı değil, aynı zamanda bir shell görevi de görüyor
  zsh hook'u var; böylece her yerden ajan moduna geçilebiliyor
- swarm özelliğini destekleyip desteklemediğini, ayrıca Opencode'u da destekleyip desteklemediğini merak ediyorum
- CC ile kıyaslandığında performansının nasıl olduğunu da bilmek isterim
K2.5'in otomatik olarak alt ajanlar oluşturup swarm kuracak şekilde eğitilmiş olması ilginç
Claude Code'un dinamik alt ajanlarına benziyor ama çok daha fazla ajanı otonom biçimde yönetebiliyor
Claude'un da benzer bir eğitim yapıp yapmadığı ve bunun sonraki sürümde açıklanıp açıklanmayacağı merak uyandırıyor
Son dönemde Çinli modeller kıyaslama çıtasını Claude Opus üzerinden kuruyor
Qwen3 max thinking ve Kimi K2.5, Sonnet yerine Opus ile karşılaştırılıyor. Neredeyse aynı hızla arayı kapatıyorlar
- clocks.brianmoore.com üzerinde K2, saat testini kusursuz geçen az sayıdaki modelden biri
- Çinli araştırma laboratuvarları, Batılı SOTA modellerini distill ederek birkaç ay içinde yakalama eğiliminde
- Benchmark'larda benzer görünseler de gerçek kullanımda Anthropic modelleri hâlâ önde
- Sonuçta gerçek kullanım senaryoları daha önemli. Sadece benchmark puanlarına bakarak karar vermek zor
Kimi K2'nin duygusal zekasının (emotional intelligence) yüksek olduğu yönünde çok yorum vardı
K2.5'in bu özelliği sürdürüp sürdürmeyeceğini merak ediyorum
- Ben de aynı izlenimi aldım. Böyle duygusal tepkileri nasıl ürettiklerini gerçekten merak ediyorum
- Bunu mafia-arena.com üzerinde test etmeyi planlıyorum
- Öznel bir görüş ama Gemini 3, GPT 5.2 ve Opus 4.5'ten daha insani bir his vermişti
CCP-bench puanı K2.5'te büyük ölçüde iyileşmiş
İlgili görsele bakılabilir
Kimi ekibini başarısından dolayı tebrik ediyorum
Ama yine de neden Claude'un kodlamada hâlâ 1 numara olduğunu merak ediyorum. Bunun kodlamaya özel eğitimden mi, yoksa genel eğitim kalitesinden mi kaynaklandığını bilmek isterim
Keşke biri Opus 4.5'i kodlamada geçse
- Benchmark farklarının neredeyse hiçbir anlamı yok. Gerçek kodlama ortamındaki gürültü çok daha büyük
  Hatta modeller bazen benchmark'lara aşırı uyum sağlamış oluyor
  GPT5.2 ve Opus 4.5'i ikisini de kullandım; gerçek kodlama performansları neredeyse aynı
  Üstelik K2.5'in fiyatı üst düzey modellerin 1/5'i seviyesinde, bu yüzden umut verici
- Ben Opus yerine Gemini Pro kullanıyorum; kod yapısını yeniden tasarlayıp gereksinimleri daha iyi yansıtıyor
  Opus ise sık sık gereksiz soyutlamalara veya hardcode çözümlere gidiyor
- Gemini 3 Pro, özellikle büyük kod tabanlarında çok daha başarılı
- Opus 4.5 iki ay önce çıkmış bir model ve Anthropic'in kodlama performansına özellikle odaklanmasının sonucu

Kimi, açık kaynak görsel SOTA agentic modeli Kimi K2.5'i tanıttı

Kimi K2.5'e genel bakış

Kodlama ve görsel yeteneklerin birleşimi

Agent Swarm

Ofis üretkenliği

Sonuç

Ek: başlıca benchmark sonuçları

İlgili okumalar

1 yorum

Hacker News görüşleri