3 puan yazan GN⁺ 2026-01-28 | 1 yorum | WhatsApp'ta paylaş
  • Kimi K2.5, yaklaşık 15 trilyon görsel ve metin tokenı ile ek eğitimden geçirilmiş multimodal açık kaynak bir model olup kod yazma ve görsel işleme yeteneklerini birleştiriyor
  • En fazla 100 alt ajanı paralel biçimde kontrol eden Agent Swarm yapısı sayesinde karmaşık görevleri 4,5 kat daha hızlı yerine getiriyor
  • Kimi Code ve Kimi App ile entegre çalışarak görüntü ve video tabanlı kodlama, görsel hata ayıklama, ofis otomasyonu gibi çeşitli pratik işlevler sunuyor
  • Dahili benchmark'larda kodlama, görsel yetenekler ve ofis üretkenliği alanlarının tamamında K2'ye kıyasla anlamlı performans artışı kaydedildi
  • Açık kaynak topluluğunda AGI (genel yapay zeka) yönünde somut ilerleme gösteren bir model olarak değerlendiriliyor

Kimi K2.5'e genel bakış

  • Kimi K2.5, K2 modeli temel alınarak yaklaşık 15 trilyon karma görsel ve metin tokenı ile ek ön eğitimden geçirilmiş yerel multimodal model
    • Kodlama ve görsel yetenekleri birleştirirken otonom agent swarm paradigmasını hayata geçiriyor
  • En fazla 100 alt ajan, paralel olarak en fazla 1.500 araç çağrısı gerçekleştirebiliyor ve tek bir ajana kıyasla en fazla 4,5 kat daha hızlı çalışma süresi sağlıyor
  • Kimi.com, Kimi App, API ve Kimi Code üzerinden sunuluyor; Instant, Thinking, Agent ve Agent Swarm (beta) modlarını destekliyor

Kodlama ve görsel yeteneklerin birleşimi

  • K2.5, frontend geliştirme konusunda güçlü bir açık kaynak kodlama modeli olarak, sohbet tabanlı arayüzler ve scroll-trigger animation gibi karmaşık UI'leri otomatik oluşturabiliyor
  • Görüntü ve video tabanlı görsel kodlama desteği sunuyor; kullanıcı niyetini görsel olarak ifade ettiğinde bunu koda dönüştürüyor
    • Örneğin videodan bir web sitesini yeniden kurabiliyor ya da bir labirent görselinde BFS algoritması ile en kısa yolu (113.557 adım) bulabiliyor
  • Büyük ölçekli görsel-metin ortak eğitimi sayesinde görsel ve dil yetenekleri birlikte gelişiyor
  • Dahili Kimi Code Bench'te derleme, hata ayıklama, refactoring ve test gibi çok dilli kodlama işlerinin genelinde K2'ye göre tutarlı performans artışı gösterdi
  • Kimi Code, terminal ile VSCode, Cursor, Zed gibi IDE'lerle entegre oluyor; görüntü ve video girişi ile otomatik beceri migrasyonu desteği sunuyor

Agent Swarm

  • K2.5 Agent Swarm, tek bir ajanı büyütmek yerine paralel iş birliği odaklı bir yapı kullanıyor ve Parallel-Agent Reinforcement Learning (PARL) ile eğitildi
    • Orkestratör ajan, işi paralelleştirilebilir alt görevlere bölüyor; sabit alt ajanlar ise bunları aynı anda yürütüyor
  • Ödül fonksiyonu, başlangıçta paralelliğin keşfini teşvik ediyor ve zamanla giderek görev kalitesi Q(τ) merkezine kayıyor
  • Paralel yürütmenin verimliliğini değerlendirmek için Critical Steps adlı gecikme odaklı bir metrik kullanılıyor
  • Dahili değerlendirmelerde uçtan uca yürütme süresi %80 kısaldı ve karmaşık uzun süreli görevleri işleme yeteneği arttı
    • Örnek: 100 farklı alt alanda YouTube içerik üreticileri bulma görevinde, 100 alt ajan paralel oluşturulup sonuçlar birleştiriliyor

Ofis üretkenliği

  • K2.5 Agent, büyük ölçekli ofis işlerinin otomasyonunu destekliyor; belge, hesap tablosu, PDF ve slayt oluşturmayı sohbet içinde gerçekleştirebiliyor
  • Dahili AI Office Benchmark ve General Agent Benchmark'ta sırasıyla %59,3 ve %24,3 iyileşme kaydedildi
  • Word'e yorum ekleme, Pivot Table tabanlı finansal modelleme, PDF içinde LaTeX formülleri yazma gibi ileri düzey işleri yerine getirebiliyor
  • 10.000 kelimelik tez ya da 100 sayfalık belge üretimi gibi uzun işler birkaç dakika içinde tamamlanabiliyor

Sonuç

  • Kimi K2.5, görsel tabanlı kodlama, agent swarm ve ofis otomasyonu olmak üzere üç alanda ilerleme göstererek gerçek dünya kısıtları altında AGI'ye yaklaşımı ortaya koyuyor
  • Gelecekte agentic intelligence'ın ölçeğini genişleterek bilgi emeğinin sınırlarını yeniden tanımlamayı hedefliyor

Ek: başlıca benchmark sonuçları

  • Reasoning, Vision, Coding, Agentic Search dahil 7 alanda GPT-5.2, Claude 4.5, Gemini 3 Pro gibi modellerle karşılaştırıldı
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • Görsel, kodlama ve agentic search benchmark'larının çoğunda üst sıralarda performans gösterdi
  • Tüm deneyler 256k token context, temperature=1.0, top-p=0.95 ayarlarında yürütüldü
  • Kimi Vendor Verifier (KVV) ile üçüncü taraf hizmetlerin doğruluğu doğrulanabiliyor

1 yorum

 
GN⁺ 2026-01-28
Hacker News görüşleri
  • Hugging Face'teki Kimi-K2.5 sayfasına bakınca bunun 1 trilyon parametreli bir model olduğu görülüyor
    MIT lisansını temel alıyor, ancak aylık aktif kullanıcı sayısı 100 milyonu aşan veya geliri 20 milyon doların üzerinde olan ticari hizmetlerde arayüzde “Kimi K2.5” ibaresinin gösterilmesi şartı eklenmiş

    • 1 trilyon demek, int4 bazında bile yaklaşık yarım terabayt VRAM gerekir gibi görünüyor
      Teknik olarak hayranlık verici ama zaten evde çalıştırılamayacak bir şeyi ücretsiz yayımladıkları için risk de sanki yarı yarıya azalmış gibi
    • Cursor geliştiricileri Composer modelinin GLM tabanlı olduğunu gizlemeye çalışıyordu; bu onlar için epey rahatsız edici bir haber olabilir
    • Kimi K2.5'in thinking, instruct, agent ve agent swarm(beta) sürümlerinin hepsinin açık kaynak olup olmadığını merak ediyorum
      API'de agent swarm'dan bahsediliyor; bunun ağırlıkları da yayımlanmış mı öğrenmek isterim
    • “Gelir 20 milyon doları aşarsa arayüzde Kimi K2.5 gösterilsin” maddesini görünce, insanın aklına “1 milyon dolar ödeyin” demek daha mantıklı olmaz mı diye geliyor
  • Deepseek moment” tam bir yıl önceydi
    O zamana kıyasla bugün gerçekten çok daha fazla teknoloji ücretsiz yayımlanıyor ve OpenAI'nin kapalı yaklaşımından tamamen farklı bir özgürlük hissi var

    • DeepSeekR1'den sonra v3-0324, v3.1, v3.1-terminus, v3.2-speciale gibi sürümlerle Çin menşeli modellerin gelişim hızı şaşırtıcı
      Buna GLM 4.7 flash, Minimax-M2 ve Qwen serisini de ekleyince tablo gerçekten çok çeşitli oluyor
      Ben OpenAI ve Anthropic aboneliklerimi iki yıl önce iptal ettim ve bunu hiç özlemedim
    • Bu tesadüf değil. Çinli şirketler Bahar Bayramı öncesinde büyük çaplı sürümler yayımlamayı sık yapıyor; bu yüzden 17 Şubat'tan önce daha fazlası da gelebilir
    • Bu kadar büyük bir modeli neden ücretsiz yayımladıklarını merak ediyorum. İş modeli ne olabilir diye düşündürüyor
    • Deepseek'in aslında pazarlama odaklı bir proje olduğunu düşünüyorum
      Reddit'te de garip şekilde sürekli ‘pro-deepseek’ yorumları geliyordu. Neredeyse Apple tarzı bir pazarlama gibiydi
    • Ama bu tür modeller güvenlik saldırıları veya biyolojik saldırılar için de kötüye kullanılabilir
      Çinli şirketlerin bunu insanlık sevgisinden dolayı yayımladığını sanmıyorum
  • Birden fazla modeli karşılaştırmak için faydalı bazı siteler paylaşılmış

  • Kimi K2.5, en fazla 100 alt ajanı paralel çalıştırıyor ve en fazla 1.500 araç çağrısını paralel işliyor
    Sadece basit araç çağrıları değil, ajan orkestrasyonunun kendisini de pekiştirmeli öğrenme (RL) ile eğitmiş olmaları ilgi çekici

    • Ama 1.500 araç çağrısı tam bir maliyet yapısı kâbusu. Birkaç on adımda bile marj eriyor; VC parası olmadan sürdürülebilir görünmüyor
    • “self-direct an agent swarm” ifadesinin modelin dahili bir özelliği mi olduğu, yoksa IDE/hizmet seviyesinde mi uygulandığı merak konusu
      Genelde yapı, modelin “call tool X” çıktısını vermesi, IDE'nin bunu çalıştırması ve sonucu geri iletmesi şeklinde olur
    • Paralel ajanlar basit ama güçlü bir numara
      Ben Claude Code'un TeammateTool özelliğiyle benzer bir etki görüyorum
  • Moonshot AI, K2.5'in yanı sıra Kimi Code ürününü de tanıttı
    Mevcut Kimi CLI'dan gelişen bir terminal kodlama ajanı; geçen aydan beri kullandım ve oldukça stabil
    GitHub: MoonshotAI/kimi-cli

    • Bu sadece basit bir kodlama ajanı değil, aynı zamanda bir shell görevi de görüyor
      zsh hook'u var; böylece her yerden ajan moduna geçilebiliyor
    • swarm özelliğini destekleyip desteklemediğini, ayrıca Opencode'u da destekleyip desteklemediğini merak ediyorum
    • CC ile kıyaslandığında performansının nasıl olduğunu da bilmek isterim
  • K2.5'in otomatik olarak alt ajanlar oluşturup swarm kuracak şekilde eğitilmiş olması ilginç
    Claude Code'un dinamik alt ajanlarına benziyor ama çok daha fazla ajanı otonom biçimde yönetebiliyor
    Claude'un da benzer bir eğitim yapıp yapmadığı ve bunun sonraki sürümde açıklanıp açıklanmayacağı merak uyandırıyor

  • Son dönemde Çinli modeller kıyaslama çıtasını Claude Opus üzerinden kuruyor
    Qwen3 max thinking ve Kimi K2.5, Sonnet yerine Opus ile karşılaştırılıyor. Neredeyse aynı hızla arayı kapatıyorlar

    • clocks.brianmoore.com üzerinde K2, saat testini kusursuz geçen az sayıdaki modelden biri
    • Çinli araştırma laboratuvarları, Batılı SOTA modellerini distill ederek birkaç ay içinde yakalama eğiliminde
    • Benchmark'larda benzer görünseler de gerçek kullanımda Anthropic modelleri hâlâ önde
    • Sonuçta gerçek kullanım senaryoları daha önemli. Sadece benchmark puanlarına bakarak karar vermek zor
  • Kimi K2'nin duygusal zekasının (emotional intelligence) yüksek olduğu yönünde çok yorum vardı
    K2.5'in bu özelliği sürdürüp sürdürmeyeceğini merak ediyorum

    • Ben de aynı izlenimi aldım. Böyle duygusal tepkileri nasıl ürettiklerini gerçekten merak ediyorum
    • Bunu mafia-arena.com üzerinde test etmeyi planlıyorum
    • Öznel bir görüş ama Gemini 3, GPT 5.2 ve Opus 4.5'ten daha insani bir his vermişti
  • CCP-bench puanı K2.5'te büyük ölçüde iyileşmiş
    İlgili görsele bakılabilir

  • Kimi ekibini başarısından dolayı tebrik ediyorum
    Ama yine de neden Claude'un kodlamada hâlâ 1 numara olduğunu merak ediyorum. Bunun kodlamaya özel eğitimden mi, yoksa genel eğitim kalitesinden mi kaynaklandığını bilmek isterim
    Keşke biri Opus 4.5'i kodlamada geçse

    • Benchmark farklarının neredeyse hiçbir anlamı yok. Gerçek kodlama ortamındaki gürültü çok daha büyük
      Hatta modeller bazen benchmark'lara aşırı uyum sağlamış oluyor
      GPT5.2 ve Opus 4.5'i ikisini de kullandım; gerçek kodlama performansları neredeyse aynı
      Üstelik K2.5'in fiyatı üst düzey modellerin 1/5'i seviyesinde, bu yüzden umut verici
    • Ben Opus yerine Gemini Pro kullanıyorum; kod yapısını yeniden tasarlayıp gereksinimleri daha iyi yansıtıyor
      Opus ise sık sık gereksiz soyutlamalara veya hardcode çözümlere gidiyor
    • Gemini 3 Pro, özellikle büyük kod tabanlarında çok daha başarılı
    • Opus 4.5 iki ay önce çıkmış bir model ve Anthropic'in kodlama performansına özellikle odaklanmasının sonucu