- Kimi Vendor Verifier(KVV), açık kaynak model dağıtımından sonra farklı altyapılarda ortaya çıkan çıkarım uygulama sapmalarını doğrulayan ve böylece modelin kendi sınırlarıyla mühendislik hatalarını ayırt etmeyi sağlayan herkese açık bir araçtır
- Resmi API baz alınarak OCRBench 91.0, AIME2025 avg@32 98.4, MMMU Pro Vision 78.8 sonuçları sunuluyor; ayrıca her değerlendirme için Temperature, TopP, MaxTokens ayarları ve K2VV değerlendirme sonuç dosyaları da birlikte paylaşılıyor
- Toplulukta bildirilen benchmark anormalliklerinin incelenmesi sonucunda bunların önemli bir bölümünün decoding parametrelerinin yanlış kullanımından kaynaklandığı görüldü; Thinking modunda Temperature 1.0 ve TopP 0.95 zorunlu kılındı ve içerik yeniden iletimine yönelik doğrulama uygulandı
- Doğrulama prosedürü, parametre kısıtlarını kontrol eden bir ön doğrulamanın ardından OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench gibi testlerle Vision ön işleme, uzun çıktı üretimi, araç çağrısı ve agentic coding süreçlerini denetleyecek şekilde yapılandırıldı
- Tüm iş akışı, iki adet NVIDIA H20 8-GPU sunucuda sıralı çalıştırma temelinde yaklaşık 15 saat sürüyor; açık leaderboard ve erken erişim sunularak doğruluk öncelikli doğrulamanın yaygınlaştırılması hedefleniyor
Güven zincirini (Chain of Trust) yeniden kurmak
- Kimi Vendor Verifier(KVV) kaynağının yayımlanmasıyla birlikte, açık kaynak model kullanıcılarının çıkarım uygulama doğruluğunu doğrulayabilmesi için tasarlandı
- Kimi K2.6 modelinin yayımlanmasıyla aynı anda dağıtıldı; yalnızca modeli yayımlamak yeterli değil, farklı ortamlarda doğru çalışıp çalışmadığını doğrulama süreci de gerekiyor
- Açık kaynak model ekosisteminde ağırlıkların yayımlanması ve dağıtım yollarının çeşitlenmesi arttıkça, kalite kontrolünün sürdürülebilirliğinin düştüğü bir yapı ortaya çıkıyor
- Kullanıcılar modelin kendi performans kusurları ile mühendislik uygulama sapmalarını ayıramazsa, açık kaynak ekosistemine duyulan güven sarsılabilir
Çözüm yaklaşımı
-
Tekil anormalliklerden yapısal sorunlara genişleme
- K2 Thinking yayımlandıktan sonra, topluluktan benchmark puanlarındaki anormal davranışlar hakkında sık sık geri bildirim geldi
- İnceleme sonucunda birçok vakanın decoding parametrelerinin yanlış kullanımından kaynaklandığı doğrulandı
- Acil hafifletme önlemi olarak API düzeyinde ilk savunma hattı kuruldu
- Thinking modunda Temperature=1.0, TopP=0.95 zorunlu kılındı
- thinking içeriğinin doğru şekilde yeniden iletildiğini kontrol eden zorunlu doğrulama uygulandı
- Belirli LiveBenchmark değerlendirmelerinde üçüncü taraf API ile resmi API arasında büyük farklar gözlemlendi
- Çok sayıda altyapı sağlayıcısında yapılan kapsamlı testler, bu farkların yaygın biçimde mevcut olduğunu gösterdi
-
Doğrulama prosedürü ve operasyon
- Resmi API bazlı benchmark sonuçları yayımlandı
- OCRBench doğruluk 91.0
- AIME2025 avg@32 98.4
- MMMU Pro Vision doğruluk 78.8
- Değerlendirme ayarları da birlikte belirtildi
- Üçünde de Temperature 1.0, TopP 0.95 kullanıldı
- MaxTokens değerleri sırasıyla OCRBench için 16384, AIME2025 için 98304, MMMU Pro Vision için 65536
- Kimi API K2VV değerlendirme sonuçları dosyasına bağlantı verildi; F1 puanı hesaplaması amacı da belirtildi
- Pre-Verification aşaması işletiliyor
- temperature, top_p gibi API parametre kısıtlarının doğru şekilde zorlandığı doğrulanıyor
- Benchmark değerlendirmesi ancak tüm testler geçildikten sonra başlatılıyor
- OCRBench kullanımı
- Multimodal pipeline için 5 dakikalık smoke test işlevi görüyor
- MMMU Pro kullanımı
- Çeşitli görsel girdileri test ederek Vision girdi ön işlemeyi doğruluyor
- AIME2025 kullanımı
- Uzun çıktı stres testi işlevi görüyor
- Kısa benchmark'larda görünmeyen KV cache hataları ve quantization performans düşüşünü yakalıyor
- K2VV ToolCall kullanımı
- Tetikleme tutarlılığını (F1) ve JSON Schema doğruluğunu ölçüyor
- Ajanlarda araç hataları birikmeden önce erken tespit sağlıyor
- SWE-Bench kullanımı
- Uçtan uca agentic coding testi işlevi görüyor
- sandbox bağımlılığı nedeniyle açık kaynaklaştırılmadı
- vLLM, SGLang, KTransformers topluluklarıyla birlikte çalışılıyor
- Sadece semptom tespitiyle yetinilmiyor, kök nedenlerin düzeltilmesi hedefleniyor
- Dağıtımdan sonra şikayet beklemek yerine altyapı sağlayıcılarına erken erişim yetkisi veriliyor
- Böylece kullanıcılar sorun yaşamadan önce her sağlayıcının kendi stack'ini doğrulaması amaçlanıyor
- Tedarikçi sonuçlarına ilişkin açık leaderboard sürekli işletilecek
- Bu şeffaflık, tedarikçilerin doğruluk önceliğini artıracak şekilde tasarlandı
- Tüm değerlendirme iş akışının doğrulaması tamamlandı
- İki adet NVIDIA H20 8-GPU sunucu kullanıldı
- Sıralı çalıştırmada yaklaşık 15 saat gerekiyor
- Uzun süreli çıkarım senaryoları için script optimizasyonları uygulandı
- Streaming inference
- Otomatik yeniden deneme
- Checkpoint'ten devam mekanizması dahil
- Ağırlıklar yayımlandığına göre, bunları doğru çalıştırmaya yönelik bilginin de açık olması gerektiği ilkesi vurgulanıyor
- Tedarikçi kapsamını genişletme ve daha hafif agentic testler araştırma çalışmaları sürüyor
- Resmi API bazlı benchmark sonuçları yayımlandı
2 yorum
Umarım gerçekten iyi sonuçlanır.
Hacker News görüşleri