Kimi K2.7-Code: token verimliliği iyileştirilmiş açık kaynaklı kodlama modeli

(huggingface.co)

3 puan yazan GN⁺ 2026-06-13 | 1 yorum | WhatsApp'ta paylaş

Uzun süreli kodlama işleri ve karmaşık yazılım mühendisliği iş akışlarını ele alan ajan tipi bir kodlama modeli olup, Kimi K2.6 tabanı üzerinde uçtan uca görev tamamlama yeteneği ve token kullanım verimliliği artırıldı
Kimi K2.6'ya kıyasla düşünme tokeni kullanımını yaklaşık %30 azalttı; Kimi Code Bench v2 skoru 50.9'dan 62.0'a, MCP Mark Verified skoru ise 72.8'den 81.1'e yükseldi
Model yapısı MoE tabanlı; toplam 1T parametre, 32B aktif parametre, 256K bağlam uzunluğu ve MoonViT görsel kodlayıcı içeriyor
Dağıtım resmi API ile vLLM, SGLang ve KTransformers hedeflenerek sunuluyor; Kimi-K2.5/Kimi-K2.6 ile aynı mimariye sahip olduğundan mevcut dağıtım yöntemi yeniden kullanılabiliyor
Kullanımda Thinking modu ve preserve_thinking zorunlu; görüntü girişi destekleniyor, video girişi ise şu anda yalnızca resmi API'de deneysel olarak destekleniyor

Modele genel bakış

Kimi K2.7-Code, Kimi K2.6 tabanlı, kodlama odaklı bir ajan modeli olup gerçekçi uzun süreli kodlama işlerinde iyileştirildi
Karmaşık yazılım mühendisliği iş akışlarının genelinde uçtan uca görev tamamlama yeteneğini güçlendiriyor
Kimi K2.6 ile karşılaştırıldığında düşünme tokeni kullanımını yaklaşık %30 azaltarak token verimliliğini artırıyor
Görsel-metin girişi, Transformers, Safetensors, conversational ve custom_code gibi etiketlerle sunuluyor

Model özeti

Mimari Mixture-of-Experts(MoE) tabanlıdır; toplam parametre sayısı 1T, aktif parametre sayısı 32B'dir
Katman sayısı Dense katman dahil 61'dir ve Dense katman sayısı 1'dir
Attention Hidden Dimension 7168, MoE Hidden Dimension ise uzman başına 2048'dir
Attention Head sayısı 64, Expert sayısı 384, token başına seçilen Expert sayısı 8 ve Shared Expert sayısı 1'dir
Sözlük boyutu 160K, bağlam uzunluğu ise 256K'dir
Attention mekanizması MLA, aktivasyon fonksiyonu ise SwiGLU'dur
Görsel kodlayıcı MoonViT'tir ve görsel kodlayıcı parametre sayısı 400M'dir

Değerlendirme sonuçları

Kodlama benchmark'ları
- Kimi Code Bench v2'de Kimi K2.6 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0, Claude Opus 4.8 ise 67.4 puan aldı
- Program Bench'te Kimi K2.6 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1, Claude Opus 4.8 ise 63.8 puan aldı
- MLS Bench Lite'ta Kimi K2.6 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5, Claude Opus 4.8 ise 42.8 puan aldı
Ajan benchmark'ları
- Kimi Claw 24/7 Bench'te Kimi K2.6 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8, Claude Opus 4.8 ise 50.4 puan aldı
- MCP Atlas'ta Kimi K2.6 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4, Claude Opus 4.8 ise 81.3 puan aldı
- MCP Mark Verified'da Kimi K2.6 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9, Claude Opus 4.8 ise 76.4 puan aldı
Değerlendirme koşulları
- Aksi belirtilmedikçe Kimi K2.7 Code ve K2.6, Kimi Code CLI'de Thinking modu açık, temperature 1.0, top-p 0.95 ve 262,144 token bağlam uzunluğu ile test edildi
- GPT-5.5, Codex'in xhigh modunda çalıştırıldı; Opus 4.8 ise Claude Code'un xhigh modunda çalıştırıldı
- Bunun dışındaki farklar hariç tüm benchmark'lar aynı koşullarda değerlendirildi
Benchmark yapısı
- Kimi Code Bench V2, gerçekçi görevlerde kodlama ajanlarını değerlendiren dahili bir benchmark olup 10'dan fazla ana programlama dili ile tam üretim teknoloji yığınını kapsıyor
- Kimi Code Bench V2, dahili mühendislik kullanım senaryoları, üretim kesintileri ve gerçek açık kaynak projelerindeki görevleri içeriyor
- Program Bench, yalnızca derlenmiş ikili dosyalar ve belgelerle program davranışının yeniden üretilmesini ister; 200 görev ve 248.000'den fazla fuzz ile üretilmiş davranış testini kullanır
- MLS-Bench, yapay zeka sistemlerinin genellenebilir ve ölçeklenebilir ML yöntemleri oluşturup oluşturamadığını değerlendirir; MLS-Bench-Lite ise resmi 30 görevlik alt kümedir
- Kimi Claw 24/7 Bench, kesintisiz çok günlük iş birliğinde uzun süreli ajan performansını değerlendiren dahili bir benchmark olup 17 profesyonel senaryo ve 610 değerlendirme noktasını kapsar
- MCP-Atlas, ölçeklenebilir MCP üzerinden gerçekçi araç kullanım görevlerinde LLM performansını değerlendirir
- MCPMark-Verified, MCPMark'ın insan doğrulamalı sürümüdür ve Notion, GitHub, Filesystem, Postgres, Playwright gibi 5 gerçek sunucu ortamında MCP araç kullanımını değerlendirir

Native INT4 kuantizasyonu

Kimi-K2.7-Code, Kimi-K2-Thinking ile aynı native int4 kuantizasyon yaklaşımını benimser

Dağıtım

Kimi-K2.7-Code API'sine https://platform.moonshot.ai üzerinden erişilebilir
Resmi API, OpenAI/Anthropic uyumlu API sunar
Önerilen çıkarım motorları vLLM, SGLang ve KTransformers'tır
Kimi-K2.7-Code, Kimi-K2.5/Kimi-K2.6 ile aynı mimariye sahip olduğundan dağıtım yöntemi doğrudan yeniden kullanılabilir
transformers sürüm gereksinimi >=4.57.1, <5.0.0 şeklindedir
Dağıtım örnekleri Model Deployment Guide içinde görülebilir

Kullanım şekli

API çağrısı için temel koşullar
- Kullanım demoları resmi API çağrı yöntemini temel alır
- Kimi-K2.7-Code, Thinking ve preserve_thinking ayarını True olarak zorunlu kılar
- vLLM veya SGLang ile dağıtılan üçüncü taraf API'lerde video içerikli sohbet, şu anda yalnızca resmi API'de desteklenen deneysel bir özelliktir
- Thinking modu için önerilen temperature değeri 1.0, önerilen top_p değeri ise 0.95'tir
- Instant modu desteklenmez
Chat Completion
- Chat Completion örneği, K2.7-Code API'sini Thinking modunda çağırır
- Örnek kod, openai istemcisiyle client.chat.completions.create çağrısını yapar ve max_tokens=4096 ayarlar
- Yanıtta response.choices[0].message.reasoning ve response.choices[0].message.content çıktılanır
Görsel içerik girişi
- K2.7-Code görüntü ve video girişini destekler
- Görüntü girişi örneğinde, görsel base64 olarak kodlanıp image_url içine iletilir ve max_tokens=8192 ile yanıt üretilir
- Video girişi örneğinde, mp4 dosyası base64 olarak kodlanıp video_url içine iletilir
- Video sohbeti şu anda yalnızca resmi API'de desteklenen deneysel bir özelliktir
Preserve Thinking
- Kimi K2.7 Code, preserve_thinking modunu zorunlu kılar ve çok turlu etkileşimlerde tüm reasoning içeriğini korur
- preserve_thinking, kodlama ajanı senaryolarında performansı artırır
- Bu özellik varsayılan olarak etkindir ve devre dışı bırakılamaz
- Bazı API'ler reasoning_content desteklemeyebilir; bu durumda reasoning denenebilir
Interleaved Thinking ve çok adımlı araç çağrıları
- K2.7-Code, K2 Thinking ile aynı Interleaved Thinking ve Multi-Step Tool Call tasarımını paylaşır
- Kullanım örnekleri için K2 Thinking documentation incelenebilir
Kodlama ajanı çerçevesi
- Kimi K2.7-Code, ajan çerçevesi olarak Kimi Code CLI ile birlikte kullanıldığında en iyi sonucu verir
- Kimi Code CLI, https://www.kimi.com/code adresinde sunuluyor

Yerel çalıştırma örnekleri

Transformers
- Transformers'ta pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) yöntemiyle üst düzey bir pipeline oluşturulabilir
- Modelin doğrudan yüklenmesi AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto") yöntemiyle mümkündür
vLLM
- vLLM, pip install vllm ile kurulur ve vllm serve "moonshotai/Kimi-K2.7-Code" ile sunucu başlatılır
- Çağrı örneği olarak OpenAI uyumlu API uç noktası http://localhost:8000/v1/chat/completions kullanılır
- Docker Model Runner'da docker model run hf.co/moonshotai/Kimi-K2.7-Code ile çalıştırılır
SGLang
- SGLang, pip install sglang ile kurulur ve python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" ile sunucu başlatılır
- Çağrı örneği olarak OpenAI uyumlu API uç noktası http://localhost:30000/v1/chat/completions kullanılır
- Docker ile çalıştırma örneğinde GPU, paylaşımlı bellek, Hugging Face önbelleği ve HF_TOKEN ortam değişkeni ayarlanır

Lisans

Kod deposu ve model ağırlıkları Modified MIT License ile dağıtılmaktadır

1 yorum

GN⁺ 2026-06-13

Hacker News görüşleri

Düzeltilmiş lisans maddelerini okuyunca güldüm. Aslında bu, eski BSD'deki reklam maddesinin eklenmiş olduğu bir MIT lisansı gibi ve aylık aktif kullanıcı ya da gelirden bağımsız olarak, üründe kullanırsan onlara bir şekilde “reklam” yapmanı istemeye yakın
Dürüst olmak gerekirse makul bir talep gibi görünüyor
- Bu, Cursor'a yönelik bir madde gibi görünüyor. Yani açıklamak zorunda kalarak küçük düşürülecek bir şey yapmayın demek istiyor
- Buradaki “reklam” maddesi, ürünün bir yerinde kullanıldığını belirtmekten ibaret. Örneğin “About” bölümündeki teşekkürler kısmına eklemek gibi
- Aceleyle eklenmiş gibi duruyor. “Kullanıcı arayüzü”ne nelerin dahil olduğuna dair hukuki ifadeyi biraz daha özenli yazmış olurlar diye düşünmüştüm
Kimi K2.7-code'a oldukça basit talimatlar vererek Fil-C OpenSSL yamasını 3.3.1'den 3.5.7'ye rebase ettirdim ve başarılı olmuş gibi görünüyor
Yama boyutu 177KB idi, yani küçük bir değişiklik değildi; ayrıca ilk başta temiz şekilde uygulanmadığı için ajan epey gerçek iş yapmak zorunda kaldı
Sadece 3.3.1 hedefli yama, build komutu, 3.5.7 yolu ve değişiklik belgesi bağlantısını (https://fil-c.org/constant_time_crypto) verdim
Ancak kendi kodlama ajanım olan T800'ü kullandım; bu herkese açık değil ve daha önce K2.5 için yeterince test edilip ayarlanmış durumdaydı
API kullanım ücreti sanırım $5~$10 arasındaydı. Düzeltme: OpenSSH değil, OpenSSL
Şahsen açık modelleri ya da router'ları kullanırken belli bir seviyenin üstünde model farkını çok hissetmiyorum. Pahalı ve muğlak Gemini gibi modeller istisna
Bu açıdan Çin modelleri oldukça iyi. Genelde önce kodu fonksiyon veya metot düzeyinde yazdırıp sonra tasarlayıp birleştiren bir yaklaşımla kullanıyorum
GPT ailesi daha dikkatli ve daha iyi ama farkın devasa olduğundan emin değilim. İş akışına göre değişir ama yeterince sıkı yönetildiğinde gerçekten büyük bir fark olup olmadığını sorguluyorum
- “Ücretsiz” inference router'lardan bir ölçüde vazgeçtim. Tahmin edildiği gibi, inference'i olabildiğince kısmaya çalıştıkları için düşünme kalitesi sık sık düşüyor
  MacBook M1 Pro'yu ısıtma pedine çevirirken Qwen 3.6 35B A3B MTP çalıştırmak belli ölçüde başarılı oldu
  Gemini modellerini “local” gibi kullanmaya çalışınca da benzer bir sorun yaşadım; çaba miktarını kısa kesiyor, daha çok hata yapıyor ve tur sayısını artırıyor
  Buna karşılık Fable'ın ısrarla “proaktif” olduğunun söylenmesi, güçlü markalama ve etkili ücretlendirme varsa tam ters yönde gitmenin de mümkün olduğunu düşündürüyor
- Benim deneyimime göre tek tek fonksiyonları uygulama işinde frontier modeller ile güncel 30B sınıfı modeller arasında neredeyse hiç fark yok
  Tutarlı bir tasarım zaten mevcutsa, ki zor kısım bu, onu oldukça küçük modellere verince de neredeyse aynı kalite elde edilebiliyor
  Tek seferde bitiremiyorlar ama daha hızlı ve ucuz oldukları için sonuçta avantaj sağlıyor. Üstelik local'de de çalışıyorlar
- Sonuç farkı büyük değil ama onları daha sıkı yönetmek gerektiği doğru. Örneğin Kimi K2.5/K2.6, az önce kendisinin yarattığı sorunu düzeltmek yerine başarısız testleri “zaten önceden başarısız olanlar” sanıp yorum satırına alma eğilimindeydi
  Bu yüzden yorum satırına alınmış testlerin build'i bozmasını açıkça sağlamak gerekiyor. Anthropic veya OpenAI modellerinde ben şahsen böyle bir sorun yaşamadım
- Artık “Çin modeli” ifadesinin kullanılmamasını isterim. Olumsuz bir çağrışımı var
  Eskiden otomobillere “Japon arabası” denmesine benziyor; artık bunun pek anlamı kalmadı ve insanlar sadece Toyota, Honda, Lexus diyor
opencode + Kimi K2.6/2.7’yi Claude Code ile karşılaştırarak kullanan biri varsa gerçekten çok merak ediyorum. Neyin daha iyi, neyin daha kötü olduğunu ve maliyet karşılaştırmasının nasıl çıktığını bilmek istiyorum
Şu anda 5x Max planına $100 ödüyorum ama Fable kullanım limitini oldukça hızlı tüketiyor ve Opus’a kıyasla geceyle gündüz kadar fark var demek de zor
Ağırlıklı olarak yan projelerde kullandığım için $100’lık fatura da epey büyük hissettiriyor ve daha fazlasını ödemek istemiyorum
- Claude Code’u çoğunlukla Opus ile kullanıyordum, sonra kişisel projelerde opencode + Kimi 2.6’ya geçip birkaç ay denedim
  Claude Code daha iyi. Ama opencode + Kimi 2.6’nın da gayet kullanılabilir olması önemli
  Ne istediğinizi net biliyorsanız ve sadece basit kod yazdırıyorsanız DeepSeek, Kimi gibi popüler modellerin çoğu yeterince iyi oluyor ve Anthropic modellerinden çok farklı hissettirmiyor
  Buna karşılık Opus, niyeti DeepSeek’ten çok daha iyi anlıyor. DeepSeek kullanırken prompt’u çok daha kesin yazmak gerekiyor; kabaca yazarsanız sık sık alakasız yönlere gidiyor
  Kimi ikisinin arasında. “Gevşek prompt” akışını bir ölçüde geri getiriyor ve planlarına DeepSeek’ten daha fazla güvenilebiliyor
  Claude Code’a benzer bir iş akışı mümkün ama genel olarak her şey biraz daha kötü. Bağlam uzunluğu, hata sayısı, karar verme, öneriler ve hata ayıklama yeteneği hafifçe geride kalıyor
  Kullanım açısından $100’lık Claude planı aslında fiyat/performans olarak iyi. Token birim fiyatında Kimi çok daha ucuz ama Claude aboneliği ciddi biçimde sübvanse ediliyor gibi, bu yüzden API’de $100’a satın alabileceğinizden çok daha fazla token veriyor
  Sonuç olarak benzer kullanım kalıplarında opencode + Kimi ile Claude Code’un maliyeti birbirine yaklaşabiliyor
  DeepSeek daha ucuz ve cache token’ları inanılmaz derecede hesaplı, ama Claude Code’dan geçiyorsanız alışkanlıklarınıza bağlı olarak çalışma biçiminizi uyarlamanız gerekebilir
  Yan projeler için $10 Opencode Go planına OpenRouter gibi bir yerden $10 DeepSeek v4 kredisi eklemek oldukça pratik bir kurulum gibi geliyor
- İşte Claude, yan projelerde ise Kimi kullanıyorum. Kurumda LiteLLM ve Kimi 2.5 etkin ama neredeyse hiç düzgün çalışmadığı için ana araçlar Claude ve GPT
  Kimi, mülakata giren bir geliştirici gibi hissettiriyor; bu yüzden daha eğlenceli. Sorunu nasıl akıl yürüttüğünü görmek, whiteboard oturumunda benim açıklama tarzıma benziyor. “wait” demesini fazla sık bulduğum için komik geliyor
  Claude ise daha çok işe alınmış bir çalışan ya da bir çalışan ekibi gibi. Başta uzun uzun açıklama yapmıyor, sadece gerektiğinde soru sorup sonra kapsamlı bir rapor ya da plan çıkarıyor
  OpenCode’un daha iyi bir harness olduğunu düşünüyorum. Maliyet konusunda ise aynı prompt’u iki tarafta da birebir koşturmadığım için doğrudan karşılaştırma yapamam
  Yakın zamanda Kimi’ye ZenC programlama dili için bir libpq wrapper yaptırdım(https://github.com/nobleach/zenc-postgres); yaklaşık bir saat sürdü ve maliyeti yaklaşık $4 oldu
- ohmypi’den çok memnunum ama OpenCode kullanabilir ya da Claude Code ile devam edebilirsiniz
  DeepSeek-V4-Pro fazlasıyla yeterli; Haiku veya Sonnet’e bırakılabilecek işler ya da küçük görevler için DS4-Flash kullanabilirsiniz. $10 ön ödemeyle kaydolmanız yeterli
  OpenCode Go’ya ayda $5 verip Qwen-3.7-Max’i tasarım, planlama, mimari ve zor problem çözme için kullanabilirsiniz. DeepSeek’ten çok Opus 3.6 veya 3.7’ye daha yakın hissettiriyor; bulduklarım arasında en benzeri buydu
  OpenAI Codex’te aylık $20 planla GPT-5.5’i API üzerinden tasarım, planlama, mimari, problem çözme ve commit yazımı için kullanabilirsiniz. Gerçekten zor problemler için $100 ödeyip GPT-5.5-Pro sohbetine kopyalayıp yapıştırabilirsiniz
  Xiaomi MiMo-2.5-Pro için bir arkadaştan $2’lık tavsiye kodu alarak 72 sent ücretsiz kredi kazanabilirsiniz. Fiyatı DeepSeek ile aynı ve Sonnet ile Opus arasında bir yerde; oldukça yetenekli. UltraSpeed beta’ya da başvurulabilir
  OpenCode veya ohmypi içinde bu modeller arasında anlık geçiş yaparak size en uygun olanı bulabilirsiniz. CodexBar ile kullanımı neredeyse gerçek zamanlı takip ediyorum
  Hafif kullanıcılar ya da programlamaya yeni başlayanlar için Cursor’un $20 planı, Composer-2.5 ve Composer-2.5-Fast ile başlamak adına iyi. API kotası da verdiği için Cursor dışında OpenCode ya da ohmypi üzerinden Opus-4.x veya GPT-5.5-Pro’ya erişebilirsiniz
  Grok veya Twitter kullanıyorsanız aylık $30’lık SuperGrok’ta iyi bir vision modeli var; bunu frontend otomatik testlerinde kullandım. Ama şu anda normal bir Mac’te yerel Qwen-3-VL’e geçiyorum. Teknik konulara daha az hâkimseniz unreach, Mac’te yerel model barındırmayı kolaylaştırıyor
  RTX 5090 gibi güçlü bir GPU’nuz varsa Qwen-3.6’yı yerelde denemeye değer. ollama veya llama-swap ile nispeten kolay
  Yeni Kimi’yi henüz denemedim ama 3 profesyonel geliştirici, Midjourney ve Grok Imagine’ı yoğun kullanan 1 grafik tasarımcı ve gereksinim toplama ile uygulama takibinde ohmypi kullanan 1 teknik olmayan kullanıcıdan oluşan bir ekibi kişi başı aylık $200’ın altında tutabiliyorum
  Biraz daha uğraşmayla bunu kişi başı aylık $75’a daha da yaklaştırmak mümkün
- Claude Code’a patch’lenmiş bir litellm proxy, openrouter ve Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro bağlayarak kullanıyorum
  Çalışmayan tek özellik webfetch ve web search; onun yerine ddg MCP ile web getirme/arama pre-hook kullanıp agent’ı dolandırarak çözdüm
  Memory, caching ve geri kalan her şey düzgün çalışıyor
  Qwen planlama konusunda Opus’a yakın ama Fable belirgin biçimde daha iyi
  Kod yazımında ise planı Opus çıkardığında Kimi ve DeepSeek sonuçları Opus’tan neredeyse ayırt edilemez oluyor
  En büyük fark çıktı ritmi. Örneğin Kimi uzun süre düşündükten sonra hızlıca çok miktarda metin üretiyor
  Şu anda araştırma ve planlama için Fable’ı, kodlama içinse DeepSeek v4 flash’ı test ediyorum. Sonuçlar Opus + DeepSeek v4 pro’ya benziyor ve toplam maliyet daha düşük olacak gibi
- Sadece GLM 5.1 hakkında konuşabilirim; bana göre Sonnet 4 seviyesine yakın

İyi; önüme atılan işlerin çoğunu iyi hallediyor, ancak bilişsel olarak karmaşık görevlerde başarısız oluyor. Sık sık takılıyor. Yine de aylık yaklaşık $6.

“En iyi” modelin önemini yitirdiği bir eşik var ve bence o noktadan çok uzakta değiliz. Fable şu an gerçekten çok iyi, ama bir yıl kadar sonra Kimi yetişirse, Fable6 çok daha iyi olsa bile fiyatı 1/10 ise muhtemelen Kimi kullanırım
Eskiden Opus 4.5’e bakıp “Bu kadar iyiyse 6~12 ay içinde Çin modelleri de bu kadar iyi ve ucuz olur, ben de onları kullanırım” diye düşünmüştüm ama yanılmışım. Şu anda da Opus 4.7/8 ve Fable için prim ödüyorum
Yine de bir gün modeller sadece istenen işi yapan seviyeye gelecek ve o noktadan sonra fiyat düşürme rekabeti başlayacak
Artık Çinli şirketler çok iyi Fable token’larına erişebildiğine göre, umarım bu rekabet hızlanır
- Kim olduğuna ve modeli nasıl kullandığına bağlı olarak, bu noktaya şimdiden ulaşmış olanlar da var
- Bence bir sonraki rekabet cephesi hız olacak. Birden fazla ajanın kendi işlerini yaptığı akışlar arasında gidip gelirken bağlam değiştirmek yerine, tek bir ajanın birkaç saniye içinde herhangi bir prompt’u zorlayıp bir işin akışını korumasını isterim
- Önemli olan sadece token başına fiyat değil. Yapay zekaya tekrar sormak gerekiyorsa, bu ilk seferde doğru yapan modelden daha pahalıya mal olabilir
  Bu yüzden token birim fiyatı daha yüksek olsa bile daha iyi model pratikte daha ucuz olabilir
Opus, Kimi K2.6 veya diğer Çin modellerinden 5 kat daha pahalıysa ve sadece biraz daha iyiyse, Anthropic gibi şirketlerin rekabet gücünü nasıl koruduğunu merak etmiştim
Benim varsayımım, ABD şirketlerinin verileri Çin tarafına gönderememesi ve bu anlaşılır. Ama bu gerçekten bir “hendek” mi?
- Şu anki hendek model performansı ve bunun sonucu olarak harcanan ek token ve zamandır
  Bunu Kimi modellerini epey sık kullanan ve genel olarak beğenen biri olarak söylüyorum
  DeepSWE gibi henüz oyunlaştırılmamış benchmark’larda Kimi K2.6, Claude Sonnet 4.6($3/$15)’in belirgin biçimde gerisinde kalıyor ve GPT 5.4 Mini($0.75/$4.50)’nin de biraz gerisinde
  Kimi modelinin birçok kodlama işinde çok iyi olduğu açık ve açık ağırlıklı modeller arasında kalite olarak en iyisi
  Ancak Sonnet/Opus ile benzer toplam sonuçlar almak için ortalamada çok daha fazla token harcamak ve modeli daha fazla yönetmek gerekiyor
  Token başına fiyata değil, tüm sürece ne kadar ödediğine bakmak gerekir
- Bunun “sadece biraz daha iyi” olmadığı yönünde bir algı olduğunu düşünüyorum. Algılanan bu kalite farkı sayesinde fiyat farklılaştırması mümkün oluyor
  Ayrıca çok para harcayan tarafta değerlendirme çalıştıran yeterince rasyonel aktör var; dolayısıyla “biraz daha iyi”nin salt bir histen ibaret olmama ihtimali yüksek
  Yine de benim doğrudan görebildiğim değerlendirme paketleri sınırlı. Herkes irrasyonel olabilir ve Anthropic de bundan yararlanıyor olabilir
- İkisini de kullanmış insanların çoğu, Anthropic modellerinin Kimi’den birazdan daha fazla ölçüde daha iyi olduğunu söyleyecektir
  Kimi ve diğer açık kaynak modelleri SWE-bench gibi yerlerde iyi puan alabiliyor ama gerçek kullanımda fark hissediliyor
- API token fiyatı yalnızca bir unsur ve Claude aboneliği fiyat/performans açısından iyi
  Tuhaf biçimde herkes API fiyatlarını gerekçe göstererek Claude aboneliğinin sübvanse edildiğini söylüyor, ama gerçek Claude çıkarım maliyetini kimse bilmiyor ve Çinli sağlayıcılar da ucuz çıkarım sunabiliyor. Öyleyse Claude’un neden bunu yapamayacağını düşündüklerini merak ediyorum
  Kurumsal müşteriler için kamuya açık olmayan farklı API fiyat anlaşmaları da olabilir. Bizim gördüğümüz sadece yüksek liste fiyatları olabilir
- Yalnızca karşılaştırılabilir alanlarda “biraz daha iyi”ye yakın; onun dışındaki birçok alanda A\ modelleri çok daha iyi. Örneğin Kimi vb.’nin damıtmadığı türden işler
  Bu tür işlerde fark uçurum gibi
Düzgün test edince bunun oldukça iyi bir iyileştirme olduğu görünüyor. Aynı işte daha az token kullanması bile, açık model gerektiğinde K2.6 yerine bunu kullanmak için yeterli sebep
DeepSeek v4’ten %20~30 kadar belirgin biçimde daha iyi olmayan yeni bir model, DeepSeek’ten token başına daha pahalıysa, neredeyse otomatik olarak az kullanılan model konumuna itilir diye düşünüyorum. Belki planlama işleri için kullanılabilir
- DeepSeek v4 Pro, GLM 5.1 veya Kimi K2.6 ile kıyaslayınca aslında o kadar da iyi bir model değil. Fiyatına göre fena olmayan bir coder/reasoner gibi
- DeepSeek’in maliyeti sübvanse edip etmediğini ya da insanların açık modelleri benzer maliyetlerle barındırıp barındıramadığını merak ediyorum
Açık ağırlıklı/açık kaynak modelleri konusunda hâlâ çok deneyimli değilim. Bunu tam zamanlı kullanan biri varsa kurulum ve performansla ilgili deneyimlerini duymak isterim. Kurumu Anthropic ürünlerinden taşımayı düşünüyorum
- Kişisel deneyimimden bahsedersem, bireysel işlerimde forgecode ve openrouter kullanıyorum. Öncelikle forgecode’un Claude Code’dan çok daha iyi bir harness olduğunu düşünüyorum
  Model kalitesi açısından büyük bir fark yok ama maliyet farkı akıl almaz düzeyde. En azından ajanları kullanma biçimimde durum böyle
  Dün mesela, karmaşık teknik belgelerde arama yapmak için küçük bir DSL geliştiriyordum ve küçük bir operatör eklemek için Fable’ı denedim
  Fable 13 dolar yaktı ve bir çözüm üretti, ama aynı işi DeepSeek v4’ün 1,7 dolara yaptığı çözümden nesnel olarak daha iyi değildi
  Yalnız ben ajana parçalanmış işler veriyorum. DSL örneğinde operatörleri ben tasarladım ve ajana bunları tek tek uygulattım
  Baştan karmaşık bir belge verip her şeyi tasarlamasını isteseydim Fable parlayabilirdi
  Ama ajana daha geniş kapsamlı işler verdikçe milyonlarca token yakıp şüpheli kod üretti ve sonunda yine benim zaman ayırıp anlamam gerekti
- https://github.com/gitsense/gsc-cli projesini yaptım ve kodun yaklaşık %80’inin glm-4.7 tarafından üretildiğini düşünüyorum
  Örneğin https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... gibi dosyalara bakarsanız hangi modeli kullandığımı belirtmiştim
  4.7 go kodunda pek iyi değildi, bu yüzden attribution kısmında Gemini 3 Flash görünmeye başladı
  4.7, Cerebras’ın sunduğu bir model ve benim için yineleme hızı çok daha önemli
  MiMo v2.5.0-Pro’yu kullandıktan sonra, Gemini 3 Flash’ın yaptığı her şeyi %100 yapabileceğine eminim
  Birkaç kez tıkandığımda açıklama almak için Sonnet’e başvurmam gerekti ama Anthropic ve OpenAI’ın söylemeyeceği kirli sır şu: kod yazmayı biliyorsanız modeller açıkçası yeterince iyi
  MiMo deneyimime ve başkalarının GLM 5.1 değerlendirmelerine bakınca artık işin donanım rekabeti aşamasına girdiğimizi düşünüyorum
  Programlama bilen ve yapay zekayla bildiklerini büyütmek isteyen biri için Çin modelleri Claude’un %100 ikamesi oluyor
  Bundan sonra hangi sağlayıcının en hızlı çıkarımı verdiğine bakacağız
  MiMo-v2.5.0-Pro-Ultraspeed iyi sonuçları hızlı üretiyor ve parayı da hızlı yakıyor
- Bu modeller açık ağırlıklı olsa da, şu anda çoğu amiral gemisi modele pratikte yalnızca üçüncü taraf model sağlayıcıları üzerinden erişilebiliyor
  Başlıca istisna, yaklaşık 30B parametre civarındaki modeller; bunlar hâlâ tüketici GPU’larında çalıştırılabiliyor
  Ancak tüketici GPU’ları da son birkaç yılda giderek pahalılaştı ve bunu gerekçelendirmek zorlaştı
- Sürekli Çin modellerine geçmeye çalışıyorum ama sonunda ürettiklerini Claude’a düzeltmek zorunda kalıyorum. Hem işlev hem stil açısından böyle ve sonuçta hep geri dönüyorum
  GPT’yi de denemeye devam ediyorum; oldukça sağlam. Çok hızlı ve hata ayıklamada da harika. Ama kodu çoğu zaman gereğinden fazla zeki oluyor ve insanın başını ağrıtıyor
  Belki prompt ile düzeltilebilir. Çin modellerinde biraz işe yaradı. Eski görsel yapay zeka dönemindeki “+good -bad” gibi, zarif yapmasını söylemek yeterli oluyor
  Şimdilik insanın kodu anlayabilmesi gerekiyor ve bu gereksinimi tutarlı biçimde karşılayan tek model Claude
  Yine de bir gün Çin laboratuvarlarından birinin özel bir formül bulmasını umuyorum
  Küçük düzeltmeler için DeepSeek Flash çok iyi. Neredeyse sınırsız bir yapay zekanın doğrudan bağlı olması gibi; çok hoş
- dwarf star çıktıktan sonra DeepSeek v4 flash’ı neredeyse her işte ana model olarak kullanıyorum
  128GB belleğe sahip bir M4 Max MacBook Pro’da çalıştırıyorum
  Genelde sunucu olarak ayağa kaldırıyorum; kodlama makinesinden Tailscale ile bağlanıp Pi coding agent kullanıyorum
  Qwen modellerini kullandığım döneme göre büyük bir sıçrama ama vision özelliği yok; bu yüzden vision gerektiğinde hâlâ o taraftaki modelleri çalıştırıyorum
  Daha önce kodlama için ana modelim GLM 4.7 flash’tı ama vision dışındaki tüm işleri tamamen DeepSeek’e taşıdım
Çin menşeli açık ağırlıklı modellerden ÇKP unsurlarını çıkarmayı deneyen biri olup olmadığını merak ediyorum. Alay etmek için sormuyorum; ağırlık dayanıklılık testi ya da kavram aktivasyonu gibi tekniklerle bunun kapsamlı biçimde incelenip incelenmediğini soruyorum
Örneğin, ÇKP gerçekten bağlama göre davranışlar yerleştirmeye çalıştıysa, aldatıcı ya da kötü niyetli davranışlara yol açabilecek girdilere nasıl tepki verdiğine bakmak gibi
ABD devlet uygulamalarında kullanılınca zafiyetli kod ürettiği iddiası gibi şeylerin gerçekten kanıtlanıp kanıtlanmadığını bilmiyorum
Jeopolitik rekabetin yoğun olduğu bir dönemde bu tür sorular mantıksız değil. Hangi ülkede yaşarsanız yaşayın geçerli bir soru
- Hugging Face’in TNG çalışmasına bakmaya değer olabilir
  Bu bir Alman danışmanlık şirketi; DeepSeek modellerini ayarlayıp önyargıları giderdiklerine dair bir sunumlarını görmüştüm. Oldukça ilginçti
  https://www.tngtech.com/en/about-us/news/release-of-deepseek...
  Endişe edilmesi gereken tek şey kod değil; olası mesajlaşma gibi başka unsurlar da var
- heretic gibi araçların faydalı olabileceği bir iş gibi geliyor
  https://github.com/p-e-w/heretic
- Şirketlerin yaptığı LLM’lerde de kurumsal önyargı şüphesi olabilir. Tam anlamıyla güvenli olan hiçbir şey yok

Kimi K2.7-Code: token verimliliği iyileştirilmiş açık kaynaklı kodlama modeli

Modele genel bakış

Model özeti

Değerlendirme sonuçları

Kodlama benchmark'ları

Ajan benchmark'ları

Değerlendirme koşulları

Benchmark yapısı

Native INT4 kuantizasyonu

Dağıtım

Kullanım şekli

API çağrısı için temel koşullar

Chat Completion

Görsel içerik girişi

Preserve Thinking

Interleaved Thinking ve çok adımlı araç çağrıları

Kodlama ajanı çerçevesi

Yerel çalıştırma örnekleri

Transformers

vLLM

SGLang

Lisans

İlgili okumalar

1 yorum

Hacker News görüşleri