1 puan yazan GN⁺ 4 시간 전 | 1 yorum | WhatsApp'ta paylaş
  • Uzun süreli kodlama işleri ve karmaşık yazılım mühendisliği iş akışlarını ele alan ajan tipi bir kodlama modeli olup, Kimi K2.6 tabanı üzerinde uçtan uca görev tamamlama yeteneği ve token kullanım verimliliği artırıldı
  • Kimi K2.6'ya kıyasla düşünme tokeni kullanımını yaklaşık %30 azalttı; Kimi Code Bench v2 skoru 50.9'dan 62.0'a, MCP Mark Verified skoru ise 72.8'den 81.1'e yükseldi
  • Model yapısı MoE tabanlı; toplam 1T parametre, 32B aktif parametre, 256K bağlam uzunluğu ve MoonViT görsel kodlayıcı içeriyor
  • Dağıtım resmi API ile vLLM, SGLang ve KTransformers hedeflenerek sunuluyor; Kimi-K2.5/Kimi-K2.6 ile aynı mimariye sahip olduğundan mevcut dağıtım yöntemi yeniden kullanılabiliyor
  • Kullanımda Thinking modu ve preserve_thinking zorunlu; görüntü girişi destekleniyor, video girişi ise şu anda yalnızca resmi API'de deneysel olarak destekleniyor

Modele genel bakış

  • Kimi K2.7-Code, Kimi K2.6 tabanlı, kodlama odaklı bir ajan modeli olup gerçekçi uzun süreli kodlama işlerinde iyileştirildi
  • Karmaşık yazılım mühendisliği iş akışlarının genelinde uçtan uca görev tamamlama yeteneğini güçlendiriyor
  • Kimi K2.6 ile karşılaştırıldığında düşünme tokeni kullanımını yaklaşık %30 azaltarak token verimliliğini artırıyor
  • Görsel-metin girişi, Transformers, Safetensors, conversational ve custom_code gibi etiketlerle sunuluyor

Model özeti

  • Mimari Mixture-of-Experts(MoE) tabanlıdır; toplam parametre sayısı 1T, aktif parametre sayısı 32B'dir
  • Katman sayısı Dense katman dahil 61'dir ve Dense katman sayısı 1'dir
  • Attention Hidden Dimension 7168, MoE Hidden Dimension ise uzman başına 2048'dir
  • Attention Head sayısı 64, Expert sayısı 384, token başına seçilen Expert sayısı 8 ve Shared Expert sayısı 1'dir
  • Sözlük boyutu 160K, bağlam uzunluğu ise 256K'dir
  • Attention mekanizması MLA, aktivasyon fonksiyonu ise SwiGLU'dur
  • Görsel kodlayıcı MoonViT'tir ve görsel kodlayıcı parametre sayısı 400M'dir

Değerlendirme sonuçları

  • Kodlama benchmark'ları

    • Kimi Code Bench v2'de Kimi K2.6 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0, Claude Opus 4.8 ise 67.4 puan aldı
    • Program Bench'te Kimi K2.6 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1, Claude Opus 4.8 ise 63.8 puan aldı
    • MLS Bench Lite'ta Kimi K2.6 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5, Claude Opus 4.8 ise 42.8 puan aldı
  • Ajan benchmark'ları

    • Kimi Claw 24/7 Bench'te Kimi K2.6 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8, Claude Opus 4.8 ise 50.4 puan aldı
    • MCP Atlas'ta Kimi K2.6 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4, Claude Opus 4.8 ise 81.3 puan aldı
    • MCP Mark Verified'da Kimi K2.6 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9, Claude Opus 4.8 ise 76.4 puan aldı
  • Değerlendirme koşulları

    • Aksi belirtilmedikçe Kimi K2.7 Code ve K2.6, Kimi Code CLI'de Thinking modu açık, temperature 1.0, top-p 0.95 ve 262,144 token bağlam uzunluğu ile test edildi
    • GPT-5.5, Codex'in xhigh modunda çalıştırıldı; Opus 4.8 ise Claude Code'un xhigh modunda çalıştırıldı
    • Bunun dışındaki farklar hariç tüm benchmark'lar aynı koşullarda değerlendirildi
  • Benchmark yapısı

    • Kimi Code Bench V2, gerçekçi görevlerde kodlama ajanlarını değerlendiren dahili bir benchmark olup 10'dan fazla ana programlama dili ile tam üretim teknoloji yığınını kapsıyor
    • Kimi Code Bench V2, dahili mühendislik kullanım senaryoları, üretim kesintileri ve gerçek açık kaynak projelerindeki görevleri içeriyor
    • Program Bench, yalnızca derlenmiş ikili dosyalar ve belgelerle program davranışının yeniden üretilmesini ister; 200 görev ve 248.000'den fazla fuzz ile üretilmiş davranış testini kullanır
    • MLS-Bench, yapay zeka sistemlerinin genellenebilir ve ölçeklenebilir ML yöntemleri oluşturup oluşturamadığını değerlendirir; MLS-Bench-Lite ise resmi 30 görevlik alt kümedir
    • Kimi Claw 24/7 Bench, kesintisiz çok günlük iş birliğinde uzun süreli ajan performansını değerlendiren dahili bir benchmark olup 17 profesyonel senaryo ve 610 değerlendirme noktasını kapsar
    • MCP-Atlas, ölçeklenebilir MCP üzerinden gerçekçi araç kullanım görevlerinde LLM performansını değerlendirir
    • MCPMark-Verified, MCPMark'ın insan doğrulamalı sürümüdür ve Notion, GitHub, Filesystem, Postgres, Playwright gibi 5 gerçek sunucu ortamında MCP araç kullanımını değerlendirir

Native INT4 kuantizasyonu

  • Kimi-K2.7-Code, Kimi-K2-Thinking ile aynı native int4 kuantizasyon yaklaşımını benimser

Dağıtım

  • Kimi-K2.7-Code API'sine https://platform.moonshot.ai üzerinden erişilebilir
  • Resmi API, OpenAI/Anthropic uyumlu API sunar
  • Önerilen çıkarım motorları vLLM, SGLang ve KTransformers'tır
  • Kimi-K2.7-Code, Kimi-K2.5/Kimi-K2.6 ile aynı mimariye sahip olduğundan dağıtım yöntemi doğrudan yeniden kullanılabilir
  • transformers sürüm gereksinimi >=4.57.1, <5.0.0 şeklindedir
  • Dağıtım örnekleri Model Deployment Guide içinde görülebilir

Kullanım şekli

  • API çağrısı için temel koşullar

    • Kullanım demoları resmi API çağrı yöntemini temel alır
    • Kimi-K2.7-Code, Thinking ve preserve_thinking ayarını True olarak zorunlu kılar
    • vLLM veya SGLang ile dağıtılan üçüncü taraf API'lerde video içerikli sohbet, şu anda yalnızca resmi API'de desteklenen deneysel bir özelliktir
    • Thinking modu için önerilen temperature değeri 1.0, önerilen top_p değeri ise 0.95'tir
    • Instant modu desteklenmez
  • Chat Completion

    • Chat Completion örneği, K2.7-Code API'sini Thinking modunda çağırır
    • Örnek kod, openai istemcisiyle client.chat.completions.create çağrısını yapar ve max_tokens=4096 ayarlar
    • Yanıtta response.choices[0].message.reasoning ve response.choices[0].message.content çıktılanır
  • Görsel içerik girişi

    • K2.7-Code görüntü ve video girişini destekler
    • Görüntü girişi örneğinde, görsel base64 olarak kodlanıp image_url içine iletilir ve max_tokens=8192 ile yanıt üretilir
    • Video girişi örneğinde, mp4 dosyası base64 olarak kodlanıp video_url içine iletilir
    • Video sohbeti şu anda yalnızca resmi API'de desteklenen deneysel bir özelliktir
  • Preserve Thinking

    • Kimi K2.7 Code, preserve_thinking modunu zorunlu kılar ve çok turlu etkileşimlerde tüm reasoning içeriğini korur
    • preserve_thinking, kodlama ajanı senaryolarında performansı artırır
    • Bu özellik varsayılan olarak etkindir ve devre dışı bırakılamaz
    • Bazı API'ler reasoning_content desteklemeyebilir; bu durumda reasoning denenebilir
  • Interleaved Thinking ve çok adımlı araç çağrıları

    • K2.7-Code, K2 Thinking ile aynı Interleaved Thinking ve Multi-Step Tool Call tasarımını paylaşır
    • Kullanım örnekleri için K2 Thinking documentation incelenebilir
  • Kodlama ajanı çerçevesi

    • Kimi K2.7-Code, ajan çerçevesi olarak Kimi Code CLI ile birlikte kullanıldığında en iyi sonucu verir
    • Kimi Code CLI, https://www.kimi.com/code adresinde sunuluyor

Yerel çalıştırma örnekleri

  • Transformers

    • Transformers'ta pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) yöntemiyle üst düzey bir pipeline oluşturulabilir
    • Modelin doğrudan yüklenmesi AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto") yöntemiyle mümkündür
  • vLLM

    • vLLM, pip install vllm ile kurulur ve vllm serve "moonshotai/Kimi-K2.7-Code" ile sunucu başlatılır
    • Çağrı örneği olarak OpenAI uyumlu API uç noktası http://localhost:8000/v1/chat/completions kullanılır
    • Docker Model Runner'da docker model run hf.co/moonshotai/Kimi-K2.7-Code ile çalıştırılır
  • SGLang

    • SGLang, pip install sglang ile kurulur ve python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" ile sunucu başlatılır
    • Çağrı örneği olarak OpenAI uyumlu API uç noktası http://localhost:30000/v1/chat/completions kullanılır
    • Docker ile çalıştırma örneğinde GPU, paylaşımlı bellek, Hugging Face önbelleği ve HF_TOKEN ortam değişkeni ayarlanır

Lisans

1 yorum

 
GN⁺ 4 시간 전
Hacker News görüşleri
  • Düzeltilmiş lisans maddelerini okuyunca güldüm. Aslında bu, eski BSD'deki reklam maddesinin eklenmiş olduğu bir MIT lisansı gibi ve aylık aktif kullanıcı ya da gelirden bağımsız olarak, üründe kullanırsan onlara bir şekilde “reklam” yapmanı istemeye yakın
    Dürüst olmak gerekirse makul bir talep gibi görünüyor

    • Bu, Cursor'a yönelik bir madde gibi görünüyor. Yani açıklamak zorunda kalarak küçük düşürülecek bir şey yapmayın demek istiyor
    • Buradaki “reklam” maddesi, ürünün bir yerinde kullanıldığını belirtmekten ibaret. Örneğin “About” bölümündeki teşekkürler kısmına eklemek gibi
    • Aceleyle eklenmiş gibi duruyor. “Kullanıcı arayüzü”ne nelerin dahil olduğuna dair hukuki ifadeyi biraz daha özenli yazmış olurlar diye düşünmüştüm
  • Kimi K2.7-code'a oldukça basit talimatlar vererek Fil-C OpenSSL yamasını 3.3.1'den 3.5.7'ye rebase ettirdim ve başarılı olmuş gibi görünüyor
    Yama boyutu 177KB idi, yani küçük bir değişiklik değildi; ayrıca ilk başta temiz şekilde uygulanmadığı için ajan epey gerçek iş yapmak zorunda kaldı
    Sadece 3.3.1 hedefli yama, build komutu, 3.5.7 yolu ve değişiklik belgesi bağlantısını (https://fil-c.org/constant_time_crypto) verdim
    Ancak kendi kodlama ajanım olan T800'ü kullandım; bu herkese açık değil ve daha önce K2.5 için yeterince test edilip ayarlanmış durumdaydı
    API kullanım ücreti sanırım $5~$10 arasındaydı. Düzeltme: OpenSSH değil, OpenSSL

  • Şahsen açık modelleri ya da router'ları kullanırken belli bir seviyenin üstünde model farkını çok hissetmiyorum. Pahalı ve muğlak Gemini gibi modeller istisna
    Bu açıdan Çin modelleri oldukça iyi. Genelde önce kodu fonksiyon veya metot düzeyinde yazdırıp sonra tasarlayıp birleştiren bir yaklaşımla kullanıyorum
    GPT ailesi daha dikkatli ve daha iyi ama farkın devasa olduğundan emin değilim. İş akışına göre değişir ama yeterince sıkı yönetildiğinde gerçekten büyük bir fark olup olmadığını sorguluyorum

    • “Ücretsiz” inference router'lardan bir ölçüde vazgeçtim. Tahmin edildiği gibi, inference'i olabildiğince kısmaya çalıştıkları için düşünme kalitesi sık sık düşüyor
      MacBook M1 Pro'yu ısıtma pedine çevirirken Qwen 3.6 35B A3B MTP çalıştırmak belli ölçüde başarılı oldu
      Gemini modellerini “local” gibi kullanmaya çalışınca da benzer bir sorun yaşadım; çaba miktarını kısa kesiyor, daha çok hata yapıyor ve tur sayısını artırıyor
      Buna karşılık Fable'ın ısrarla “proaktif” olduğunun söylenmesi, güçlü markalama ve etkili ücretlendirme varsa tam ters yönde gitmenin de mümkün olduğunu düşündürüyor
    • Benim deneyimime göre tek tek fonksiyonları uygulama işinde frontier modeller ile güncel 30B sınıfı modeller arasında neredeyse hiç fark yok
      Tutarlı bir tasarım zaten mevcutsa, ki zor kısım bu, onu oldukça küçük modellere verince de neredeyse aynı kalite elde edilebiliyor
      Tek seferde bitiremiyorlar ama daha hızlı ve ucuz oldukları için sonuçta avantaj sağlıyor. Üstelik local'de de çalışıyorlar
    • Sonuç farkı büyük değil ama onları daha sıkı yönetmek gerektiği doğru. Örneğin Kimi K2.5/K2.6, az önce kendisinin yarattığı sorunu düzeltmek yerine başarısız testleri “zaten önceden başarısız olanlar” sanıp yorum satırına alma eğilimindeydi
      Bu yüzden yorum satırına alınmış testlerin build'i bozmasını açıkça sağlamak gerekiyor. Anthropic veya OpenAI modellerinde ben şahsen böyle bir sorun yaşamadım
    • Artık “Çin modeli” ifadesinin kullanılmamasını isterim. Olumsuz bir çağrışımı var
      Eskiden otomobillere “Japon arabası” denmesine benziyor; artık bunun pek anlamı kalmadı ve insanlar sadece Toyota, Honda, Lexus diyor
  • opencode + Kimi K2.6/2.7’yi Claude Code ile karşılaştırarak kullanan biri varsa gerçekten çok merak ediyorum. Neyin daha iyi, neyin daha kötü olduğunu ve maliyet karşılaştırmasının nasıl çıktığını bilmek istiyorum
    Şu anda 5x Max planına $100 ödüyorum ama Fable kullanım limitini oldukça hızlı tüketiyor ve Opus’a kıyasla geceyle gündüz kadar fark var demek de zor
    Ağırlıklı olarak yan projelerde kullandığım için $100’lık fatura da epey büyük hissettiriyor ve daha fazlasını ödemek istemiyorum

    • Claude Code’u çoğunlukla Opus ile kullanıyordum, sonra kişisel projelerde opencode + Kimi 2.6’ya geçip birkaç ay denedim
      Claude Code daha iyi. Ama opencode + Kimi 2.6’nın da gayet kullanılabilir olması önemli
      Ne istediğinizi net biliyorsanız ve sadece basit kod yazdırıyorsanız DeepSeek, Kimi gibi popüler modellerin çoğu yeterince iyi oluyor ve Anthropic modellerinden çok farklı hissettirmiyor
      Buna karşılık Opus, niyeti DeepSeek’ten çok daha iyi anlıyor. DeepSeek kullanırken prompt’u çok daha kesin yazmak gerekiyor; kabaca yazarsanız sık sık alakasız yönlere gidiyor
      Kimi ikisinin arasında. “Gevşek prompt” akışını bir ölçüde geri getiriyor ve planlarına DeepSeek’ten daha fazla güvenilebiliyor
      Claude Code’a benzer bir iş akışı mümkün ama genel olarak her şey biraz daha kötü. Bağlam uzunluğu, hata sayısı, karar verme, öneriler ve hata ayıklama yeteneği hafifçe geride kalıyor
      Kullanım açısından $100’lık Claude planı aslında fiyat/performans olarak iyi. Token birim fiyatında Kimi çok daha ucuz ama Claude aboneliği ciddi biçimde sübvanse ediliyor gibi, bu yüzden API’de $100’a satın alabileceğinizden çok daha fazla token veriyor
      Sonuç olarak benzer kullanım kalıplarında opencode + Kimi ile Claude Code’un maliyeti birbirine yaklaşabiliyor
      DeepSeek daha ucuz ve cache token’ları inanılmaz derecede hesaplı, ama Claude Code’dan geçiyorsanız alışkanlıklarınıza bağlı olarak çalışma biçiminizi uyarlamanız gerekebilir
      Yan projeler için $10 Opencode Go planına OpenRouter gibi bir yerden $10 DeepSeek v4 kredisi eklemek oldukça pratik bir kurulum gibi geliyor
    • İşte Claude, yan projelerde ise Kimi kullanıyorum. Kurumda LiteLLM ve Kimi 2.5 etkin ama neredeyse hiç düzgün çalışmadığı için ana araçlar Claude ve GPT
      Kimi, mülakata giren bir geliştirici gibi hissettiriyor; bu yüzden daha eğlenceli. Sorunu nasıl akıl yürüttüğünü görmek, whiteboard oturumunda benim açıklama tarzıma benziyor. “wait” demesini fazla sık bulduğum için komik geliyor
      Claude ise daha çok işe alınmış bir çalışan ya da bir çalışan ekibi gibi. Başta uzun uzun açıklama yapmıyor, sadece gerektiğinde soru sorup sonra kapsamlı bir rapor ya da plan çıkarıyor
      OpenCode’un daha iyi bir harness olduğunu düşünüyorum. Maliyet konusunda ise aynı prompt’u iki tarafta da birebir koşturmadığım için doğrudan karşılaştırma yapamam
      Yakın zamanda Kimi’ye ZenC programlama dili için bir libpq wrapper yaptırdım(https://github.com/nobleach/zenc-postgres); yaklaşık bir saat sürdü ve maliyeti yaklaşık $4 oldu
    • ohmypi’den çok memnunum ama OpenCode kullanabilir ya da Claude Code ile devam edebilirsiniz
      DeepSeek-V4-Pro fazlasıyla yeterli; Haiku veya Sonnet’e bırakılabilecek işler ya da küçük görevler için DS4-Flash kullanabilirsiniz. $10 ön ödemeyle kaydolmanız yeterli
      OpenCode Go’ya ayda $5 verip Qwen-3.7-Max’i tasarım, planlama, mimari ve zor problem çözme için kullanabilirsiniz. DeepSeek’ten çok Opus 3.6 veya 3.7’ye daha yakın hissettiriyor; bulduklarım arasında en benzeri buydu
      OpenAI Codex’te aylık $20 planla GPT-5.5’i API üzerinden tasarım, planlama, mimari, problem çözme ve commit yazımı için kullanabilirsiniz. Gerçekten zor problemler için $100 ödeyip GPT-5.5-Pro sohbetine kopyalayıp yapıştırabilirsiniz
      Xiaomi MiMo-2.5-Pro için bir arkadaştan $2’lık tavsiye kodu alarak 72 sent ücretsiz kredi kazanabilirsiniz. Fiyatı DeepSeek ile aynı ve Sonnet ile Opus arasında bir yerde; oldukça yetenekli. UltraSpeed beta’ya da başvurulabilir
      OpenCode veya ohmypi içinde bu modeller arasında anlık geçiş yaparak size en uygun olanı bulabilirsiniz. CodexBar ile kullanımı neredeyse gerçek zamanlı takip ediyorum
      Hafif kullanıcılar ya da programlamaya yeni başlayanlar için Cursor’un $20 planı, Composer-2.5 ve Composer-2.5-Fast ile başlamak adına iyi. API kotası da verdiği için Cursor dışında OpenCode ya da ohmypi üzerinden Opus-4.x veya GPT-5.5-Pro’ya erişebilirsiniz
      Grok veya Twitter kullanıyorsanız aylık $30’lık SuperGrok’ta iyi bir vision modeli var; bunu frontend otomatik testlerinde kullandım. Ama şu anda normal bir Mac’te yerel Qwen-3-VL’e geçiyorum. Teknik konulara daha az hâkimseniz unreach, Mac’te yerel model barındırmayı kolaylaştırıyor
      RTX 5090 gibi güçlü bir GPU’nuz varsa Qwen-3.6’yı yerelde denemeye değer. ollama veya llama-swap ile nispeten kolay
      Yeni Kimi’yi henüz denemedim ama 3 profesyonel geliştirici, Midjourney ve Grok Imagine’ı yoğun kullanan 1 grafik tasarımcı ve gereksinim toplama ile uygulama takibinde ohmypi kullanan 1 teknik olmayan kullanıcıdan oluşan bir ekibi kişi başı aylık $200’ın altında tutabiliyorum
      Biraz daha uğraşmayla bunu kişi başı aylık $75’a daha da yaklaştırmak mümkün
    • Claude Code’a patch’lenmiş bir litellm proxy, openrouter ve Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro bağlayarak kullanıyorum
      Çalışmayan tek özellik webfetch ve web search; onun yerine ddg MCP ile web getirme/arama pre-hook kullanıp agent’ı dolandırarak çözdüm
      Memory, caching ve geri kalan her şey düzgün çalışıyor
      Qwen planlama konusunda Opus’a yakın ama Fable belirgin biçimde daha iyi
      Kod yazımında ise planı Opus çıkardığında Kimi ve DeepSeek sonuçları Opus’tan neredeyse ayırt edilemez oluyor
      En büyük fark çıktı ritmi. Örneğin Kimi uzun süre düşündükten sonra hızlıca çok miktarda metin üretiyor
      Şu anda araştırma ve planlama için Fable’ı, kodlama içinse DeepSeek v4 flash’ı test ediyorum. Sonuçlar Opus + DeepSeek v4 pro’ya benziyor ve toplam maliyet daha düşük olacak gibi
    • Sadece GLM 5.1 hakkında konuşabilirim; bana göre Sonnet 4 seviyesine yakın

İyi; önüme atılan işlerin çoğunu iyi hallediyor, ancak bilişsel olarak karmaşık görevlerde başarısız oluyor. Sık sık takılıyor. Yine de aylık yaklaşık $6.

  • “En iyi” modelin önemini yitirdiği bir eşik var ve bence o noktadan çok uzakta değiliz. Fable şu an gerçekten çok iyi, ama bir yıl kadar sonra Kimi yetişirse, Fable6 çok daha iyi olsa bile fiyatı 1/10 ise muhtemelen Kimi kullanırım
    Eskiden Opus 4.5’e bakıp “Bu kadar iyiyse 6~12 ay içinde Çin modelleri de bu kadar iyi ve ucuz olur, ben de onları kullanırım” diye düşünmüştüm ama yanılmışım. Şu anda da Opus 4.7/8 ve Fable için prim ödüyorum
    Yine de bir gün modeller sadece istenen işi yapan seviyeye gelecek ve o noktadan sonra fiyat düşürme rekabeti başlayacak
    Artık Çinli şirketler çok iyi Fable token’larına erişebildiğine göre, umarım bu rekabet hızlanır

    • Kim olduğuna ve modeli nasıl kullandığına bağlı olarak, bu noktaya şimdiden ulaşmış olanlar da var
    • Bence bir sonraki rekabet cephesi hız olacak. Birden fazla ajanın kendi işlerini yaptığı akışlar arasında gidip gelirken bağlam değiştirmek yerine, tek bir ajanın birkaç saniye içinde herhangi bir prompt’u zorlayıp bir işin akışını korumasını isterim
    • Önemli olan sadece token başına fiyat değil. Yapay zekaya tekrar sormak gerekiyorsa, bu ilk seferde doğru yapan modelden daha pahalıya mal olabilir
      Bu yüzden token birim fiyatı daha yüksek olsa bile daha iyi model pratikte daha ucuz olabilir
  • Opus, Kimi K2.6 veya diğer Çin modellerinden 5 kat daha pahalıysa ve sadece biraz daha iyiyse, Anthropic gibi şirketlerin rekabet gücünü nasıl koruduğunu merak etmiştim
    Benim varsayımım, ABD şirketlerinin verileri Çin tarafına gönderememesi ve bu anlaşılır. Ama bu gerçekten bir “hendek” mi?

    • Şu anki hendek model performansı ve bunun sonucu olarak harcanan ek token ve zamandır
      Bunu Kimi modellerini epey sık kullanan ve genel olarak beğenen biri olarak söylüyorum
      DeepSWE gibi henüz oyunlaştırılmamış benchmark’larda Kimi K2.6, Claude Sonnet 4.6($3/$15)’in belirgin biçimde gerisinde kalıyor ve GPT 5.4 Mini($0.75/$4.50)’nin de biraz gerisinde
      Kimi modelinin birçok kodlama işinde çok iyi olduğu açık ve açık ağırlıklı modeller arasında kalite olarak en iyisi
      Ancak Sonnet/Opus ile benzer toplam sonuçlar almak için ortalamada çok daha fazla token harcamak ve modeli daha fazla yönetmek gerekiyor
      Token başına fiyata değil, tüm sürece ne kadar ödediğine bakmak gerekir
    • Bunun “sadece biraz daha iyi” olmadığı yönünde bir algı olduğunu düşünüyorum. Algılanan bu kalite farkı sayesinde fiyat farklılaştırması mümkün oluyor
      Ayrıca çok para harcayan tarafta değerlendirme çalıştıran yeterince rasyonel aktör var; dolayısıyla “biraz daha iyi”nin salt bir histen ibaret olmama ihtimali yüksek
      Yine de benim doğrudan görebildiğim değerlendirme paketleri sınırlı. Herkes irrasyonel olabilir ve Anthropic de bundan yararlanıyor olabilir
    • İkisini de kullanmış insanların çoğu, Anthropic modellerinin Kimi’den birazdan daha fazla ölçüde daha iyi olduğunu söyleyecektir
      Kimi ve diğer açık kaynak modelleri SWE-bench gibi yerlerde iyi puan alabiliyor ama gerçek kullanımda fark hissediliyor
    • API token fiyatı yalnızca bir unsur ve Claude aboneliği fiyat/performans açısından iyi
      Tuhaf biçimde herkes API fiyatlarını gerekçe göstererek Claude aboneliğinin sübvanse edildiğini söylüyor, ama gerçek Claude çıkarım maliyetini kimse bilmiyor ve Çinli sağlayıcılar da ucuz çıkarım sunabiliyor. Öyleyse Claude’un neden bunu yapamayacağını düşündüklerini merak ediyorum
      Kurumsal müşteriler için kamuya açık olmayan farklı API fiyat anlaşmaları da olabilir. Bizim gördüğümüz sadece yüksek liste fiyatları olabilir
    • Yalnızca karşılaştırılabilir alanlarda “biraz daha iyi”ye yakın; onun dışındaki birçok alanda A\ modelleri çok daha iyi. Örneğin Kimi vb.’nin damıtmadığı türden işler
      Bu tür işlerde fark uçurum gibi
  • Düzgün test edince bunun oldukça iyi bir iyileştirme olduğu görünüyor. Aynı işte daha az token kullanması bile, açık model gerektiğinde K2.6 yerine bunu kullanmak için yeterli sebep

  • DeepSeek v4’ten %20~30 kadar belirgin biçimde daha iyi olmayan yeni bir model, DeepSeek’ten token başına daha pahalıysa, neredeyse otomatik olarak az kullanılan model konumuna itilir diye düşünüyorum. Belki planlama işleri için kullanılabilir

    • DeepSeek v4 Pro, GLM 5.1 veya Kimi K2.6 ile kıyaslayınca aslında o kadar da iyi bir model değil. Fiyatına göre fena olmayan bir coder/reasoner gibi
    • DeepSeek’in maliyeti sübvanse edip etmediğini ya da insanların açık modelleri benzer maliyetlerle barındırıp barındıramadığını merak ediyorum
  • Açık ağırlıklı/açık kaynak modelleri konusunda hâlâ çok deneyimli değilim. Bunu tam zamanlı kullanan biri varsa kurulum ve performansla ilgili deneyimlerini duymak isterim. Kurumu Anthropic ürünlerinden taşımayı düşünüyorum

    • Kişisel deneyimimden bahsedersem, bireysel işlerimde forgecode ve openrouter kullanıyorum. Öncelikle forgecode’un Claude Code’dan çok daha iyi bir harness olduğunu düşünüyorum
      Model kalitesi açısından büyük bir fark yok ama maliyet farkı akıl almaz düzeyde. En azından ajanları kullanma biçimimde durum böyle
      Dün mesela, karmaşık teknik belgelerde arama yapmak için küçük bir DSL geliştiriyordum ve küçük bir operatör eklemek için Fable’ı denedim
      Fable 13 dolar yaktı ve bir çözüm üretti, ama aynı işi DeepSeek v4’ün 1,7 dolara yaptığı çözümden nesnel olarak daha iyi değildi
      Yalnız ben ajana parçalanmış işler veriyorum. DSL örneğinde operatörleri ben tasarladım ve ajana bunları tek tek uygulattım
      Baştan karmaşık bir belge verip her şeyi tasarlamasını isteseydim Fable parlayabilirdi
      Ama ajana daha geniş kapsamlı işler verdikçe milyonlarca token yakıp şüpheli kod üretti ve sonunda yine benim zaman ayırıp anlamam gerekti
    • https://github.com/gitsense/gsc-cli projesini yaptım ve kodun yaklaşık %80’inin glm-4.7 tarafından üretildiğini düşünüyorum
      Örneğin https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... gibi dosyalara bakarsanız hangi modeli kullandığımı belirtmiştim
      4.7 go kodunda pek iyi değildi, bu yüzden attribution kısmında Gemini 3 Flash görünmeye başladı
      4.7, Cerebras’ın sunduğu bir model ve benim için yineleme hızı çok daha önemli
      MiMo v2.5.0-Pro’yu kullandıktan sonra, Gemini 3 Flash’ın yaptığı her şeyi %100 yapabileceğine eminim
      Birkaç kez tıkandığımda açıklama almak için Sonnet’e başvurmam gerekti ama Anthropic ve OpenAI’ın söylemeyeceği kirli sır şu: kod yazmayı biliyorsanız modeller açıkçası yeterince iyi
      MiMo deneyimime ve başkalarının GLM 5.1 değerlendirmelerine bakınca artık işin donanım rekabeti aşamasına girdiğimizi düşünüyorum
      Programlama bilen ve yapay zekayla bildiklerini büyütmek isteyen biri için Çin modelleri Claude’un %100 ikamesi oluyor
      Bundan sonra hangi sağlayıcının en hızlı çıkarımı verdiğine bakacağız
      MiMo-v2.5.0-Pro-Ultraspeed iyi sonuçları hızlı üretiyor ve parayı da hızlı yakıyor
    • Bu modeller açık ağırlıklı olsa da, şu anda çoğu amiral gemisi modele pratikte yalnızca üçüncü taraf model sağlayıcıları üzerinden erişilebiliyor
      Başlıca istisna, yaklaşık 30B parametre civarındaki modeller; bunlar hâlâ tüketici GPU’larında çalıştırılabiliyor
      Ancak tüketici GPU’ları da son birkaç yılda giderek pahalılaştı ve bunu gerekçelendirmek zorlaştı
    • Sürekli Çin modellerine geçmeye çalışıyorum ama sonunda ürettiklerini Claude’a düzeltmek zorunda kalıyorum. Hem işlev hem stil açısından böyle ve sonuçta hep geri dönüyorum
      GPT’yi de denemeye devam ediyorum; oldukça sağlam. Çok hızlı ve hata ayıklamada da harika. Ama kodu çoğu zaman gereğinden fazla zeki oluyor ve insanın başını ağrıtıyor
      Belki prompt ile düzeltilebilir. Çin modellerinde biraz işe yaradı. Eski görsel yapay zeka dönemindeki “+good -bad” gibi, zarif yapmasını söylemek yeterli oluyor
      Şimdilik insanın kodu anlayabilmesi gerekiyor ve bu gereksinimi tutarlı biçimde karşılayan tek model Claude
      Yine de bir gün Çin laboratuvarlarından birinin özel bir formül bulmasını umuyorum
      Küçük düzeltmeler için DeepSeek Flash çok iyi. Neredeyse sınırsız bir yapay zekanın doğrudan bağlı olması gibi; çok hoş
    • dwarf star çıktıktan sonra DeepSeek v4 flash’ı neredeyse her işte ana model olarak kullanıyorum
      128GB belleğe sahip bir M4 Max MacBook Pro’da çalıştırıyorum
      Genelde sunucu olarak ayağa kaldırıyorum; kodlama makinesinden Tailscale ile bağlanıp Pi coding agent kullanıyorum
      Qwen modellerini kullandığım döneme göre büyük bir sıçrama ama vision özelliği yok; bu yüzden vision gerektiğinde hâlâ o taraftaki modelleri çalıştırıyorum
      Daha önce kodlama için ana modelim GLM 4.7 flash’tı ama vision dışındaki tüm işleri tamamen DeepSeek’e taşıdım
  • Çin menşeli açık ağırlıklı modellerden ÇKP unsurlarını çıkarmayı deneyen biri olup olmadığını merak ediyorum. Alay etmek için sormuyorum; ağırlık dayanıklılık testi ya da kavram aktivasyonu gibi tekniklerle bunun kapsamlı biçimde incelenip incelenmediğini soruyorum
    Örneğin, ÇKP gerçekten bağlama göre davranışlar yerleştirmeye çalıştıysa, aldatıcı ya da kötü niyetli davranışlara yol açabilecek girdilere nasıl tepki verdiğine bakmak gibi
    ABD devlet uygulamalarında kullanılınca zafiyetli kod ürettiği iddiası gibi şeylerin gerçekten kanıtlanıp kanıtlanmadığını bilmiyorum
    Jeopolitik rekabetin yoğun olduğu bir dönemde bu tür sorular mantıksız değil. Hangi ülkede yaşarsanız yaşayın geçerli bir soru

    • Hugging Face’in TNG çalışmasına bakmaya değer olabilir
      Bu bir Alman danışmanlık şirketi; DeepSeek modellerini ayarlayıp önyargıları giderdiklerine dair bir sunumlarını görmüştüm. Oldukça ilginçti
      https://www.tngtech.com/en/about-us/news/release-of-deepseek...
      Endişe edilmesi gereken tek şey kod değil; olası mesajlaşma gibi başka unsurlar da var
    • heretic gibi araçların faydalı olabileceği bir iş gibi geliyor
      https://github.com/p-e-w/heretic
    • Şirketlerin yaptığı LLM’lerde de kurumsal önyargı şüphesi olabilir. Tam anlamıyla güvenli olan hiçbir şey yok