- Uzun süreli kodlama işleri ve karmaşık yazılım mühendisliği iş akışlarını ele alan ajan tipi bir kodlama modeli olup, Kimi K2.6 tabanı üzerinde uçtan uca görev tamamlama yeteneği ve token kullanım verimliliği artırıldı
- Kimi K2.6'ya kıyasla düşünme tokeni kullanımını yaklaşık %30 azalttı; Kimi Code Bench v2 skoru 50.9'dan 62.0'a, MCP Mark Verified skoru ise 72.8'den 81.1'e yükseldi
- Model yapısı MoE tabanlı; toplam 1T parametre, 32B aktif parametre, 256K bağlam uzunluğu ve MoonViT görsel kodlayıcı içeriyor
- Dağıtım resmi API ile vLLM, SGLang ve KTransformers hedeflenerek sunuluyor; Kimi-K2.5/Kimi-K2.6 ile aynı mimariye sahip olduğundan mevcut dağıtım yöntemi yeniden kullanılabiliyor
- Kullanımda Thinking modu ve preserve_thinking zorunlu; görüntü girişi destekleniyor, video girişi ise şu anda yalnızca resmi API'de deneysel olarak destekleniyor
Modele genel bakış
- Kimi K2.7-Code, Kimi K2.6 tabanlı, kodlama odaklı bir ajan modeli olup gerçekçi uzun süreli kodlama işlerinde iyileştirildi
- Karmaşık yazılım mühendisliği iş akışlarının genelinde uçtan uca görev tamamlama yeteneğini güçlendiriyor
- Kimi K2.6 ile karşılaştırıldığında düşünme tokeni kullanımını yaklaşık %30 azaltarak token verimliliğini artırıyor
- Görsel-metin girişi, Transformers, Safetensors, conversational ve custom_code gibi etiketlerle sunuluyor
Model özeti
- Mimari Mixture-of-Experts(MoE) tabanlıdır; toplam parametre sayısı 1T, aktif parametre sayısı 32B'dir
- Katman sayısı Dense katman dahil 61'dir ve Dense katman sayısı 1'dir
- Attention Hidden Dimension 7168, MoE Hidden Dimension ise uzman başına 2048'dir
- Attention Head sayısı 64, Expert sayısı 384, token başına seçilen Expert sayısı 8 ve Shared Expert sayısı 1'dir
- Sözlük boyutu 160K, bağlam uzunluğu ise 256K'dir
- Attention mekanizması MLA, aktivasyon fonksiyonu ise SwiGLU'dur
- Görsel kodlayıcı MoonViT'tir ve görsel kodlayıcı parametre sayısı 400M'dir
Değerlendirme sonuçları
-
Kodlama benchmark'ları
- Kimi Code Bench v2'de Kimi K2.6 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0, Claude Opus 4.8 ise 67.4 puan aldı
- Program Bench'te Kimi K2.6 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1, Claude Opus 4.8 ise 63.8 puan aldı
- MLS Bench Lite'ta Kimi K2.6 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5, Claude Opus 4.8 ise 42.8 puan aldı
-
Ajan benchmark'ları
- Kimi Claw 24/7 Bench'te Kimi K2.6 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8, Claude Opus 4.8 ise 50.4 puan aldı
- MCP Atlas'ta Kimi K2.6 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4, Claude Opus 4.8 ise 81.3 puan aldı
- MCP Mark Verified'da Kimi K2.6 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9, Claude Opus 4.8 ise 76.4 puan aldı
-
Değerlendirme koşulları
- Aksi belirtilmedikçe Kimi K2.7 Code ve K2.6, Kimi Code CLI'de Thinking modu açık, temperature 1.0, top-p 0.95 ve 262,144 token bağlam uzunluğu ile test edildi
- GPT-5.5, Codex'in xhigh modunda çalıştırıldı; Opus 4.8 ise Claude Code'un xhigh modunda çalıştırıldı
- Bunun dışındaki farklar hariç tüm benchmark'lar aynı koşullarda değerlendirildi
-
Benchmark yapısı
- Kimi Code Bench V2, gerçekçi görevlerde kodlama ajanlarını değerlendiren dahili bir benchmark olup 10'dan fazla ana programlama dili ile tam üretim teknoloji yığınını kapsıyor
- Kimi Code Bench V2, dahili mühendislik kullanım senaryoları, üretim kesintileri ve gerçek açık kaynak projelerindeki görevleri içeriyor
- Program Bench, yalnızca derlenmiş ikili dosyalar ve belgelerle program davranışının yeniden üretilmesini ister; 200 görev ve 248.000'den fazla fuzz ile üretilmiş davranış testini kullanır
- MLS-Bench, yapay zeka sistemlerinin genellenebilir ve ölçeklenebilir ML yöntemleri oluşturup oluşturamadığını değerlendirir; MLS-Bench-Lite ise resmi 30 görevlik alt kümedir
- Kimi Claw 24/7 Bench, kesintisiz çok günlük iş birliğinde uzun süreli ajan performansını değerlendiren dahili bir benchmark olup 17 profesyonel senaryo ve 610 değerlendirme noktasını kapsar
- MCP-Atlas, ölçeklenebilir MCP üzerinden gerçekçi araç kullanım görevlerinde LLM performansını değerlendirir
- MCPMark-Verified, MCPMark'ın insan doğrulamalı sürümüdür ve Notion, GitHub, Filesystem, Postgres, Playwright gibi 5 gerçek sunucu ortamında MCP araç kullanımını değerlendirir
Native INT4 kuantizasyonu
- Kimi-K2.7-Code, Kimi-K2-Thinking ile aynı native int4 kuantizasyon yaklaşımını benimser
Dağıtım
- Kimi-K2.7-Code API'sine https://platform.moonshot.ai üzerinden erişilebilir
- Resmi API, OpenAI/Anthropic uyumlu API sunar
- Önerilen çıkarım motorları vLLM, SGLang ve KTransformers'tır
- Kimi-K2.7-Code, Kimi-K2.5/Kimi-K2.6 ile aynı mimariye sahip olduğundan dağıtım yöntemi doğrudan yeniden kullanılabilir
transformerssürüm gereksinimi>=4.57.1, <5.0.0şeklindedir- Dağıtım örnekleri Model Deployment Guide içinde görülebilir
Kullanım şekli
-
API çağrısı için temel koşullar
- Kullanım demoları resmi API çağrı yöntemini temel alır
- Kimi-K2.7-Code, Thinking ve
preserve_thinkingayarını True olarak zorunlu kılar - vLLM veya SGLang ile dağıtılan üçüncü taraf API'lerde video içerikli sohbet, şu anda yalnızca resmi API'de desteklenen deneysel bir özelliktir
- Thinking modu için önerilen
temperaturedeğeri1.0, önerilentop_pdeğeri ise0.95'tir - Instant modu desteklenmez
-
Chat Completion
- Chat Completion örneği, K2.7-Code API'sini Thinking modunda çağırır
- Örnek kod,
openaiistemcisiyleclient.chat.completions.createçağrısını yapar vemax_tokens=4096ayarlar - Yanıtta
response.choices[0].message.reasoningveresponse.choices[0].message.contentçıktılanır
-
Görsel içerik girişi
- K2.7-Code görüntü ve video girişini destekler
- Görüntü girişi örneğinde, görsel base64 olarak kodlanıp
image_urliçine iletilir vemax_tokens=8192ile yanıt üretilir - Video girişi örneğinde, mp4 dosyası base64 olarak kodlanıp
video_urliçine iletilir - Video sohbeti şu anda yalnızca resmi API'de desteklenen deneysel bir özelliktir
-
Preserve Thinking
- Kimi K2.7 Code,
preserve_thinkingmodunu zorunlu kılar ve çok turlu etkileşimlerde tüm reasoning içeriğini korur preserve_thinking, kodlama ajanı senaryolarında performansı artırır- Bu özellik varsayılan olarak etkindir ve devre dışı bırakılamaz
- Bazı API'ler
reasoning_contentdesteklemeyebilir; bu durumdareasoningdenenebilir
- Kimi K2.7 Code,
-
Interleaved Thinking ve çok adımlı araç çağrıları
- K2.7-Code, K2 Thinking ile aynı Interleaved Thinking ve Multi-Step Tool Call tasarımını paylaşır
- Kullanım örnekleri için K2 Thinking documentation incelenebilir
-
Kodlama ajanı çerçevesi
- Kimi K2.7-Code, ajan çerçevesi olarak Kimi Code CLI ile birlikte kullanıldığında en iyi sonucu verir
- Kimi Code CLI, https://www.kimi.com/code adresinde sunuluyor
Yerel çalıştırma örnekleri
-
Transformers
- Transformers'ta
pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)yöntemiyle üst düzey bir pipeline oluşturulabilir - Modelin doğrudan yüklenmesi
AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")yöntemiyle mümkündür
- Transformers'ta
-
vLLM
- vLLM,
pip install vllmile kurulur vevllm serve "moonshotai/Kimi-K2.7-Code"ile sunucu başlatılır - Çağrı örneği olarak OpenAI uyumlu API uç noktası
http://localhost:8000/v1/chat/completionskullanılır - Docker Model Runner'da
docker model run hf.co/moonshotai/Kimi-K2.7-Codeile çalıştırılır
- vLLM,
-
SGLang
- SGLang,
pip install sglangile kurulur vepython3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"ile sunucu başlatılır - Çağrı örneği olarak OpenAI uyumlu API uç noktası
http://localhost:30000/v1/chat/completionskullanılır - Docker ile çalıştırma örneğinde GPU, paylaşımlı bellek, Hugging Face önbelleği ve
HF_TOKENortam değişkeni ayarlanır
- SGLang,
Lisans
- Kod deposu ve model ağırlıkları Modified MIT License ile dağıtılmaktadır
1 yorum
Hacker News görüşleri
Düzeltilmiş lisans maddelerini okuyunca güldüm. Aslında bu, eski BSD'deki reklam maddesinin eklenmiş olduğu bir MIT lisansı gibi ve aylık aktif kullanıcı ya da gelirden bağımsız olarak, üründe kullanırsan onlara bir şekilde “reklam” yapmanı istemeye yakın
Dürüst olmak gerekirse makul bir talep gibi görünüyor
Kimi K2.7-code'a oldukça basit talimatlar vererek Fil-C OpenSSL yamasını 3.3.1'den 3.5.7'ye rebase ettirdim ve başarılı olmuş gibi görünüyor
Yama boyutu 177KB idi, yani küçük bir değişiklik değildi; ayrıca ilk başta temiz şekilde uygulanmadığı için ajan epey gerçek iş yapmak zorunda kaldı
Sadece 3.3.1 hedefli yama, build komutu, 3.5.7 yolu ve değişiklik belgesi bağlantısını (https://fil-c.org/constant_time_crypto) verdim
Ancak kendi kodlama ajanım olan T800'ü kullandım; bu herkese açık değil ve daha önce K2.5 için yeterince test edilip ayarlanmış durumdaydı
API kullanım ücreti sanırım $5~$10 arasındaydı. Düzeltme: OpenSSH değil, OpenSSL
Şahsen açık modelleri ya da router'ları kullanırken belli bir seviyenin üstünde model farkını çok hissetmiyorum. Pahalı ve muğlak Gemini gibi modeller istisna
Bu açıdan Çin modelleri oldukça iyi. Genelde önce kodu fonksiyon veya metot düzeyinde yazdırıp sonra tasarlayıp birleştiren bir yaklaşımla kullanıyorum
GPT ailesi daha dikkatli ve daha iyi ama farkın devasa olduğundan emin değilim. İş akışına göre değişir ama yeterince sıkı yönetildiğinde gerçekten büyük bir fark olup olmadığını sorguluyorum
MacBook M1 Pro'yu ısıtma pedine çevirirken Qwen 3.6 35B A3B MTP çalıştırmak belli ölçüde başarılı oldu
Gemini modellerini “local” gibi kullanmaya çalışınca da benzer bir sorun yaşadım; çaba miktarını kısa kesiyor, daha çok hata yapıyor ve tur sayısını artırıyor
Buna karşılık Fable'ın ısrarla “proaktif” olduğunun söylenmesi, güçlü markalama ve etkili ücretlendirme varsa tam ters yönde gitmenin de mümkün olduğunu düşündürüyor
Tutarlı bir tasarım zaten mevcutsa, ki zor kısım bu, onu oldukça küçük modellere verince de neredeyse aynı kalite elde edilebiliyor
Tek seferde bitiremiyorlar ama daha hızlı ve ucuz oldukları için sonuçta avantaj sağlıyor. Üstelik local'de de çalışıyorlar
Bu yüzden yorum satırına alınmış testlerin build'i bozmasını açıkça sağlamak gerekiyor. Anthropic veya OpenAI modellerinde ben şahsen böyle bir sorun yaşamadım
Eskiden otomobillere “Japon arabası” denmesine benziyor; artık bunun pek anlamı kalmadı ve insanlar sadece Toyota, Honda, Lexus diyor
opencode + Kimi K2.6/2.7’yi Claude Code ile karşılaştırarak kullanan biri varsa gerçekten çok merak ediyorum. Neyin daha iyi, neyin daha kötü olduğunu ve maliyet karşılaştırmasının nasıl çıktığını bilmek istiyorum
Şu anda 5x Max planına $100 ödüyorum ama Fable kullanım limitini oldukça hızlı tüketiyor ve Opus’a kıyasla geceyle gündüz kadar fark var demek de zor
Ağırlıklı olarak yan projelerde kullandığım için $100’lık fatura da epey büyük hissettiriyor ve daha fazlasını ödemek istemiyorum
Claude Code daha iyi. Ama opencode + Kimi 2.6’nın da gayet kullanılabilir olması önemli
Ne istediğinizi net biliyorsanız ve sadece basit kod yazdırıyorsanız DeepSeek, Kimi gibi popüler modellerin çoğu yeterince iyi oluyor ve Anthropic modellerinden çok farklı hissettirmiyor
Buna karşılık Opus, niyeti DeepSeek’ten çok daha iyi anlıyor. DeepSeek kullanırken prompt’u çok daha kesin yazmak gerekiyor; kabaca yazarsanız sık sık alakasız yönlere gidiyor
Kimi ikisinin arasında. “Gevşek prompt” akışını bir ölçüde geri getiriyor ve planlarına DeepSeek’ten daha fazla güvenilebiliyor
Claude Code’a benzer bir iş akışı mümkün ama genel olarak her şey biraz daha kötü. Bağlam uzunluğu, hata sayısı, karar verme, öneriler ve hata ayıklama yeteneği hafifçe geride kalıyor
Kullanım açısından $100’lık Claude planı aslında fiyat/performans olarak iyi. Token birim fiyatında Kimi çok daha ucuz ama Claude aboneliği ciddi biçimde sübvanse ediliyor gibi, bu yüzden API’de $100’a satın alabileceğinizden çok daha fazla token veriyor
Sonuç olarak benzer kullanım kalıplarında opencode + Kimi ile Claude Code’un maliyeti birbirine yaklaşabiliyor
DeepSeek daha ucuz ve cache token’ları inanılmaz derecede hesaplı, ama Claude Code’dan geçiyorsanız alışkanlıklarınıza bağlı olarak çalışma biçiminizi uyarlamanız gerekebilir
Yan projeler için $10 Opencode Go planına OpenRouter gibi bir yerden $10 DeepSeek v4 kredisi eklemek oldukça pratik bir kurulum gibi geliyor
Kimi, mülakata giren bir geliştirici gibi hissettiriyor; bu yüzden daha eğlenceli. Sorunu nasıl akıl yürüttüğünü görmek, whiteboard oturumunda benim açıklama tarzıma benziyor. “wait” demesini fazla sık bulduğum için komik geliyor
Claude ise daha çok işe alınmış bir çalışan ya da bir çalışan ekibi gibi. Başta uzun uzun açıklama yapmıyor, sadece gerektiğinde soru sorup sonra kapsamlı bir rapor ya da plan çıkarıyor
OpenCode’un daha iyi bir harness olduğunu düşünüyorum. Maliyet konusunda ise aynı prompt’u iki tarafta da birebir koşturmadığım için doğrudan karşılaştırma yapamam
Yakın zamanda Kimi’ye ZenC programlama dili için bir libpq wrapper yaptırdım(https://github.com/nobleach/zenc-postgres); yaklaşık bir saat sürdü ve maliyeti yaklaşık $4 oldu
DeepSeek-V4-Pro fazlasıyla yeterli; Haiku veya Sonnet’e bırakılabilecek işler ya da küçük görevler için DS4-Flash kullanabilirsiniz. $10 ön ödemeyle kaydolmanız yeterli
OpenCode Go’ya ayda $5 verip Qwen-3.7-Max’i tasarım, planlama, mimari ve zor problem çözme için kullanabilirsiniz. DeepSeek’ten çok Opus 3.6 veya 3.7’ye daha yakın hissettiriyor; bulduklarım arasında en benzeri buydu
OpenAI Codex’te aylık $20 planla GPT-5.5’i API üzerinden tasarım, planlama, mimari, problem çözme ve commit yazımı için kullanabilirsiniz. Gerçekten zor problemler için $100 ödeyip GPT-5.5-Pro sohbetine kopyalayıp yapıştırabilirsiniz
Xiaomi MiMo-2.5-Pro için bir arkadaştan $2’lık tavsiye kodu alarak 72 sent ücretsiz kredi kazanabilirsiniz. Fiyatı DeepSeek ile aynı ve Sonnet ile Opus arasında bir yerde; oldukça yetenekli. UltraSpeed beta’ya da başvurulabilir
OpenCode veya ohmypi içinde bu modeller arasında anlık geçiş yaparak size en uygun olanı bulabilirsiniz. CodexBar ile kullanımı neredeyse gerçek zamanlı takip ediyorum
Hafif kullanıcılar ya da programlamaya yeni başlayanlar için Cursor’un $20 planı, Composer-2.5 ve Composer-2.5-Fast ile başlamak adına iyi. API kotası da verdiği için Cursor dışında OpenCode ya da ohmypi üzerinden Opus-4.x veya GPT-5.5-Pro’ya erişebilirsiniz
Grok veya Twitter kullanıyorsanız aylık $30’lık SuperGrok’ta iyi bir vision modeli var; bunu frontend otomatik testlerinde kullandım. Ama şu anda normal bir Mac’te yerel Qwen-3-VL’e geçiyorum. Teknik konulara daha az hâkimseniz unreach, Mac’te yerel model barındırmayı kolaylaştırıyor
RTX 5090 gibi güçlü bir GPU’nuz varsa Qwen-3.6’yı yerelde denemeye değer. ollama veya llama-swap ile nispeten kolay
Yeni Kimi’yi henüz denemedim ama 3 profesyonel geliştirici, Midjourney ve Grok Imagine’ı yoğun kullanan 1 grafik tasarımcı ve gereksinim toplama ile uygulama takibinde ohmypi kullanan 1 teknik olmayan kullanıcıdan oluşan bir ekibi kişi başı aylık $200’ın altında tutabiliyorum
Biraz daha uğraşmayla bunu kişi başı aylık $75’a daha da yaklaştırmak mümkün
Çalışmayan tek özellik webfetch ve web search; onun yerine ddg MCP ile web getirme/arama pre-hook kullanıp agent’ı dolandırarak çözdüm
Memory, caching ve geri kalan her şey düzgün çalışıyor
Qwen planlama konusunda Opus’a yakın ama Fable belirgin biçimde daha iyi
Kod yazımında ise planı Opus çıkardığında Kimi ve DeepSeek sonuçları Opus’tan neredeyse ayırt edilemez oluyor
En büyük fark çıktı ritmi. Örneğin Kimi uzun süre düşündükten sonra hızlıca çok miktarda metin üretiyor
Şu anda araştırma ve planlama için Fable’ı, kodlama içinse DeepSeek v4 flash’ı test ediyorum. Sonuçlar Opus + DeepSeek v4 pro’ya benziyor ve toplam maliyet daha düşük olacak gibi
İyi; önüme atılan işlerin çoğunu iyi hallediyor, ancak bilişsel olarak karmaşık görevlerde başarısız oluyor. Sık sık takılıyor. Yine de aylık yaklaşık $6.
“En iyi” modelin önemini yitirdiği bir eşik var ve bence o noktadan çok uzakta değiliz. Fable şu an gerçekten çok iyi, ama bir yıl kadar sonra Kimi yetişirse, Fable6 çok daha iyi olsa bile fiyatı 1/10 ise muhtemelen Kimi kullanırım
Eskiden Opus 4.5’e bakıp “Bu kadar iyiyse 6~12 ay içinde Çin modelleri de bu kadar iyi ve ucuz olur, ben de onları kullanırım” diye düşünmüştüm ama yanılmışım. Şu anda da Opus 4.7/8 ve Fable için prim ödüyorum
Yine de bir gün modeller sadece istenen işi yapan seviyeye gelecek ve o noktadan sonra fiyat düşürme rekabeti başlayacak
Artık Çinli şirketler çok iyi Fable token’larına erişebildiğine göre, umarım bu rekabet hızlanır
Bu yüzden token birim fiyatı daha yüksek olsa bile daha iyi model pratikte daha ucuz olabilir
Opus, Kimi K2.6 veya diğer Çin modellerinden 5 kat daha pahalıysa ve sadece biraz daha iyiyse, Anthropic gibi şirketlerin rekabet gücünü nasıl koruduğunu merak etmiştim
Benim varsayımım, ABD şirketlerinin verileri Çin tarafına gönderememesi ve bu anlaşılır. Ama bu gerçekten bir “hendek” mi?
Bunu Kimi modellerini epey sık kullanan ve genel olarak beğenen biri olarak söylüyorum
DeepSWE gibi henüz oyunlaştırılmamış benchmark’larda Kimi K2.6, Claude Sonnet 4.6($3/$15)’in belirgin biçimde gerisinde kalıyor ve GPT 5.4 Mini($0.75/$4.50)’nin de biraz gerisinde
Kimi modelinin birçok kodlama işinde çok iyi olduğu açık ve açık ağırlıklı modeller arasında kalite olarak en iyisi
Ancak Sonnet/Opus ile benzer toplam sonuçlar almak için ortalamada çok daha fazla token harcamak ve modeli daha fazla yönetmek gerekiyor
Token başına fiyata değil, tüm sürece ne kadar ödediğine bakmak gerekir
Ayrıca çok para harcayan tarafta değerlendirme çalıştıran yeterince rasyonel aktör var; dolayısıyla “biraz daha iyi”nin salt bir histen ibaret olmama ihtimali yüksek
Yine de benim doğrudan görebildiğim değerlendirme paketleri sınırlı. Herkes irrasyonel olabilir ve Anthropic de bundan yararlanıyor olabilir
Kimi ve diğer açık kaynak modelleri SWE-bench gibi yerlerde iyi puan alabiliyor ama gerçek kullanımda fark hissediliyor
Tuhaf biçimde herkes API fiyatlarını gerekçe göstererek Claude aboneliğinin sübvanse edildiğini söylüyor, ama gerçek Claude çıkarım maliyetini kimse bilmiyor ve Çinli sağlayıcılar da ucuz çıkarım sunabiliyor. Öyleyse Claude’un neden bunu yapamayacağını düşündüklerini merak ediyorum
Kurumsal müşteriler için kamuya açık olmayan farklı API fiyat anlaşmaları da olabilir. Bizim gördüğümüz sadece yüksek liste fiyatları olabilir
Bu tür işlerde fark uçurum gibi
Düzgün test edince bunun oldukça iyi bir iyileştirme olduğu görünüyor. Aynı işte daha az token kullanması bile, açık model gerektiğinde K2.6 yerine bunu kullanmak için yeterli sebep
DeepSeek v4’ten %20~30 kadar belirgin biçimde daha iyi olmayan yeni bir model, DeepSeek’ten token başına daha pahalıysa, neredeyse otomatik olarak az kullanılan model konumuna itilir diye düşünüyorum. Belki planlama işleri için kullanılabilir
Açık ağırlıklı/açık kaynak modelleri konusunda hâlâ çok deneyimli değilim. Bunu tam zamanlı kullanan biri varsa kurulum ve performansla ilgili deneyimlerini duymak isterim. Kurumu Anthropic ürünlerinden taşımayı düşünüyorum
Model kalitesi açısından büyük bir fark yok ama maliyet farkı akıl almaz düzeyde. En azından ajanları kullanma biçimimde durum böyle
Dün mesela, karmaşık teknik belgelerde arama yapmak için küçük bir DSL geliştiriyordum ve küçük bir operatör eklemek için Fable’ı denedim
Fable 13 dolar yaktı ve bir çözüm üretti, ama aynı işi DeepSeek v4’ün 1,7 dolara yaptığı çözümden nesnel olarak daha iyi değildi
Yalnız ben ajana parçalanmış işler veriyorum. DSL örneğinde operatörleri ben tasarladım ve ajana bunları tek tek uygulattım
Baştan karmaşık bir belge verip her şeyi tasarlamasını isteseydim Fable parlayabilirdi
Ama ajana daha geniş kapsamlı işler verdikçe milyonlarca token yakıp şüpheli kod üretti ve sonunda yine benim zaman ayırıp anlamam gerekti
Örneğin https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... gibi dosyalara bakarsanız hangi modeli kullandığımı belirtmiştim
4.7
gokodunda pek iyi değildi, bu yüzden attribution kısmındaGemini 3 Flashgörünmeye başladı4.7, Cerebras’ın sunduğu bir model ve benim için yineleme hızı çok daha önemli
MiMo v2.5.0-Pro’yu kullandıktan sonra, Gemini 3 Flash’ın yaptığı her şeyi %100 yapabileceğine eminim
Birkaç kez tıkandığımda açıklama almak için Sonnet’e başvurmam gerekti ama Anthropic ve OpenAI’ın söylemeyeceği kirli sır şu: kod yazmayı biliyorsanız modeller açıkçası yeterince iyi
MiMo deneyimime ve başkalarının GLM 5.1 değerlendirmelerine bakınca artık işin donanım rekabeti aşamasına girdiğimizi düşünüyorum
Programlama bilen ve yapay zekayla bildiklerini büyütmek isteyen biri için Çin modelleri Claude’un %100 ikamesi oluyor
Bundan sonra hangi sağlayıcının en hızlı çıkarımı verdiğine bakacağız
MiMo-v2.5.0-Pro-Ultraspeed iyi sonuçları hızlı üretiyor ve parayı da hızlı yakıyor
Başlıca istisna, yaklaşık 30B parametre civarındaki modeller; bunlar hâlâ tüketici GPU’larında çalıştırılabiliyor
Ancak tüketici GPU’ları da son birkaç yılda giderek pahalılaştı ve bunu gerekçelendirmek zorlaştı
GPT’yi de denemeye devam ediyorum; oldukça sağlam. Çok hızlı ve hata ayıklamada da harika. Ama kodu çoğu zaman gereğinden fazla zeki oluyor ve insanın başını ağrıtıyor
Belki prompt ile düzeltilebilir. Çin modellerinde biraz işe yaradı. Eski görsel yapay zeka dönemindeki “+good -bad” gibi, zarif yapmasını söylemek yeterli oluyor
Şimdilik insanın kodu anlayabilmesi gerekiyor ve bu gereksinimi tutarlı biçimde karşılayan tek model Claude
Yine de bir gün Çin laboratuvarlarından birinin özel bir formül bulmasını umuyorum
Küçük düzeltmeler için DeepSeek Flash çok iyi. Neredeyse sınırsız bir yapay zekanın doğrudan bağlı olması gibi; çok hoş
128GB belleğe sahip bir M4 Max MacBook Pro’da çalıştırıyorum
Genelde sunucu olarak ayağa kaldırıyorum; kodlama makinesinden Tailscale ile bağlanıp Pi coding agent kullanıyorum
Qwen modellerini kullandığım döneme göre büyük bir sıçrama ama vision özelliği yok; bu yüzden vision gerektiğinde hâlâ o taraftaki modelleri çalıştırıyorum
Daha önce kodlama için ana modelim GLM 4.7 flash’tı ama vision dışındaki tüm işleri tamamen DeepSeek’e taşıdım
Çin menşeli açık ağırlıklı modellerden ÇKP unsurlarını çıkarmayı deneyen biri olup olmadığını merak ediyorum. Alay etmek için sormuyorum; ağırlık dayanıklılık testi ya da kavram aktivasyonu gibi tekniklerle bunun kapsamlı biçimde incelenip incelenmediğini soruyorum
Örneğin, ÇKP gerçekten bağlama göre davranışlar yerleştirmeye çalıştıysa, aldatıcı ya da kötü niyetli davranışlara yol açabilecek girdilere nasıl tepki verdiğine bakmak gibi
ABD devlet uygulamalarında kullanılınca zafiyetli kod ürettiği iddiası gibi şeylerin gerçekten kanıtlanıp kanıtlanmadığını bilmiyorum
Jeopolitik rekabetin yoğun olduğu bir dönemde bu tür sorular mantıksız değil. Hangi ülkede yaşarsanız yaşayın geçerli bir soru
Bu bir Alman danışmanlık şirketi; DeepSeek modellerini ayarlayıp önyargıları giderdiklerine dair bir sunumlarını görmüştüm. Oldukça ilginçti
https://www.tngtech.com/en/about-us/news/release-of-deepseek...
Endişe edilmesi gereken tek şey kod değil; olası mesajlaşma gibi başka unsurlar da var
https://github.com/p-e-w/heretic