- 196 milyar parametrenin yalnızca 11 milyarını etkinleştiren seyrek Mixture of Experts mimarisi ile yüksek hızlı çıkarım ve gerçek zamanlı etkileşimi destekler
- Saniyede en fazla 350 token üretim hızı ve 256K context window sunar
- SWE-bench Verified %74,4 ile kodlama ve ajan benchmark'larında istikrarlı performans gösterirken, yerel ortamlarda (Mac Studio M4 Max, NVIDIA DGX Spark) da çalışabilir
- Araç kullanımına dayalı çıkarım ve çok ajanlı orkestrasyon sayesinde finans, veri analizi, araştırma otomasyonu gibi gerçek iş senaryolarında yüksek güvenilirlik ve uygulama gücü kanıtlar
- Pekiştirmeli öğrenme tabanlı MIS-PO optimizasyon tekniği ile uzun vadeli çıkarım kararlılığı sağlar ve yüksek performanslı modellere kıyasla daha düşük maliyetle frontier düzeyi çıkarım ve eylem yeteneği sunar
Model genel bakışı ve performans
- Step 3.5 Flash, yüksek hızlı çıkarım ile ajan yeteneklerini birleştiren açık kaynak tabanlı bir foundation model olup ortalama benchmark puanı olarak 81,0 kaydeder
- GLM-4.7 (78,5), DeepSeek V3.2 (77,3), Kimi K2.5 (80,5) gibi başlıca modellerden daha yüksek ortalama puan
- Seyrek MoE mimarisi ile 196B içinden yalnızca 11B parametre etkinleşir; verimli hesaplama sayesinde gerçek zamanlı yanıt mümkün olur
- MTP-3 tabanında genel kullanımda 100~300 tok/s, kodlama görevlerinde ise en fazla 350 tok/s üretim hızına ulaşır
- SWE-bench Verified %74,4, Terminal-Bench 2.0 %51,0 ile uzun süreli kod ve ajan görevlerinde istikrarlı performans sağlar
- 256K context window, 3:1 SWA yapısıyla uygulanarak uzun bağlamlarda da maliyet verimliliği korunur
Gerçek kullanım örnekleri ve araç kullanımı
- Araç tabanlı çıkarım (tool-augmented reasoning) ile matematik, kodlama ve veri analizinde performans artışı sağlar
- Python çalıştırma entegrasyonu ile AIME 2025 (99,8), HMMT 2025 (98,0), IMOAnswerBench (86,7) gibi ölçümlerde daha yüksek puanlar elde eder
- Hisse senedi yatırım senaryosunda 80'den fazla MCP aracını birleştirerek veri toplama, analiz ve bildirim otomasyonu yürütür
- Autonomous Business Intelligence Engine, CSV işlemeden tahmine kadar süreci otomatikleştirir ve veri kalitesi farkını (1,6 kat) tespit eder
- Large-Scale Repository Architect, büyük ölçekli kod tabanlarını analiz ederek tasarım kalıpları ile uygulama ayrıntılarını bağlayan uzman bir wiki oluşturur
Araştırma ve ajan performansı
- ResearchRubrics benchmark'ında %65,3 ile Gemini DeepResearch (%63,7) ve OpenAI DeepResearch'ten (%60,7) daha yüksek puan alır
- Tek bir ReAct tabanlı döngüde planlama, arama, doğrulama ve yazım süreçlerini yürütür
- Claude Code ortamında veri analizi benchmark'ında %39,6 elde ederek GPT-5.2'nin (%39,3) az farkla önüne geçer
- Multi-Agent Framework üzerinden Master Agent, arama, doğrulama ve özetleme ajanlarını koordine ederek yapılandırılmış sonuçlar üretir
- Cloud-Device Synergy ile Step-GUI entegrasyonunda AndroidDaily Hard benchmark'ında 57 puan alır (tek başına 40 puana kıyasla)
Mimari ve teknik özellikler
- Sparse MoE omurgası, küresel kapasiteyi (196B) ve token başına hesaplamayı (11B) ayırarak çıkarım maliyetini ve hızını optimize eder
- Sliding-Window Attention + Full Attention (3:1) yapısı, uzun bağlam işlenirken verimliliği korur
- Head-wise Gated Attention ile bilgi akışı dinamik olarak kontrol edilerek sayısal kararlılık sağlanır
- NVIDIA Hopper GPU üzerinde 350 tok/s decoding throughput elde edilir
- INT4 GGUF quantized model ile yerel çıkarım (20 tok/s, 256K context) desteklenir
Pekiştirmeli öğrenme çerçevesi
- Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO) kullanıma alınmıştır
- importance sampling yerine ikili filtreleme ile kararsız örnekler ayıklanır
- truncation-aware value bootstrapping ve routing confidence monitoring ile uzun vadeli çıkarım kararlılığı güçlendirilir
- Bu yapı, matematik, kodlama ve araç kullanımı genelinde sürekli öz-iyileştirmeyi mümkün kılar
Benchmark karşılaştırması
- Step 3.5 Flash, Reasoning, Coding ve Agentic olmak üzere üç alanda dengeli ve üst düzey performans sergiler
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
- Decoding maliyeti, 128K context bazında 1.0x olup DeepSeek V3.2 (6.0x) ve Kimi K2.5'e (18.9x) göre daha verimlidir
Sınırlamalar ve gelecekteki yönelim
- Token verimliliği: Gemini 3.0 Pro'ya kıyasla aynı kalite için daha uzun üretim gerekir
- Uzmanlığın entegrasyonu: genellik ile uzmanlığın verimli birleşimi için on-policy distillation araştırmaları sürüyor
- Ajan odaklı RL genişlemesi: RL uygulamasının uzman iş ve araştırma düzeyindeki karmaşık görevlere genişletilmesi planlanıyor
- Operasyonel kararlılık: uzun diyaloglarda veya alan değişimlerinde yinelemeli çıkarım ya da karışık dil çıktısı oluşabilir
Dağıtım ve erişilebilirlik
- OpenClaw platformu ile entegre olduğundan basit kurulum ve model kaydıyla kullanılabilir
- API platformu (İngilizce/Çince), web ve mobil uygulamalar (iOS/Android) üzerinden erişilebilir
- Discord topluluğu aracılığıyla güncellemeler ve destek sağlanır
2 yorum
Bu model bayağı iyi.
İmkanı olup bunu
llama.cppile çalıştıracak olanların, aşağıdaki başlıktaki yorumda yer alan promptu ayrıca uygulaması gerekiyor. Aksi halde açılışta<think>olmadan ortada tek başına bir</think>çıkması gibi bir sorun var.https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…
Hacker News yorumları
Son birkaç ayda çıkan LLM'ler arasında en hafife alınmış sürümlerden biri olduğunu düşünüyorum
Yerelde 4-bit quant sürümüyle(Step-3.5-Flash-GGUF) test ettim ve Minimax 2.5 ile GLM-4.7'den daha iyiydi (GLM yalnızca 2-bit olarak çalışıyordu)
Başlıca özellikleri şunlar
200B parametre sınıfındaki modeller arasında CLI harness içinde gerçekten kullanılabilir ilk yerel model. Bunu pi.dev ile birlikte kullanıyorum ve şimdiye kadarki en iyi deneyimdi
Eksileri arasında bir sonsuz çıkarım döngüsü hatası var (ilgili issue)
Görünüşe göre StepFun, ACEStep'i de (müzik üretim modeli) yapan şirket ve ComfyUI belgelerinde de bundan bahsediliyor
Bazen tool çağrısını yanlış yapıyor ama Qwen'in önerdiği temperature=1 ayarında takılıp kalmıyor
Nemotron 3 Nano ise tool kullanımında zayıftı ve çoğu zaman yalnızca shell tool kullanma eğilimindeydi
Genel olarak agentic open weight modellerin, aşina olmadıkları tool'ları çağırmakta zorlandığı görülüyor
Bunu hesaplayan biri var mı diye sormak istiyorum
Bence bu, model ağırlıklarının kendisini düzeltmeyi gerektiren bir sorun gibi duruyor
gpt-oss 120bve20bde Codex ile iyi çalıştıYakın zamanda “Walk or drive to the carwash” hilesinin akıl yürütme sürecini (reasoning) ilgi çekici buldum
İlgili bağlantılar: gist, stepfun.ai sohbeti
Terminal-Bench 2.0'da %51,0 aldığı söyleniyor ama bunun gerçekten 'istikrarlı uzun görev yürütme yeteneğini' garanti edip etmediğinden emin değilim
Lider tablosuna bakarsanız en yüksek skor %75, dolayısıyla %51 yaklaşık olarak SOTA'nın ⅔ seviyesinde
Model sadece komut bayraklarını ezberlemiş olabilir
Test ettiğimde halüsinasyon seviyesi yüksekti. “Pokemon şampiyon destesi bul” gibi basit sorularda bile isabetsizdi
Opus 4.6, Deepseek ve Kimi ise beklendiği gibi iyi çalıştı
Yakın zamanda yayımlanan bir model ve Mixture of Experts (MoE) mimarisi kullanarak token başına 196B içinden yalnızca 11B'yi etkinleştiriyor
Kimi K2.5 ve GLM 4.7'ye göre daha fazla benchmark'ta önde
128GB makinede bile 4-bit quant sürümü çalıştırılabiliyor (referans bağlantı)
Model sayfasına bakabilirsiniz
Son dönemde modeller benchmark puanlarında yükselirken buna token kullanımında patlama eşlik ediyor
Gerçek yenilik için enerji verimliliği sorununun çözülmesi gerekiyor
MoE mimarisinin verimli kullanımı hem tokens/joule hem de tokens/sec üzerinde etkili oluyor
SWE-bench Verified iyi ama daha iyi bir SWE benchmark'ına ihtiyaç var
Adil bir benchmark oluşturmak, sürekli yürütme maliyetleri nedeniyle pahalıya mal oluyor
“Canlı benchmark” fikri güzel ama en yeni modelleri yeterince yansıtamıyor
Belge bağlantısı
Parametre sayısından çok dolar/saniye başına token daha önemli bir metrik bence
Çünkü en üst düzey modeller yerel çıkarımı desteklemiyor
Örneğin Qwen3 0.6b, tok/dollar açısından harika ama çoğu kullanım senaryosu için yetersiz
Basit testlerde birkaç gözlemim oldu
Grafikteki x ekseni ters çevrilmişti, bu yüzden kafa karıştırıcıydı