Step 3.5 Flash – Yüksek hızlı çıkarımı destekleyen açık kaynaklı LLM

(static.stepfun.com)

20 puan yazan GN⁺ 2026-02-20 | 2 yorum | WhatsApp'ta paylaş

196 milyar parametrenin yalnızca 11 milyarını etkinleştiren seyrek Mixture of Experts mimarisi ile yüksek hızlı çıkarım ve gerçek zamanlı etkileşimi destekler
Saniyede en fazla 350 token üretim hızı ve 256K context window sunar
SWE-bench Verified %74,4 ile kodlama ve ajan benchmark'larında istikrarlı performans gösterirken, yerel ortamlarda (Mac Studio M4 Max, NVIDIA DGX Spark) da çalışabilir
Araç kullanımına dayalı çıkarım ve çok ajanlı orkestrasyon sayesinde finans, veri analizi, araştırma otomasyonu gibi gerçek iş senaryolarında yüksek güvenilirlik ve uygulama gücü kanıtlar
Pekiştirmeli öğrenme tabanlı MIS-PO optimizasyon tekniği ile uzun vadeli çıkarım kararlılığı sağlar ve yüksek performanslı modellere kıyasla daha düşük maliyetle frontier düzeyi çıkarım ve eylem yeteneği sunar

Model genel bakışı ve performans

Step 3.5 Flash, yüksek hızlı çıkarım ile ajan yeteneklerini birleştiren açık kaynak tabanlı bir foundation model olup ortalama benchmark puanı olarak 81,0 kaydeder
- GLM-4.7 (78,5), DeepSeek V3.2 (77,3), Kimi K2.5 (80,5) gibi başlıca modellerden daha yüksek ortalama puan
Seyrek MoE mimarisi ile 196B içinden yalnızca 11B parametre etkinleşir; verimli hesaplama sayesinde gerçek zamanlı yanıt mümkün olur
MTP-3 tabanında genel kullanımda 100~300 tok/s, kodlama görevlerinde ise en fazla 350 tok/s üretim hızına ulaşır
SWE-bench Verified %74,4, Terminal-Bench 2.0 %51,0 ile uzun süreli kod ve ajan görevlerinde istikrarlı performans sağlar
256K context window, 3:1 SWA yapısıyla uygulanarak uzun bağlamlarda da maliyet verimliliği korunur

Gerçek kullanım örnekleri ve araç kullanımı

Araç tabanlı çıkarım (tool-augmented reasoning) ile matematik, kodlama ve veri analizinde performans artışı sağlar
- Python çalıştırma entegrasyonu ile AIME 2025 (99,8), HMMT 2025 (98,0), IMOAnswerBench (86,7) gibi ölçümlerde daha yüksek puanlar elde eder
Hisse senedi yatırım senaryosunda 80'den fazla MCP aracını birleştirerek veri toplama, analiz ve bildirim otomasyonu yürütür
Autonomous Business Intelligence Engine, CSV işlemeden tahmine kadar süreci otomatikleştirir ve veri kalitesi farkını (1,6 kat) tespit eder
Large-Scale Repository Architect, büyük ölçekli kod tabanlarını analiz ederek tasarım kalıpları ile uygulama ayrıntılarını bağlayan uzman bir wiki oluşturur

Araştırma ve ajan performansı

ResearchRubrics benchmark'ında %65,3 ile Gemini DeepResearch (%63,7) ve OpenAI DeepResearch'ten (%60,7) daha yüksek puan alır
- Tek bir ReAct tabanlı döngüde planlama, arama, doğrulama ve yazım süreçlerini yürütür
Claude Code ortamında veri analizi benchmark'ında %39,6 elde ederek GPT-5.2'nin (%39,3) az farkla önüne geçer
Multi-Agent Framework üzerinden Master Agent, arama, doğrulama ve özetleme ajanlarını koordine ederek yapılandırılmış sonuçlar üretir
Cloud-Device Synergy ile Step-GUI entegrasyonunda AndroidDaily Hard benchmark'ında 57 puan alır (tek başına 40 puana kıyasla)

Mimari ve teknik özellikler

Sparse MoE omurgası, küresel kapasiteyi (196B) ve token başına hesaplamayı (11B) ayırarak çıkarım maliyetini ve hızını optimize eder
Sliding-Window Attention + Full Attention (3:1) yapısı, uzun bağlam işlenirken verimliliği korur
Head-wise Gated Attention ile bilgi akışı dinamik olarak kontrol edilerek sayısal kararlılık sağlanır
NVIDIA Hopper GPU üzerinde 350 tok/s decoding throughput elde edilir
INT4 GGUF quantized model ile yerel çıkarım (20 tok/s, 256K context) desteklenir

Pekiştirmeli öğrenme çerçevesi

Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO) kullanıma alınmıştır
- importance sampling yerine ikili filtreleme ile kararsız örnekler ayıklanır
- truncation-aware value bootstrapping ve routing confidence monitoring ile uzun vadeli çıkarım kararlılığı güçlendirilir
Bu yapı, matematik, kodlama ve araç kullanımı genelinde sürekli öz-iyileştirmeyi mümkün kılar

Benchmark karşılaştırması

Step 3.5 Flash, Reasoning, Coding ve Agentic olmak üzere üç alanda dengeli ve üst düzey performans sergiler
- AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
- τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
Decoding maliyeti, 128K context bazında 1.0x olup DeepSeek V3.2 (6.0x) ve Kimi K2.5'e (18.9x) göre daha verimlidir

Sınırlamalar ve gelecekteki yönelim

Token verimliliği: Gemini 3.0 Pro'ya kıyasla aynı kalite için daha uzun üretim gerekir
Uzmanlığın entegrasyonu: genellik ile uzmanlığın verimli birleşimi için on-policy distillation araştırmaları sürüyor
Ajan odaklı RL genişlemesi: RL uygulamasının uzman iş ve araştırma düzeyindeki karmaşık görevlere genişletilmesi planlanıyor
Operasyonel kararlılık: uzun diyaloglarda veya alan değişimlerinde yinelemeli çıkarım ya da karışık dil çıktısı oluşabilir

Dağıtım ve erişilebilirlik

OpenClaw platformu ile entegre olduğundan basit kurulum ve model kaydıyla kullanılabilir
API platformu (İngilizce/Çince), web ve mobil uygulamalar (iOS/Android) üzerinden erişilebilir
Discord topluluğu aracılığıyla güncellemeler ve destek sağlanır

2 yorum

sftblw 2026-02-20

Bu model bayağı iyi.
İmkanı olup bunu llama.cpp ile çalıştıracak olanların, aşağıdaki başlıktaki yorumda yer alan promptu ayrıca uygulaması gerekiyor. Aksi halde açılışta <think> olmadan ortada tek başına bir </think> çıkması gibi bir sorun var.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file 경로/step3p5_flash_chat_template.jinja

GN⁺ 2026-02-20

Hacker News yorumları

Son birkaç ayda çıkan LLM'ler arasında en hafife alınmış sürümlerden biri olduğunu düşünüyorum
Yerelde 4-bit quant sürümüyle(Step-3.5-Flash-GGUF) test ettim ve Minimax 2.5 ile GLM-4.7'den daha iyiydi (GLM yalnızca 2-bit olarak çalışıyordu)
Başlıca özellikleri şunlar
- Bağlam verimliliği çok yüksek. 128GB Mac'te 256k bağlamın tamamı ya da aynı anda 128k'lık iki akış çalıştırılabiliyor
- M1 Ultra'da da hız iyi (36 t/s tg, 300 t/s pp) ve bağlam büyüse bile hız düşüşü sınırlı kalıyor
- Agentic coding için optimize edilmiş ve Claude code ile uyumlu olacak şekilde eğitilmiş gibi görünüyor. Tek istisna, patch düzenleme aracı sorunları yüzünden Codex
  200B parametre sınıfındaki modeller arasında CLI harness içinde gerçekten kullanılabilir ilk yerel model. Bunu pi.dev ile birlikte kullanıyorum ve şimdiye kadarki en iyi deneyimdi
  Eksileri arasında bir sonsuz çıkarım döngüsü hatası var (ilgili issue)
  Görünüşe göre StepFun, ACEStep'i de (müzik üretim modeli) yapan şirket ve ComfyUI belgelerinde de bundan bahsediliyor
- Qwen3 Coder Next'i OpenCode ile test ettim ve oldukça iyi çalıştı
  Bazen tool çağrısını yanlış yapıyor ama Qwen'in önerdiği temperature=1 ayarında takılıp kalmıyor
  Nemotron 3 Nano ise tool kullanımında zayıftı ve çoğu zaman yalnızca shell tool kullanma eğilimindeydi
  Genel olarak agentic open weight modellerin, aşina olmadıkları tool'ları çağırmakta zorlandığı görülüyor
- M3 Ultra (512GB RAM) ile OSS modelleri çalıştırmanın Claude ya da Codex aboneliğinden daha ekonomik olup olmadığını merak ediyorum
  Bunu hesaplayan biri var mı diye sormak istiyorum
- Sonsuz çıkarım döngüsü sorununu çıkarım motorunu değiştirerek çözmenin mümkün olup olmadığını merak ediyorum
  Bence bu, model ağırlıklarının kendisini düzeltmeyi gerektiren bir sorun gibi duruyor
- Bunu MLX sürümünde çalıştıran oldu mu merak ediyorum. Teoride daha hızlı olmalı ama birden fazla sürüm indirme fikri beni tereddütte bırakıyor
- gpt-oss 120b ve 20b de Codex ile iyi çalıştı
Yakın zamanda “Walk or drive to the carwash” hilesinin akıl yürütme sürecini (reasoning) ilgi çekici buldum
İlgili bağlantılar: gist, stepfun.ai sohbeti
Terminal-Bench 2.0'da %51,0 aldığı söyleniyor ama bunun gerçekten 'istikrarlı uzun görev yürütme yeteneğini' garanti edip etmediğinden emin değilim
- Tek başına %51 çok anlamlı bir sayı değil. Bu tür benchmark'lar mutlak puan ölçeği kullanır; %100 insan seviyesini ifade etmez
  Lider tablosuna bakarsanız en yüksek skor %75, dolayısıyla %51 yaklaşık olarak SOTA'nın ⅔ seviyesinde
- Bu puan Gemini 3 Flash ile benzer ama pratikte skoru modelden çok ajan kurgusu etkiliyor gibi görünüyor
- TerminalBench, adının aksine terminalle pek ilgili değil; daha çok rastgele tool sözdizimi testlerine benziyor
  Model sadece komut bayraklarını ezberlemiş olabilir
Test ettiğimde halüsinasyon seviyesi yüksekti. “Pokemon şampiyon destesi bul” gibi basit sorularda bile isabetsizdi
Opus 4.6, Deepseek ve Kimi ise beklendiği gibi iyi çalıştı
- Üretim amaçlı kullanım için orta boy modelleri kullanmanın daha iyi olduğunu düşünüyorum
- Gemini gibi modeller arama özelliğini agresif şekilde kullandığı için daha hızlı ve daha doğru olmuş olabilir
Yakın zamanda yayımlanan bir model ve Mixture of Experts (MoE) mimarisi kullanarak token başına 196B içinden yalnızca 11B'yi etkinleştiriyor
Kimi K2.5 ve GLM 4.7'ye göre daha fazla benchmark'ta önde
128GB makinede bile 4-bit quant sürümü çalıştırılabiliyor (referans bağlantı)
- Benchmark üstünlüğünün pratikte ne kadar anlamlı olduğundan emin değilim. Benim için talimat takibi, uzun bağlam akıl yürütmesi ve halüsinasyonsuzluk daha önemli
- Q4_K_S(116GB), IQ4_NL(112GB) ve Q4_0(113GB) arasında hangisinin daha iyi olduğunu merak ediyorum
  Model sayfasına bakabilirsiniz
Son dönemde modeller benchmark puanlarında yükselirken buna token kullanımında patlama eşlik ediyor
Gerçek yenilik için enerji verimliliği sorununun çözülmesi gerekiyor
- Sadece token sayısı değil, token başına enerji verimliliği (tokens/joule) de önemli
  MoE mimarisinin verimli kullanımı hem tokens/joule hem de tokens/sec üzerinde etkili oluyor
SWE-bench Verified iyi ama daha iyi bir SWE benchmark'ına ihtiyaç var
Adil bir benchmark oluşturmak, sürekli yürütme maliyetleri nedeniyle pahalıya mal oluyor
“Canlı benchmark” fikri güzel ama en yeni modelleri yeterince yansıtamıyor
- Terminal Bench 3.0 geliştirmesine katkı verme çağrısı vardı
  Belge bağlantısı
Parametre sayısından çok dolar/saniye başına token daha önemli bir metrik bence
Çünkü en üst düzey modeller yerel çıkarımı desteklemiyor
- Ancak açık kaynak bir model söz konusuysa, self-hosting düşünenler için parametre sayısı da önemli
- Parametre sayısı hâlâ model performansının kabaca bir göstergesi
  Örneğin Qwen3 0.6b, tok/dollar açısından harika ama çoğu kullanım senaryosu için yetersiz
- Bu modelin önemi, $3.000 altındaki makinelerde bile yerelde çalıştırılabilmesi
Basit testlerde birkaç gözlemim oldu
1. Çıktı trace'i çok uzundu ve LinkedIn tarzı kısa paragraflardan oluşuyordu
2. Hosted sürümün token çıktı hızı çok yüksekti
3. Talimat uyumu ve çıktı kalitesi, Opus 4.5 gibi başlıca modellere göre daha üstündü
Grafikteki x ekseni ters çevrilmişti, bu yüzden kafa karıştırıcıydı
- Ben de aynı şeyi düşündüm. Neden böyle yaptıklarını bilmiyorum
- Muhtemelen grafiği daha iyi göstermek istediler ama aslında öyle olmuyor