20 puan yazan GN⁺ 2026-02-20 | 2 yorum | WhatsApp'ta paylaş
  • 196 milyar parametrenin yalnızca 11 milyarını etkinleştiren seyrek Mixture of Experts mimarisi ile yüksek hızlı çıkarım ve gerçek zamanlı etkileşimi destekler
  • Saniyede en fazla 350 token üretim hızı ve 256K context window sunar
  • SWE-bench Verified %74,4 ile kodlama ve ajan benchmark'larında istikrarlı performans gösterirken, yerel ortamlarda (Mac Studio M4 Max, NVIDIA DGX Spark) da çalışabilir
  • Araç kullanımına dayalı çıkarım ve çok ajanlı orkestrasyon sayesinde finans, veri analizi, araştırma otomasyonu gibi gerçek iş senaryolarında yüksek güvenilirlik ve uygulama gücü kanıtlar
  • Pekiştirmeli öğrenme tabanlı MIS-PO optimizasyon tekniği ile uzun vadeli çıkarım kararlılığı sağlar ve yüksek performanslı modellere kıyasla daha düşük maliyetle frontier düzeyi çıkarım ve eylem yeteneği sunar

Model genel bakışı ve performans

  • Step 3.5 Flash, yüksek hızlı çıkarım ile ajan yeteneklerini birleştiren açık kaynak tabanlı bir foundation model olup ortalama benchmark puanı olarak 81,0 kaydeder
    • GLM-4.7 (78,5), DeepSeek V3.2 (77,3), Kimi K2.5 (80,5) gibi başlıca modellerden daha yüksek ortalama puan
  • Seyrek MoE mimarisi ile 196B içinden yalnızca 11B parametre etkinleşir; verimli hesaplama sayesinde gerçek zamanlı yanıt mümkün olur
  • MTP-3 tabanında genel kullanımda 100~300 tok/s, kodlama görevlerinde ise en fazla 350 tok/s üretim hızına ulaşır
  • SWE-bench Verified %74,4, Terminal-Bench 2.0 %51,0 ile uzun süreli kod ve ajan görevlerinde istikrarlı performans sağlar
  • 256K context window, 3:1 SWA yapısıyla uygulanarak uzun bağlamlarda da maliyet verimliliği korunur

Gerçek kullanım örnekleri ve araç kullanımı

  • Araç tabanlı çıkarım (tool-augmented reasoning) ile matematik, kodlama ve veri analizinde performans artışı sağlar
    • Python çalıştırma entegrasyonu ile AIME 2025 (99,8), HMMT 2025 (98,0), IMOAnswerBench (86,7) gibi ölçümlerde daha yüksek puanlar elde eder
  • Hisse senedi yatırım senaryosunda 80'den fazla MCP aracını birleştirerek veri toplama, analiz ve bildirim otomasyonu yürütür
  • Autonomous Business Intelligence Engine, CSV işlemeden tahmine kadar süreci otomatikleştirir ve veri kalitesi farkını (1,6 kat) tespit eder
  • Large-Scale Repository Architect, büyük ölçekli kod tabanlarını analiz ederek tasarım kalıpları ile uygulama ayrıntılarını bağlayan uzman bir wiki oluşturur

Araştırma ve ajan performansı

  • ResearchRubrics benchmark'ında %65,3 ile Gemini DeepResearch (%63,7) ve OpenAI DeepResearch'ten (%60,7) daha yüksek puan alır
    • Tek bir ReAct tabanlı döngüde planlama, arama, doğrulama ve yazım süreçlerini yürütür
  • Claude Code ortamında veri analizi benchmark'ında %39,6 elde ederek GPT-5.2'nin (%39,3) az farkla önüne geçer
  • Multi-Agent Framework üzerinden Master Agent, arama, doğrulama ve özetleme ajanlarını koordine ederek yapılandırılmış sonuçlar üretir
  • Cloud-Device Synergy ile Step-GUI entegrasyonunda AndroidDaily Hard benchmark'ında 57 puan alır (tek başına 40 puana kıyasla)

Mimari ve teknik özellikler

  • Sparse MoE omurgası, küresel kapasiteyi (196B) ve token başına hesaplamayı (11B) ayırarak çıkarım maliyetini ve hızını optimize eder
  • Sliding-Window Attention + Full Attention (3:1) yapısı, uzun bağlam işlenirken verimliliği korur
  • Head-wise Gated Attention ile bilgi akışı dinamik olarak kontrol edilerek sayısal kararlılık sağlanır
  • NVIDIA Hopper GPU üzerinde 350 tok/s decoding throughput elde edilir
  • INT4 GGUF quantized model ile yerel çıkarım (20 tok/s, 256K context) desteklenir

Pekiştirmeli öğrenme çerçevesi

  • Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO) kullanıma alınmıştır
    • importance sampling yerine ikili filtreleme ile kararsız örnekler ayıklanır
    • truncation-aware value bootstrapping ve routing confidence monitoring ile uzun vadeli çıkarım kararlılığı güçlendirilir
  • Bu yapı, matematik, kodlama ve araç kullanımı genelinde sürekli öz-iyileştirmeyi mümkün kılar

Benchmark karşılaştırması

  • Step 3.5 Flash, Reasoning, Coding ve Agentic olmak üzere üç alanda dengeli ve üst düzey performans sergiler
    • AIME 2025: 97.3 / HMMT 2025: 98.4 / LiveCodeBench-V6: 86.4
    • τ²-Bench: 88.2 / BrowseComp-ZH: 66.9 / ResearchRubrics: 65.3
  • Decoding maliyeti, 128K context bazında 1.0x olup DeepSeek V3.2 (6.0x) ve Kimi K2.5'e (18.9x) göre daha verimlidir

Sınırlamalar ve gelecekteki yönelim

  • Token verimliliği: Gemini 3.0 Pro'ya kıyasla aynı kalite için daha uzun üretim gerekir
  • Uzmanlığın entegrasyonu: genellik ile uzmanlığın verimli birleşimi için on-policy distillation araştırmaları sürüyor
  • Ajan odaklı RL genişlemesi: RL uygulamasının uzman iş ve araştırma düzeyindeki karmaşık görevlere genişletilmesi planlanıyor
  • Operasyonel kararlılık: uzun diyaloglarda veya alan değişimlerinde yinelemeli çıkarım ya da karışık dil çıktısı oluşabilir

Dağıtım ve erişilebilirlik

  • OpenClaw platformu ile entegre olduğundan basit kurulum ve model kaydıyla kullanılabilir
  • API platformu (İngilizce/Çince), web ve mobil uygulamalar (iOS/Android) üzerinden erişilebilir
  • Discord topluluğu aracılığıyla güncellemeler ve destek sağlanır

2 yorum

 
sftblw 2026-02-20

Bu model bayağı iyi.
İmkanı olup bunu llama.cpp ile çalıştıracak olanların, aşağıdaki başlıktaki yorumda yer alan promptu ayrıca uygulaması gerekiyor. Aksi halde açılışta <think> olmadan ortada tek başına bir </think> çıkması gibi bir sorun var.
https://huggingface.co/stepfun-ai/Step-3.5-Flash-GGUF-Q4_K_S/…

llama-server \  
  옵션생략 \  
  --jinja \  
  --chat-template-file 경로/step3p5_flash_chat_template.jinja  
 
GN⁺ 2026-02-20
Hacker News yorumları
  • Son birkaç ayda çıkan LLM'ler arasında en hafife alınmış sürümlerden biri olduğunu düşünüyorum
    Yerelde 4-bit quant sürümüyle(Step-3.5-Flash-GGUF) test ettim ve Minimax 2.5 ile GLM-4.7'den daha iyiydi (GLM yalnızca 2-bit olarak çalışıyordu)
    Başlıca özellikleri şunlar

    • Bağlam verimliliği çok yüksek. 128GB Mac'te 256k bağlamın tamamı ya da aynı anda 128k'lık iki akış çalıştırılabiliyor
    • M1 Ultra'da da hız iyi (36 t/s tg, 300 t/s pp) ve bağlam büyüse bile hız düşüşü sınırlı kalıyor
    • Agentic coding için optimize edilmiş ve Claude code ile uyumlu olacak şekilde eğitilmiş gibi görünüyor. Tek istisna, patch düzenleme aracı sorunları yüzünden Codex
      200B parametre sınıfındaki modeller arasında CLI harness içinde gerçekten kullanılabilir ilk yerel model. Bunu pi.dev ile birlikte kullanıyorum ve şimdiye kadarki en iyi deneyimdi
      Eksileri arasında bir sonsuz çıkarım döngüsü hatası var (ilgili issue)
      Görünüşe göre StepFun, ACEStep'i de (müzik üretim modeli) yapan şirket ve ComfyUI belgelerinde de bundan bahsediliyor
    • Qwen3 Coder Next'i OpenCode ile test ettim ve oldukça iyi çalıştı
      Bazen tool çağrısını yanlış yapıyor ama Qwen'in önerdiği temperature=1 ayarında takılıp kalmıyor
      Nemotron 3 Nano ise tool kullanımında zayıftı ve çoğu zaman yalnızca shell tool kullanma eğilimindeydi
      Genel olarak agentic open weight modellerin, aşina olmadıkları tool'ları çağırmakta zorlandığı görülüyor
    • M3 Ultra (512GB RAM) ile OSS modelleri çalıştırmanın Claude ya da Codex aboneliğinden daha ekonomik olup olmadığını merak ediyorum
      Bunu hesaplayan biri var mı diye sormak istiyorum
    • Sonsuz çıkarım döngüsü sorununu çıkarım motorunu değiştirerek çözmenin mümkün olup olmadığını merak ediyorum
      Bence bu, model ağırlıklarının kendisini düzeltmeyi gerektiren bir sorun gibi duruyor
    • Bunu MLX sürümünde çalıştıran oldu mu merak ediyorum. Teoride daha hızlı olmalı ama birden fazla sürüm indirme fikri beni tereddütte bırakıyor
    • gpt-oss 120b ve 20b de Codex ile iyi çalıştı
  • Yakın zamanda “Walk or drive to the carwash” hilesinin akıl yürütme sürecini (reasoning) ilgi çekici buldum
    İlgili bağlantılar: gist, stepfun.ai sohbeti

  • Terminal-Bench 2.0'da %51,0 aldığı söyleniyor ama bunun gerçekten 'istikrarlı uzun görev yürütme yeteneğini' garanti edip etmediğinden emin değilim

    • Tek başına %51 çok anlamlı bir sayı değil. Bu tür benchmark'lar mutlak puan ölçeği kullanır; %100 insan seviyesini ifade etmez
      Lider tablosuna bakarsanız en yüksek skor %75, dolayısıyla %51 yaklaşık olarak SOTA'nın ⅔ seviyesinde
    • Bu puan Gemini 3 Flash ile benzer ama pratikte skoru modelden çok ajan kurgusu etkiliyor gibi görünüyor
    • TerminalBench, adının aksine terminalle pek ilgili değil; daha çok rastgele tool sözdizimi testlerine benziyor
      Model sadece komut bayraklarını ezberlemiş olabilir
  • Test ettiğimde halüsinasyon seviyesi yüksekti. “Pokemon şampiyon destesi bul” gibi basit sorularda bile isabetsizdi
    Opus 4.6, Deepseek ve Kimi ise beklendiği gibi iyi çalıştı

    • Üretim amaçlı kullanım için orta boy modelleri kullanmanın daha iyi olduğunu düşünüyorum
    • Gemini gibi modeller arama özelliğini agresif şekilde kullandığı için daha hızlı ve daha doğru olmuş olabilir
  • Yakın zamanda yayımlanan bir model ve Mixture of Experts (MoE) mimarisi kullanarak token başına 196B içinden yalnızca 11B'yi etkinleştiriyor
    Kimi K2.5 ve GLM 4.7'ye göre daha fazla benchmark'ta önde
    128GB makinede bile 4-bit quant sürümü çalıştırılabiliyor (referans bağlantı)

    • Benchmark üstünlüğünün pratikte ne kadar anlamlı olduğundan emin değilim. Benim için talimat takibi, uzun bağlam akıl yürütmesi ve halüsinasyonsuzluk daha önemli
    • Q4_K_S(116GB), IQ4_NL(112GB) ve Q4_0(113GB) arasında hangisinin daha iyi olduğunu merak ediyorum
      Model sayfasına bakabilirsiniz
  • Son dönemde modeller benchmark puanlarında yükselirken buna token kullanımında patlama eşlik ediyor
    Gerçek yenilik için enerji verimliliği sorununun çözülmesi gerekiyor

    • Sadece token sayısı değil, token başına enerji verimliliği (tokens/joule) de önemli
      MoE mimarisinin verimli kullanımı hem tokens/joule hem de tokens/sec üzerinde etkili oluyor
  • SWE-bench Verified iyi ama daha iyi bir SWE benchmark'ına ihtiyaç var
    Adil bir benchmark oluşturmak, sürekli yürütme maliyetleri nedeniyle pahalıya mal oluyor
    “Canlı benchmark” fikri güzel ama en yeni modelleri yeterince yansıtamıyor

  • Parametre sayısından çok dolar/saniye başına token daha önemli bir metrik bence
    Çünkü en üst düzey modeller yerel çıkarımı desteklemiyor

    • Ancak açık kaynak bir model söz konusuysa, self-hosting düşünenler için parametre sayısı da önemli
    • Parametre sayısı hâlâ model performansının kabaca bir göstergesi
      Örneğin Qwen3 0.6b, tok/dollar açısından harika ama çoğu kullanım senaryosu için yetersiz
    • Bu modelin önemi, $3.000 altındaki makinelerde bile yerelde çalıştırılabilmesi
  • Basit testlerde birkaç gözlemim oldu

    1. Çıktı trace'i çok uzundu ve LinkedIn tarzı kısa paragraflardan oluşuyordu
    2. Hosted sürümün token çıktı hızı çok yüksekti
    3. Talimat uyumu ve çıktı kalitesi, Opus 4.5 gibi başlıca modellere göre daha üstündü
  • Grafikteki x ekseni ters çevrilmişti, bu yüzden kafa karıştırıcıydı

    • Ben de aynı şeyi düşündüm. Neden böyle yaptıklarını bilmiyorum
    • Muhtemelen grafiği daha iyi göstermek istediler ama aslında öyle olmuyor