MiMo-V2.5-Pro-UltraSpeed: Saniyede 1000 token üreten 1T model
(mimo.xiaomi.com)- 1 trilyon (1T) parametreli modelde ilk kez 1000 tokens/s çözümleme hızını aşan model
- Özel donanım yerine yalnızca commodity GPU ile bu hıza ulaşıldı; tek bir standart 8-GPU düğümünde 1000+ tps çıktı üretimi sağlandı
- FP4 kuantizasyonu ile DFlash speculative decoding birleşimini kullanan model-sistem codesign yaklaşımı temel teknoloji olarak öne çıkıyor
- API, başvuru tabanlı ve süre sınırlı olarak sunuluyor; 3 kat fiyat karşılığında yaklaşık 10 kat üretim hızı vaat ediliyor
- 1000 tps eşiğinin aşılması, yalnızca hız artışı değil; Coding Agent ve gerçek zamanlı karar alma gibi yapay zeka uygulama paradigmalarını değiştiren bir dönüm noktası olarak görülüyor
Xiaomi MiMo-V2.5-Pro-UltraSpeed duyuruldu
- TileRT ile iş birliği içinde, 1 trilyon parametreli modelde ilk kez 1000 tokens/s çözümleme hızı aşıldı; gerçek zamanlı yanıt ve anlık yineleme mümkün kılındı
- Gerçek zamanlı üretim hızı karşılaştırmalarında yaklaşık 1200 tokens/s seviyesine kadar ulaşıldı
- Model yeterince hızlandığında, beklenen bir araç olmaktan çıkıp düşüncenin bir uzantısı (
extension of thinking) gibi çalıştığı görüşü öne sürülüyor
Süre sınırlı · başvuru tabanlı erişim
- API, sınırlı süreli promosyon fiyatıyla sunuluyor; MiMo-V2.5-Pro'ya göre 3 kat maliyetle yaklaşık 10 kat üretim hızı sağlıyor (yalnızca API için, Token Plan desteklenmiyor)
- Yüksek hızlı çıkarım kaynaklarının kısıtlı olması nedeniyle erişim başvuruya bağlı ve süre sınırlı; yalnızca onaylanan kullanıcılar 9 Haziran 2026 ~ 23 Haziran 2026 23:59 (UTC+8) arasında API'yi kullanabilecek
-
Başvuru yöntemi
- API platformu: platform.xiaomimimo.com/ultraspeed. Başvuru onay garantisi verilmiyor; öncelik gerçek iş ihtiyacı olan şirketler ve profesyonel geliştiricilerde
- Standart model erişimi MiMo-V2.5 serisi üzerinden sunuluyor
-
Chat deneyimi (deneme süresince ücretsiz)
- Onaylanan kullanıcılara 2 hafta boyunca ücretsiz Chat erişimi sağlanıyor; giriş noktası ultraspeed.xiaomimimo.com
- Hesap başına günde en fazla 10 kez kuyruğa girilebiliyor, oturum başına en fazla 30 dakika kullanım var ve 5 dakikadan uzun süre boşta kalınırsa oturum otomatik sonlandırılıyor
1000 tokens/s — hızın ötesinde bir paradigma değişimi
- 1T ölçeğinde 1000 tps'nin aşılması, sadece daha hızlı bir daktilo değil; yapay zeka uygulama paradigmasını temelden sarsan bir değişim olarak tanımlanıyor
-
Hızın doğrudan zekaya dönüşmesi
- Aynı gerçek zaman (
wall-clock) içinde onlarca çıkarım yolu paralel çalıştırılabiliyor (Best-of-N / Tree Search); arka planda otomatik doğrulama ve öz düzeltme ile çıkarım kalitesi doğrudan artırılabiliyor
- Aynı gerçek zaman (
-
Coding Agent için üretkenlik sınırının kalkması
- Önceden çıkarım gecikmesi (
inference latency) darboğaz oluştururken geliştiriciler ekran başında bekliyordu; 1000 tps seviyesinde kod üretim hızı ve üretkenlik paradigma düzeyinde hızlanıyor
- Önceden çıkarım gecikmesi (
-
Gerçek zamanlı karar döngülerine giriş
- Milisaniye düzeyindeki "think-respond" döngüsü sayesinde 1T amiral gemisi model; yüksek frekanslı kuant işlem sinyali üretimi, anlık anormal işlem engelleme, akıllı teklif verme, gerçek zamanlı diyalog gibi zamana duyarlı senaryolara bağlanabiliyor
- Cerrahi destek ve tıbbi görüntü analizi gibi yaşam-kritik durumlarda, lezyon analizi ve risk tahmini için kazanılan her saniyenin cerraha ek hareket alanı sağladığı görüşü paylaşılıyor
Uç düzey model-sistem Codesign
-
1T modelde 1000+ tps, tek bir teknikten değil; MiMo model ekibi ile TileRT sistem ekibinin uç düzey codesign çalışmasının sonucu
-
Benzer hızlar için sektörün sıkça başvurduğu özel donanımların (Cerebras'ın Wafer-Scale'i, Groq'un on-chip SRAM özel mimarisi) aksine, yalnızca commodity GPU üzerinde model-sistem codesign ile bu sonuca ulaşıldı
-
Model tarafında, bant genişliği darboğazını hedefleyen FP4 kuantizasyonu ile model boyutu ve bellek erişim yükü azaltıldı; aynı anda blok tabanlı maskeli paralel tahmine dayalı DFlash kullanılarak doğrulama adımı başına kabul edilen token uzunluğu artırıldı
-
Sistem tarafında TileRT, bu algoritmik özelliklere uygun derleme motoru ve hesaplama çekirdekleri sundu; tek bir standart 8-GPU commodity düğümünde 1000+ tps çıktı üretimi sağlandı
-
3.1 FP4 Quantization
- 1T ölçeğinde mevcut 8 bit (FP8/INT8) ve 16 bit çıkarım, bellek kullanımı ve bant genişliği baskısı açısından aşırı maliyetli; bit genişliğinin azaltılması çözümleme hızına doğrudan katkı sağlıyor
- Doğrulanmış, fiilen kayıpsız FP4 (MXFP4) formatı benimsendi; ancak tüm modele basitçe uygulanınca karmaşık çıkarım, mantık yürütme ve kod üretiminde performans düşüşü görüldü
- MoE (Mixture of Experts) mimarisinde parametrelerin çoğunu oluşturan ve kuantizasyona en dayanıklı olan Experts bölümü seçici biçimde FP4'e kuantize edildi; diğer modüller özgün hassasiyetini korudu
- FP4 QAT (Quantization-Aware Training) ile model boyutu küçültülürken donanım bant genişliği kullanımı en üst düzeye çıkarıldı; genel performans ise özgün modelle neredeyse aynı seviyede tutuldu
-
3.2 DFlash Speculative Decoding
- Geleneksel speculative decoding, küçük bir draft modelin sonraki tokenları tahmin etmesi ve büyük modelin bunları doğrulaması mantığına dayanır; draft kalitesi kabul oranını belirler, ancak draft güçlendikçe hesaplama maliyeti de artar ve bu temel bir gerilim yaratır
- DFlash, draft modelin tek bir forward pass ile tüm maskeli bloğu doldurmasını sağlayarak
autoregressive draftingyaklaşımının seri kısıtını ortadan kaldırır - Muon ikinci dereceden optimizer ve model self-distillation kullanılarak draft aşamasındaki ek yük teorik asgari seviyeye yakın biçimde sıkıştırıldı
- Draft model yalnızca Sliding Window Attention (SWA) kullanır; bu, MiMo-V2 serisinin SWA tasarımıyla doğal olarak uyumludur ve tam prefix bağımlılığını kaldırarak tahmin başına hesaplamayı context uzunluğuna orantılı olmaktan çıkarıp sabit düzeye indirir
- Eğitimde mask-signal örneklemesi GPU-local shard düzeyine indirildi; böylece tek bir sequence, bir adımda on binlerce bağımsız eğitim sinyali üretirken cihazlar arası iletişim ek yükünden kaçınıldı
- Blok boyutu 8 ile sınırlandırılarak doğrulama ek yükü düşürüldü ve eşzamanlılık artırıldı; yüksek kabul uzunluğu doğrudan yüksek çıkarım iş hacmine dönüştü
- Senaryolara göre ortalama kabul uzunluğu (Acceptance Length)
- Coding 6.30 (bazı örneklerde en fazla 7.14; 8 draft tokenın 6 ila 7'si kabul edildi)
- Math / Reasoning 5.56
- Agent 4.29
- Anlamsal olarak daha dağınık ve belirsizliğin daha yüksek olduğu genel diyalog senaryolarında kabul oranı henüz düşük; optimizasyon çalışmaları sürüyor
-
3.3 TileRT ultra düşük gecikmeli çıkarım çekirdekleri / sistemi
- 1000 tokens/s çalışma frekansında her operatörün ömrü mikrosaniye düzeyine sıkışıyor; bu da geleneksel çıkarım sistemlerindeki
operator boundariesyapısını temel darboğaz haline getiriyor - Operatör yürütmenin başlaması, donanım senkronizasyonu ve global bellek gidiş-gelişleri sırasında yürütme akışı kesiliyor ve görünür "Execution Gaps" oluşuyor
-
TileRT'nin paradigma düzeyinde yürütme modeli yeniliği
- Persistent Engine Kernel: Operatör başına yürütme başlatma yaklaşımı terk edilerek tüm hesaplama hattı GPU içinde sürekli yerleşik ve akış halinde tutuluyor; böylece veri taşıma ile hesaplama arasında uç düzey örtüşme (
overlap) sağlanıyor - Warp Specialization (heterojen pipeline iş birliği): Tile düzeyinde iletişim, veri taşıma ve tensör hesaplaması daha ince fiziksel parçalara ayrılıyor; homojen
lock-stepmodeli kırılarak GPU hassas ayarlı heterojen bir yürütme sistemine dönüştürülüyor
- Persistent Engine Kernel: Operatör başına yürütme başlatma yaklaşımı terk edilerek tüm hesaplama hattı GPU içinde sürekli yerleşik ve akış halinde tutuluyor; böylece veri taşıma ile hesaplama arasında uç düzey örtüşme (
-
Mikrosaniye düzeyinde donanım-yazılım derin entegrasyonu (Codesign)
- Model katmanı, MoE Experts için karma FP4 kuantizasyonu ve 1 trilyon parametreli mimariye uygun SWA hizalı DFlash speculative decoding kullanıyor; TileRT ise bu algoritmik özellikler ve kuantizasyon yöntemiyle sıkı biçimde entegre özel derleme motoru ile hesaplama çekirdekleri sunuyor
- İki ekip, donanım fiziğine dayalı ortak mühendislik ödünleşimleriyle yürütme baskısını donanım sınırları içinde yumuşak biçimde yakınsattı
- TileRT, yeni nesil yapay zeka altyapısı ve ultra düşük gecikmeli çıkarıma odaklanan bir sistem mimarisi ekibi; persistent kernel, tile pipeline ve heterojen iş birliği alanlarında tam yığın atılımlar sayesinde karmaşık heterojen ortamlarda uç düzey hesaplama kullanımına ulaşıyor
- 1000 tokens/s çalışma frekansında her operatörün ömrü mikrosaniye düzeyine sıkışıyor; bu da geleneksel çıkarım sistemlerindeki
Ek demo videoları
- 10 saniyede Snake oyunu oluşturma demosu
- MacOS arayüzünü 1 dakikada yeniden üretme demosu
Açık kaynak ve beklentiler
- HuggingFace üzerinde MiMo-V2.5-Pro-FP4-DFlash checkpoint'i açık kaynak olarak yayımlandı; FP4 kuantize ağırlıkları ve DFlash model parametrelerini içeriyor
- MiMo-V2.5 için UltraSpeed desteği hazırlanıyor
1 yorum
Hacker News görüşleri
Hızlı AI gerçekten çok ilgi çekici, ama bir o kadar da tedirgin edici. Şu anda bile Claude bazı işlerde benden daha hızlı, ama yine de hâlâ aşağı yukarı aynı seviyedeyiz
Bir PR özetleme prompt’unu 1 saattir çalıştırıyorum ve birkaç saat daha sürecek gibi görünüyor; bunun neredeyse anında bittiği bir durumda iş akışının nasıl değişeceğini hayal etmek zor. Uzun süren prompt’lar yüzünden multitasking yapmaya başlayıp sonra pişman olduğum da oluyor. Öte yandan, eskiden saatler ya da günler süren işleri birkaç saniye ya da dakika içinde bitiren bir AI, oyunun kurallarını değiştirecek düzeyde olur ve bizim nerede konumlanacağımızı kestiremiyorum
Cerebras’ın 3000 TPS’ini henüz denemedim, ama adını hatırlamadığım 15.000 TPS’lik bir model demosunu denedim. Gerçek işte anlamlı bir fark yaratıp yaratmadığını bilmiyorum, ama ekranın göz açıp kapayıncaya kadar metinle dolduğunu görmek gerçekten şaşırtıcı. Diff gösterip değişikliğin niyete uygun olup olmadığını kontrol etmek gibi küçük doğrulamalar için çok kullanışlı, ayrıca bu tür kontrolleri hızlıca birçok kez yapabilmek, odaklı incelemeleri bölünmeden çokça yapmaya yardımcı oluyor
Hesaplama açısından yoğun olmayan işlerde etkileşimli UI’lar zaten böyle çalışır. Programlar çoğunlukla kullanıcının bir düğmeye basmasını bekleyerek boşta durur. Programları beklememiz ya da birden fazla tabağı aynı anda çevirmeye çalışıp kendimizi meşgul etmemiz gerekmez. Yine de sadece daha hızlı LLM yetmez, hızlı derleme ve test de gerekir
Ciddi konuşursam, Cerebras’ı yaklaşık 2k tokens/s ve çok düşük gecikmeyle kullanmak geleceğe göz atmak gibi. İş akışını, zahmetli manuel inceleme olmadan gerçekleşebilecek işleri merkez alacak şekilde, başarı koşullarını açıkça tanımlayarak yeniden kurmaya itiyor. Benim sorunlarım arasında buna çok iyi uyan pek az şey var, ama geleceğin bu yönde gideceğini düşünüyorum. Elbette hızlı modeller genelde en yüksek performanslı modeller olmuyor, ama yüksek kaliteyle neredeyse anında düşünme mümkün hâle gelirse gerçekten hazırlıklı olmadığımız bir game changer olur
Ama başka bazı işlerde tamamen yanlış yöne sapabiliyor. Eskiden “dur, o öyle değil” diye araya girebiliyordum, ama ekranda metni görüp tepki verebildiğim anda çoktan büyük çaplı değişiklikler yapmış oluyor. Her düzenlemeden sonra commit attırmadıkça, doğru giderken olduğu kadar hızlı şekilde yanlış gitmesini engellemek de zor; üstelik geniş yetkileri varsa uzak API’lerde de hata yapabiliyor
Üretkenlik meselesini pek anlayamıyorum. Sıradan bir çalışan açısından, eskiden 2 gün süren bir işi artık 2 saatte yapabilmek o kadar da önemli değil. Kalan zamanı istediği gibi kullanmıyor, sonuçta yine günde 8 saat çalışmak zorunda
Eskiden bir problemi 2 gün boyunca derinlemesine kazıp bir şey üretmenin keyfi vardı; şimdi ise doğru prompt’la doğru cevabın gelmesini umarak slot makinesinin kolunu çekme düzenine dönüştü. Bence bu bizim için daha kötü. Elbette şirketler ve yöneticiler için durum tam tersi ve AI gidişatını muhtemelen çok seviyorlardır
Bunu çok sık yapmıyorum, ama daha yüksek hız için ödenen bedel bu. Büyük bir işi AI’ye verip bir saat sonra geri dönerseniz, bir saati boşa harcadığınızı ve elinizde hiçbir şey kalmadığını görebilirsiniz
Şu anda üç işi paralel olarak üç sekmede yürütüyorum ve sürekli bağlam değiştirmem gerektiği için bu çok daha acı verici. Daha hızlı modeller olsaydı beklerken yeni bir işe başlamak zorunda kalmazdım
Bu teknolojiyi kullanarak eskisinden daha derine inmenizi engelleyen hiçbir şey yok. Akıllı kullanım budur
Çinli sağlayıcıların fiyat·hız optimizasyonu ile ABD’li şirketlerin fiyat artışları birleşirse, çok yakında dengeler değişecek. Zaten birçok şirket AI faturaları yüzünden sorun yaşıyor
GitHub Copilot yıllık aboneliği kullanıyorum ve Microsoft kısa süre önce ücretlendirmeyi token tabanlı hale getirdi. Hâlâ premium istek birimi üzerinden faturalandırılıyor ama GPT 5.4 artık eskiden 1x iken şimdi 6x oldu
ABD model laboratuvarlarının nasıl bir hendeği olduğunu gerçekten anlamıyorum. Özyinelemeli öz-iyileştirmenin kapıda olduğu söylenirken Çinli laboratuvarlar öndeki ABD modellerinin sadece biraz gerisindeyse, ABD laboratuvarlarının hendeği ne? ABD modelleri, Çin açık kaynak modellerinden daha mı iyi özyinelemeli öz-iyileştirme yapıyor? Tamamen yanlış da olabilirim ama OpenAI ya da Anthropic’e para yatırmış olsaydım şu an hepsini çekmek isterdim. Önümüzdeki birkaç yıl içinde neredeyse sıfıra yaklaşma ihtimalinin oldukça yüksek olduğunu düşünüyorum
Bu yüzden işin maliyetini öngöremiyorsunuz. Çünkü birkaç kez yeniden başlatmanız ve her seferinde ödeme yapmanız gerekebilir. Üstelik modelin gerçek mi sahte mi olduğunu anlamak için tekrar prompt vermeniz gerekiyor, bu da token kullanımını artırıyor
MiMo, Deepseek kadar ucuzsa, önceki tartışma https://news.ycombinator.com/item?id=48282814 baz alındığında ultra yüksek hız için 3 kat çarpsanız bile hâlâ şok edici derecede ucuz
MiMo V2.5 Pro normal hız sürümü, test ettiğimiz açık ağırlıklı ajan tarzı kodlama modelleri arasında hâlâ en güçlüsü. Performansı daha düşük sürümlere kıyasla çok daha az ilgi görmesi ilginç.
Burada “fast mode” fiyatı da çok rekabetçi görünüyor. Veri https://gertlabs.com/rankings adresinde
Reklam gibi gelebilir ama üstel büyüme diye bir şey var. Prompt’tan neredeyse anında birden çok yazılım üretip içlerinden en iyisini seçtiğimiz aşamaya geleceğiz.
En iyi sözdizimsel şeker yöntem adına sahip kütüphaneyi seçme tartışmaları, assembly ile girdi yapmayı önermek kadar garip görünecek
Gerçek eski usul bu ve ürün iyiyse başarılı olur
Gerçekten de AI sayesinde normalde akla bile gelmeyecek seviyede refactoring işlemlerini defalarca yaptım. Bu sadece iş yükü yüzünden değil; bazen başarılı olup olmayacağını bile bilmediğiniz için çift taraflı bir sürtünme var. AI varken bir fincan kahve içerken refactoring’i üstüne atıp nerede takıldığını görebilirsiniz. Genel olarak AI, insanlığın kendini daha uç biçimlerde ortaya koymasına yol açacak. İyi yönde de kötü yönde de. Ama kötü tarafın daha fazla olacağını düşünüyorum
Küçük işletmelerde kodu tamamen atlayıp, bağlam verisi ve prompt’tan doğrudan konuşma hızında UI render edildiğini göreceğiz. Bu, oyunlarda Google Genie’nin yaptığı şeye benzer ama çok daha doğru bir biçimi olacak
Bu, ses tarafında gerçekten çok güçlü olacak. Akıl yürütme yeteneği sayesinde LLM’ler çok daha akıllı hale geliyor ama seste gecikme bütçesi o kadar sıkı ki genelde o zamanı kullanamıyorsunuz
Cerebras, Kimi K2.6’yı 3000t/s hızında test ediyor, yalnızca davetlilere açık. Hızlı donanımın frontier modellerde daha yaygın hale geleceği zamanı merakla bekliyorum.
Nvidia’da hız için tasarlanmış modeller bu boşluğu kapatabilecek iyi bir ek unsur olabilir
Bu sonucun yeni tarafı, standart donanımla, yani 8 GPU’lu tek bir sunucuyla 1 trilyondan fazla parametreli model üzerinde 1000 token/s’nin aşılmış olması
İlgi çekici. Frontier modeller oldukça etkileyici hale geldi, ancak etkileşimli human-in-the-loop coding için hepsi biraz yavaş. Bu yüzden vibe coding’e ve birden çok ajanı paralel çalıştırma yönüne itiyor. Hızlı bir ajan, bir ortaktan daha yakın hissettiriyor
Bir süredir Cerebras GLM 4.7’yi çeşitli işler için kullandım. Çok akıllı bir model değil, ancak sitede canlı bir prototip açıkken “fontu biraz büyüt. Yok, o kadar da değil” diye yazınca bunun gerçek zamanlı değişmesi harika bir deneyim. Ve MiMo 2.5, GLM 4.7’den çok daha yetenekli
GLM 5.1, z.ai’nin en yeni iterasyonu ve popüler açık ağırlıklı kodlama modellerinden biri. Denediyseniz, yakın zamandaki %70 fiyat indiriminin ardından bile MiMo 2.5 Pro’dan daha pahalı hale gelen GLM 5.1’in nasıl karşılaştırıldığını merak ediyorum
1k TPS de harika, ancak bu başlıkta yapay zekanın ürettiği yorumların ne kadar çok olduğu daha da ilginç