MiMo-V2.5-Pro-UltraSpeed: Saniyede 1000 token üreten 1T model

(mimo.xiaomi.com)

4 puan yazan GN⁺ 2026-06-09 | 1 yorum | WhatsApp'ta paylaş

1 trilyon (1T) parametreli modelde ilk kez 1000 tokens/s çözümleme hızını aşan model
Özel donanım yerine yalnızca commodity GPU ile bu hıza ulaşıldı; tek bir standart 8-GPU düğümünde 1000+ tps çıktı üretimi sağlandı
FP4 kuantizasyonu ile DFlash speculative decoding birleşimini kullanan model-sistem codesign yaklaşımı temel teknoloji olarak öne çıkıyor
API, başvuru tabanlı ve süre sınırlı olarak sunuluyor; 3 kat fiyat karşılığında yaklaşık 10 kat üretim hızı vaat ediliyor
1000 tps eşiğinin aşılması, yalnızca hız artışı değil; Coding Agent ve gerçek zamanlı karar alma gibi yapay zeka uygulama paradigmalarını değiştiren bir dönüm noktası olarak görülüyor

Xiaomi MiMo-V2.5-Pro-UltraSpeed duyuruldu

TileRT ile iş birliği içinde, 1 trilyon parametreli modelde ilk kez 1000 tokens/s çözümleme hızı aşıldı; gerçek zamanlı yanıt ve anlık yineleme mümkün kılındı
Gerçek zamanlı üretim hızı karşılaştırmalarında yaklaşık 1200 tokens/s seviyesine kadar ulaşıldı
Model yeterince hızlandığında, beklenen bir araç olmaktan çıkıp düşüncenin bir uzantısı (extension of thinking) gibi çalıştığı görüşü öne sürülüyor

Süre sınırlı · başvuru tabanlı erişim

API, sınırlı süreli promosyon fiyatıyla sunuluyor; MiMo-V2.5-Pro'ya göre 3 kat maliyetle yaklaşık 10 kat üretim hızı sağlıyor (yalnızca API için, Token Plan desteklenmiyor)
Yüksek hızlı çıkarım kaynaklarının kısıtlı olması nedeniyle erişim başvuruya bağlı ve süre sınırlı; yalnızca onaylanan kullanıcılar 9 Haziran 2026 ~ 23 Haziran 2026 23:59 (UTC+8) arasında API'yi kullanabilecek
Başvuru yöntemi
- API platformu: platform.xiaomimimo.com/ultraspeed. Başvuru onay garantisi verilmiyor; öncelik gerçek iş ihtiyacı olan şirketler ve profesyonel geliştiricilerde
- Standart model erişimi MiMo-V2.5 serisi üzerinden sunuluyor
Chat deneyimi (deneme süresince ücretsiz)
- Onaylanan kullanıcılara 2 hafta boyunca ücretsiz Chat erişimi sağlanıyor; giriş noktası ultraspeed.xiaomimimo.com
- Hesap başına günde en fazla 10 kez kuyruğa girilebiliyor, oturum başına en fazla 30 dakika kullanım var ve 5 dakikadan uzun süre boşta kalınırsa oturum otomatik sonlandırılıyor

1000 tokens/s — hızın ötesinde bir paradigma değişimi

1T ölçeğinde 1000 tps'nin aşılması, sadece daha hızlı bir daktilo değil; yapay zeka uygulama paradigmasını temelden sarsan bir değişim olarak tanımlanıyor
Hızın doğrudan zekaya dönüşmesi
- Aynı gerçek zaman (wall-clock) içinde onlarca çıkarım yolu paralel çalıştırılabiliyor (Best-of-N / Tree Search); arka planda otomatik doğrulama ve öz düzeltme ile çıkarım kalitesi doğrudan artırılabiliyor
Coding Agent için üretkenlik sınırının kalkması
- Önceden çıkarım gecikmesi (inference latency) darboğaz oluştururken geliştiriciler ekran başında bekliyordu; 1000 tps seviyesinde kod üretim hızı ve üretkenlik paradigma düzeyinde hızlanıyor
Gerçek zamanlı karar döngülerine giriş
- Milisaniye düzeyindeki "think-respond" döngüsü sayesinde 1T amiral gemisi model; yüksek frekanslı kuant işlem sinyali üretimi, anlık anormal işlem engelleme, akıllı teklif verme, gerçek zamanlı diyalog gibi zamana duyarlı senaryolara bağlanabiliyor
- Cerrahi destek ve tıbbi görüntü analizi gibi yaşam-kritik durumlarda, lezyon analizi ve risk tahmini için kazanılan her saniyenin cerraha ek hareket alanı sağladığı görüşü paylaşılıyor

Uç düzey model-sistem Codesign

1T modelde 1000+ tps, tek bir teknikten değil; MiMo model ekibi ile TileRT sistem ekibinin uç düzey codesign çalışmasının sonucu
Benzer hızlar için sektörün sıkça başvurduğu özel donanımların (Cerebras'ın Wafer-Scale'i, Groq'un on-chip SRAM özel mimarisi) aksine, yalnızca commodity GPU üzerinde model-sistem codesign ile bu sonuca ulaşıldı
Model tarafında, bant genişliği darboğazını hedefleyen FP4 kuantizasyonu ile model boyutu ve bellek erişim yükü azaltıldı; aynı anda blok tabanlı maskeli paralel tahmine dayalı DFlash kullanılarak doğrulama adımı başına kabul edilen token uzunluğu artırıldı
Sistem tarafında TileRT, bu algoritmik özelliklere uygun derleme motoru ve hesaplama çekirdekleri sundu; tek bir standart 8-GPU commodity düğümünde 1000+ tps çıktı üretimi sağlandı
3.1 FP4 Quantization
- 1T ölçeğinde mevcut 8 bit (FP8/INT8) ve 16 bit çıkarım, bellek kullanımı ve bant genişliği baskısı açısından aşırı maliyetli; bit genişliğinin azaltılması çözümleme hızına doğrudan katkı sağlıyor
- Doğrulanmış, fiilen kayıpsız FP4 (MXFP4) formatı benimsendi; ancak tüm modele basitçe uygulanınca karmaşık çıkarım, mantık yürütme ve kod üretiminde performans düşüşü görüldü
- MoE (Mixture of Experts) mimarisinde parametrelerin çoğunu oluşturan ve kuantizasyona en dayanıklı olan Experts bölümü seçici biçimde FP4'e kuantize edildi; diğer modüller özgün hassasiyetini korudu
- FP4 QAT (Quantization-Aware Training) ile model boyutu küçültülürken donanım bant genişliği kullanımı en üst düzeye çıkarıldı; genel performans ise özgün modelle neredeyse aynı seviyede tutuldu
3.2 DFlash Speculative Decoding
- Geleneksel speculative decoding, küçük bir draft modelin sonraki tokenları tahmin etmesi ve büyük modelin bunları doğrulaması mantığına dayanır; draft kalitesi kabul oranını belirler, ancak draft güçlendikçe hesaplama maliyeti de artar ve bu temel bir gerilim yaratır
- DFlash, draft modelin tek bir forward pass ile tüm maskeli bloğu doldurmasını sağlayarak autoregressive drafting yaklaşımının seri kısıtını ortadan kaldırır
- Muon ikinci dereceden optimizer ve model self-distillation kullanılarak draft aşamasındaki ek yük teorik asgari seviyeye yakın biçimde sıkıştırıldı
  - Draft model yalnızca Sliding Window Attention (SWA) kullanır; bu, MiMo-V2 serisinin SWA tasarımıyla doğal olarak uyumludur ve tam prefix bağımlılığını kaldırarak tahmin başına hesaplamayı context uzunluğuna orantılı olmaktan çıkarıp sabit düzeye indirir
  - Eğitimde mask-signal örneklemesi GPU-local shard düzeyine indirildi; böylece tek bir sequence, bir adımda on binlerce bağımsız eğitim sinyali üretirken cihazlar arası iletişim ek yükünden kaçınıldı
- Blok boyutu 8 ile sınırlandırılarak doğrulama ek yükü düşürüldü ve eşzamanlılık artırıldı; yüksek kabul uzunluğu doğrudan yüksek çıkarım iş hacmine dönüştü
- Senaryolara göre ortalama kabul uzunluğu (Acceptance Length)
  - Coding 6.30 (bazı örneklerde en fazla 7.14; 8 draft tokenın 6 ila 7'si kabul edildi)
  - Math / Reasoning 5.56
  - Agent 4.29
- Anlamsal olarak daha dağınık ve belirsizliğin daha yüksek olduğu genel diyalog senaryolarında kabul oranı henüz düşük; optimizasyon çalışmaları sürüyor
3.3 TileRT ultra düşük gecikmeli çıkarım çekirdekleri / sistemi
- 1000 tokens/s çalışma frekansında her operatörün ömrü mikrosaniye düzeyine sıkışıyor; bu da geleneksel çıkarım sistemlerindeki operator boundaries yapısını temel darboğaz haline getiriyor
- Operatör yürütmenin başlaması, donanım senkronizasyonu ve global bellek gidiş-gelişleri sırasında yürütme akışı kesiliyor ve görünür "Execution Gaps" oluşuyor
- TileRT'nin paradigma düzeyinde yürütme modeli yeniliği
  - Persistent Engine Kernel: Operatör başına yürütme başlatma yaklaşımı terk edilerek tüm hesaplama hattı GPU içinde sürekli yerleşik ve akış halinde tutuluyor; böylece veri taşıma ile hesaplama arasında uç düzey örtüşme (overlap) sağlanıyor
  - Warp Specialization (heterojen pipeline iş birliği): Tile düzeyinde iletişim, veri taşıma ve tensör hesaplaması daha ince fiziksel parçalara ayrılıyor; homojen lock-step modeli kırılarak GPU hassas ayarlı heterojen bir yürütme sistemine dönüştürülüyor
- Mikrosaniye düzeyinde donanım-yazılım derin entegrasyonu (Codesign)
  - Model katmanı, MoE Experts için karma FP4 kuantizasyonu ve 1 trilyon parametreli mimariye uygun SWA hizalı DFlash speculative decoding kullanıyor; TileRT ise bu algoritmik özellikler ve kuantizasyon yöntemiyle sıkı biçimde entegre özel derleme motoru ile hesaplama çekirdekleri sunuyor
  - İki ekip, donanım fiziğine dayalı ortak mühendislik ödünleşimleriyle yürütme baskısını donanım sınırları içinde yumuşak biçimde yakınsattı
  - TileRT, yeni nesil yapay zeka altyapısı ve ultra düşük gecikmeli çıkarıma odaklanan bir sistem mimarisi ekibi; persistent kernel, tile pipeline ve heterojen iş birliği alanlarında tam yığın atılımlar sayesinde karmaşık heterojen ortamlarda uç düzey hesaplama kullanımına ulaşıyor

Ek demo videoları

10 saniyede Snake oyunu oluşturma demosu
MacOS arayüzünü 1 dakikada yeniden üretme demosu

Açık kaynak ve beklentiler

HuggingFace üzerinde MiMo-V2.5-Pro-FP4-DFlash checkpoint'i açık kaynak olarak yayımlandı; FP4 kuantize ağırlıkları ve DFlash model parametrelerini içeriyor
MiMo-V2.5 için UltraSpeed desteği hazırlanıyor

1 yorum

GN⁺ 2026-06-09

Hacker News görüşleri

Hızlı AI gerçekten çok ilgi çekici, ama bir o kadar da tedirgin edici. Şu anda bile Claude bazı işlerde benden daha hızlı, ama yine de hâlâ aşağı yukarı aynı seviyedeyiz
Bir PR özetleme prompt’unu 1 saattir çalıştırıyorum ve birkaç saat daha sürecek gibi görünüyor; bunun neredeyse anında bittiği bir durumda iş akışının nasıl değişeceğini hayal etmek zor. Uzun süren prompt’lar yüzünden multitasking yapmaya başlayıp sonra pişman olduğum da oluyor. Öte yandan, eskiden saatler ya da günler süren işleri birkaç saniye ya da dakika içinde bitiren bir AI, oyunun kurallarını değiştirecek düzeyde olur ve bizim nerede konumlanacağımızı kestiremiyorum
- Ana model olarak Deepseek-v4-pro kullanıyorum ve bazen epey sinir bozucu olabiliyor. Kolay bir angaryayı verip “bunu agente yaptırayım da biraz kestireyim” diye düşünsem bile, daha bilgisayarın başından kalkamadan kodu çoktan yazmış oluyor
- groq ve GPT OSS denedim; 20B 1000 TPS, 120B ise 800 TPS ile çalışıyordu, yani hız gerçekten biraz sihir gibi hissettiriyor
  Cerebras’ın 3000 TPS’ini henüz denemedim, ama adını hatırlamadığım 15.000 TPS’lik bir model demosunu denedim. Gerçek işte anlamlı bir fark yaratıp yaratmadığını bilmiyorum, ama ekranın göz açıp kapayıncaya kadar metinle dolduğunu görmek gerçekten şaşırtıcı. Diff gösterip değişikliğin niyete uygun olup olmadığını kontrol etmek gibi küçük doğrulamalar için çok kullanışlı, ayrıca bu tür kontrolleri hızlıca birçok kez yapabilmek, odaklı incelemeleri bölünmeden çokça yapmaya yardımcı oluyor
- Gecikme süresi yeterince düşerse multitasking yapmak için bir neden kalmaz. Bir seferde bir şey yaptırıp sonucu hemen görmek yeterli olur; bu da oldukça iyi bir çalışma biçimi
  Hesaplama açısından yoğun olmayan işlerde etkileşimli UI’lar zaten böyle çalışır. Programlar çoğunlukla kullanıcının bir düğmeye basmasını bekleyerek boşta durur. Programları beklememiz ya da birden fazla tabağı aynı anda çevirmeye çalışıp kendimizi meşgul etmemiz gerekmez. Yine de sadece daha hızlı LLM yetmez, hızlı derleme ve test de gerekir
- Bir sonraki darboğaz derleyici olacak, ama bunu da LLM ile modelleyebiliriz. Sadece %15 kadar yanlış olur :)
  Ciddi konuşursam, Cerebras’ı yaklaşık 2k tokens/s ve çok düşük gecikmeyle kullanmak geleceğe göz atmak gibi. İş akışını, zahmetli manuel inceleme olmadan gerçekleşebilecek işleri merkez alacak şekilde, başarı koşullarını açıkça tanımlayarak yeniden kurmaya itiyor. Benim sorunlarım arasında buna çok iyi uyan pek az şey var, ama geleceğin bu yönde gideceğini düşünüyorum. Elbette hızlı modeller genelde en yüksek performanslı modeller olmuyor, ama yüksek kaliteyle neredeyse anında düşünme mümkün hâle gelirse gerçekten hazırlıklı olmadığımız bir game changer olur
- Bunun iki tarafı var. Gemini 3.5 Flash’e bir şey yaptırdığımda neredeyse anında sonuç veriyor ve iyi çalışıyor; bu hız bazen biraz ürkütücü geliyor
  Ama başka bazı işlerde tamamen yanlış yöne sapabiliyor. Eskiden “dur, o öyle değil” diye araya girebiliyordum, ama ekranda metni görüp tepki verebildiğim anda çoktan büyük çaplı değişiklikler yapmış oluyor. Her düzenlemeden sonra commit attırmadıkça, doğru giderken olduğu kadar hızlı şekilde yanlış gitmesini engellemek de zor; üstelik geniş yetkileri varsa uzak API’lerde de hata yapabiliyor
Üretkenlik meselesini pek anlayamıyorum. Sıradan bir çalışan açısından, eskiden 2 gün süren bir işi artık 2 saatte yapabilmek o kadar da önemli değil. Kalan zamanı istediği gibi kullanmıyor, sonuçta yine günde 8 saat çalışmak zorunda
Eskiden bir problemi 2 gün boyunca derinlemesine kazıp bir şey üretmenin keyfi vardı; şimdi ise doğru prompt’la doğru cevabın gelmesini umarak slot makinesinin kolunu çekme düzenine dönüştü. Bence bu bizim için daha kötü. Elbette şirketler ve yöneticiler için durum tam tersi ve AI gidişatını muhtemelen çok seviyorlardır
- AI’ye vereceğiniz işleri küçük parçalara ayırırsanız mimari üzerindeki kontrolü koruyabilir ve bu süreci bir slot makinesine dönüştürmemiş olursunuz. Hâlâ kod okuyorum ve bazen doğrudan kendim de yazıyorum
  Bunu çok sık yapmıyorum, ama daha yüksek hız için ödenen bedel bu. Büyük bir işi AI’ye verip bir saat sonra geri dönerseniz, bir saati boşa harcadığınızı ve elinizde hiçbir şey kalmadığını görebilirsiniz
- Benim durumumda yavaş modeller bağlamı ve işlerin paralel yönetimini zorlaştırıyor. Tek bir işe odaklanıp onu bitirmek, sonra dinlenip sonraki işe geçmek çok daha iyi
  Şu anda üç işi paralel olarak üç sekmede yürütüyorum ve sürekli bağlam değiştirmem gerektiği için bu çok daha acı verici. Daha hızlı modeller olsaydı beklerken yeni bir işe başlamak zorunda kalmazdım
- Her teknolojinin aptalca kullanım şekli de vardır, akıllıca kullanım şekli de. Ona “doğru cevabı veren bir slot makinesi” gibi davranmak aptalca olanı. Bir süre işe yarayabilir, ama herkes aynı şeyi yapabileceği için uzun ömürlü olmaz
  Bu teknolojiyi kullanarak eskisinden daha derine inmenizi engelleyen hiçbir şey yok. Akıllı kullanım budur
- Çalışanların günde 8 saat çalıştığı hangi dünyadan bahsedildiğini bilmiyorum. Belki 8 saatlik mesai kaydı tutuluyordur, ama o sürenin tamamında çalışılmıyor
- Bizim çıktının kalitesini değerlendirme becerimiz, çıktıyı üretme becerimizin gerisinde kalıyor. “Doğru cevap”ın en makul görünen çıktı olduğunu düşünmek zor
Çinli sağlayıcıların fiyat·hız optimizasyonu ile ABD’li şirketlerin fiyat artışları birleşirse, çok yakında dengeler değişecek. Zaten birçok şirket AI faturaları yüzünden sorun yaşıyor
- Çin modelleri yeterince iyi ve ucuz.
  GitHub Copilot yıllık aboneliği kullanıyorum ve Microsoft kısa süre önce ücretlendirmeyi token tabanlı hale getirdi. Hâlâ premium istek birimi üzerinden faturalandırılıyor ama GPT 5.4 artık eskiden 1x iken şimdi 6x oldu
- Param çok bol olmadığı için son dönemde Claude ya da GPT yerine mümkün olduğunca DeepSeek v4 Flash, GLM 5.1 vb. kullanıyorum
- Bir diğer sorun da ABD modellerinin hepsinin kapalı kaynak olması. Büyük bir şirketseniz, kuruluşunuzun OpenAI veya Anthropic’e rehin kalmasını istemeyebilirsiniz.
  ABD model laboratuvarlarının nasıl bir hendeği olduğunu gerçekten anlamıyorum. Özyinelemeli öz-iyileştirmenin kapıda olduğu söylenirken Çinli laboratuvarlar öndeki ABD modellerinin sadece biraz gerisindeyse, ABD laboratuvarlarının hendeği ne? ABD modelleri, Çin açık kaynak modellerinden daha mı iyi özyinelemeli öz-iyileştirme yapıyor? Tamamen yanlış da olabilirim ama OpenAI ya da Anthropic’e para yatırmış olsaydım şu an hepsini çekmek isterdim. Önümüzdeki birkaç yıl içinde neredeyse sıfıra yaklaşma ihtimalinin oldukça yüksek olduğunu düşünüyorum
- Daha büyük sorun model tutarlılığı. Anthropic’in Opus fiyatı alıp alırken istekleri daha ucuz modellere yönlendirip yönlendirmediğini bilmiyorsunuz.
  Bu yüzden işin maliyetini öngöremiyorsunuz. Çünkü birkaç kez yeniden başlatmanız ve her seferinde ödeme yapmanız gerekebilir. Üstelik modelin gerçek mi sahte mi olduğunu anlamak için tekrar prompt vermeniz gerekiyor, bu da token kullanımını artırıyor
- Bu fiyatlandırma kararlarını yönlendiren ekonomik yapıyı merak ediyorum. Çinli şirketlerin modelleri ABD’dekilerden daha fazla mı sübvanse ettiğini, yoksa bunun ülkeler arasındaki enerji politikası farklarından mı kaynaklandığını bilmiyorum
MiMo, Deepseek kadar ucuzsa, önceki tartışma https://news.ycombinator.com/item?id=48282814 baz alındığında ultra yüksek hız için 3 kat çarpsanız bile hâlâ şok edici derecede ucuz
- Ucuz olan MiMo ve DeepSeek değil; Anthropic ve OpenAI, sundukları değere kıyasla pahalı
MiMo V2.5 Pro normal hız sürümü, test ettiğimiz açık ağırlıklı ajan tarzı kodlama modelleri arasında hâlâ en güçlüsü. Performansı daha düşük sürümlere kıyasla çok daha az ilgi görmesi ilginç.
Burada “fast mode” fiyatı da çok rekabetçi görünüyor. Veri https://gertlabs.com/rankings adresinde
- Neden deepseek v4 pro, flash’tan çok daha aşağıda çıkıyor? mimo 2.5 nerede?
Reklam gibi gelebilir ama üstel büyüme diye bir şey var. Prompt’tan neredeyse anında birden çok yazılım üretip içlerinden en iyisini seçtiğimiz aşamaya geleceğiz.
En iyi sözdizimsel şeker yöntem adına sahip kütüphaneyi seçme tartışmaları, assembly ile girdi yapmayı önermek kadar garip görünecek
- Berbat yazılımın üstel büyümesi gibi geliyor. Eskiden de yazılım mühendisliğinde seri üretilmiş çöp yok değildi ama artık patlayarak taşacak
- Eskiden her 3 ayda bir yeni bir frontend framework çıktığı bir dönem vardı. Şimdi neredeyse durdu ve kimse umursamıyor
- Emin değilim. Mühendisler hâlâ yazılımı eski usulle yapabilir. Örneğin Obsidian ya da Ghostty gibi bir şeyi aylar harcayarak, her satır kodu ve bağımlılığı, iyi mimariyi gözeterek inşa etmek gibi.
  Gerçek eski usul bu ve ürün iyiyse başarılı olur
- Ben daha umutluyum. AI daha iyi ve daha hızlı oldukça, eskiden iş yükü yüzünden kaçındığımız kodu daha hızlı ve daha yinelemeli biçimde iyileştirebiliriz.
  Gerçekten de AI sayesinde normalde akla bile gelmeyecek seviyede refactoring işlemlerini defalarca yaptım. Bu sadece iş yükü yüzünden değil; bazen başarılı olup olmayacağını bile bilmediğiniz için çift taraflı bir sürtünme var. AI varken bir fincan kahve içerken refactoring’i üstüne atıp nerede takıldığını görebilirsiniz. Genel olarak AI, insanlığın kendini daha uç biçimlerde ortaya koymasına yol açacak. İyi yönde de kötü yönde de. Ama kötü tarafın daha fazla olacağını düşünüyorum
- Üstel gidişat birkaç yıl içinde tam bellek içi hesaplamaya yol açacak ve bu 100 kat daha verimli olacak. Yani en az 10 kat daha büyük modeller mümkün olacak; çok daha akıllı ama aynı zamanda çok hızlı.
  Küçük işletmelerde kodu tamamen atlayıp, bağlam verisi ve prompt’tan doğrudan konuşma hızında UI render edildiğini göreceğiz. Bu, oyunlarda Google Genie’nin yaptığı şeye benzer ama çok daha doğru bir biçimi olacak
Bu, ses tarafında gerçekten çok güçlü olacak. Akıl yürütme yeteneği sayesinde LLM’ler çok daha akıllı hale geliyor ama seste gecikme bütçesi o kadar sıkı ki genelde o zamanı kullanamıyorsunuz
Cerebras, Kimi K2.6’yı 3000t/s hızında test ediyor, yalnızca davetlilere açık. Hızlı donanımın frontier modellerde daha yaygın hale geleceği zamanı merakla bekliyorum.
Nvidia’da hız için tasarlanmış modeller bu boşluğu kapatabilecek iyi bir ek unsur olabilir
- Orijinal metin, şimdiye kadar bu hızlara ulaşmak için Cerebras gibi özel ve çok pahalı donanım gerektiğini söylüyor.
  Bu sonucun yeni tarafı, standart donanımla, yani 8 GPU’lu tek bir sunucuyla 1 trilyondan fazla parametreli model üzerinde 1000 token/s’nin aşılmış olması
- Kaynağı merak ediyorum. Cerebras web sitesinde 1000t/s yazıyor https://www.cerebras.ai/blog/which-is-faster-gemini-3-5-flas...
- Cerebras geçen ay halka arz olmuş olsaydı şanslı olurdu. Şimdi olsaydı farklı olurdu
- Cerebras şu anda prefix caching indirimi sunmadığı için, ajan tarzı iş yüklerinde kullanım maliyeti sqr(n_turns) kadar daha pahalı hale geliyor
İlgi çekici. Frontier modeller oldukça etkileyici hale geldi, ancak etkileşimli human-in-the-loop coding için hepsi biraz yavaş. Bu yüzden vibe coding’e ve birden çok ajanı paralel çalıştırma yönüne itiyor. Hızlı bir ajan, bir ortaktan daha yakın hissettiriyor
Bir süredir Cerebras GLM 4.7’yi çeşitli işler için kullandım. Çok akıllı bir model değil, ancak sitede canlı bir prototip açıkken “fontu biraz büyüt. Yok, o kadar da değil” diye yazınca bunun gerçek zamanlı değişmesi harika bir deneyim. Ve MiMo 2.5, GLM 4.7’den çok daha yetenekli
- GLM 4.7’yi kod yazma ajanı için denedim, ancak 200~1000 satırlık basit script’lerde bile aşırı derecede kötüydü. Cerebras’ın sunduğu modellerden vazgeçmek zorunda kaldım ve akıllı modeller yalnızca enterprise planda var
- MiMo 2.5, MiMo 2.5 Pro ile aynı model değil
  GLM 5.1, z.ai’nin en yeni iterasyonu ve popüler açık ağırlıklı kodlama modellerinden biri. Denediyseniz, yakın zamandaki %70 fiyat indiriminin ardından bile MiMo 2.5 Pro’dan daha pahalı hale gelen GLM 5.1’in nasıl karşılaştırıldığını merak ediyorum
1k TPS de harika, ancak bu başlıkta yapay zekanın ürettiği yorumların ne kadar çok olduğu daha da ilginç

MiMo-V2.5-Pro-UltraSpeed: Saniyede 1000 token üreten 1T model

Xiaomi MiMo-V2.5-Pro-UltraSpeed duyuruldu

Süre sınırlı · başvuru tabanlı erişim

Başvuru yöntemi

Chat deneyimi (deneme süresince ücretsiz)

1000 tokens/s — hızın ötesinde bir paradigma değişimi

Hızın doğrudan zekaya dönüşmesi

Coding Agent için üretkenlik sınırının kalkması

Gerçek zamanlı karar döngülerine giriş

Uç düzey model-sistem Codesign

3.1 FP4 Quantization

3.2 DFlash Speculative Decoding

3.3 TileRT ultra düşük gecikmeli çıkarım çekirdekleri / sistemi

TileRT'nin paradigma düzeyinde yürütme modeli yeniliği

Mikrosaniye düzeyinde donanım-yazılım derin entegrasyonu (Codesign)

Ek demo videoları

Açık kaynak ve beklentiler

İlgili okumalar

1 yorum

Hacker News görüşleri