- Difüzyon modeli (diffusion) tabanlı paralel üretim yaklaşımını kullanarak mevcut sıralı decoding LLM'lerin hız sınırlarını aşan bir dil modeli
- Aynı anda birden fazla token üreten ve düzelten paralel rafine etme (parallel refinement) yapısıyla 5 kattan fazla daha hızlı yanıt süresi sağlıyor
- Saniyede 1.009 token işleme hızı, 128K context, JSON çıktısı, araç kullanımı gibi özelliklerle gerçek zamanlı uygulamalar için optimize edildi
- Kodlama yardımı, ajan döngüleri, ses arayüzleri, arama·RAG pipeline'ları gibi gecikmeye duyarlı ortamlarda verimliliğini kanıtladı
- OpenAI API ile tam uyumlu, mevcut altyapıda değişiklik yapmadan doğrudan entegre edilebilir
Mercury 2'ye Genel Bakış
- Mercury 2, dünyanın en hızlı çıkarım yapan dil modeli
- Hedefi, prodüksiyon yapay zeka ortamlarında anlık tepki verebilirlik sunmak
- Mevcut LLM'lerdeki darboğaz, otoregresif sıralı decoding (one token at a time) yapısı
- Bu nedenle tekrarlayan döngü tabanlı yapay zeka iş akışlarında gecikme birikimi yaşanıyor
Difüzyon Tabanlı Gerçek Zamanlı Çıkarım Mimarisi
- Mercury 2, sıralı decoding yerine paralel rafine etme (parallel refinement) yaklaşımını benimsiyor
- Birden fazla token'ı aynı anda üretip az sayıda adım içinde yakınsıyor
- Bir “daktilo” gibi değil, tüm taslağı tekrar tekrar düzelten bir “editör” gibi çalışıyor
- Sonuç olarak 5 kattan fazla daha hızlı üretim hızı ve yeni bir hız eğrisi sunuyor
- Difüzyon tabanlı çıkarım, gecikme (latency) ve maliyeti en aza indirirken yüksek kaliteli çıkarımı mümkün kılıyor
Performans ve Teknik Özellikler
- Hız: NVIDIA Blackwell GPU üzerinde saniyede 1.009 token
- Fiyat: 1 milyon giriş token'ı başına $0.25, 1 milyon çıkış token'ı başına $0.75
- Kalite: önde gelen hız optimize edilmiş modellerle rekabet edebilecek düzeyde
- Özellikler: ayarlanabilir çıkarım (tunable reasoning), 128K context, araç kullanımı, JSON schema ile hizalanmış çıktı
- Gecikme optimizasyonu: p95 gecikme, yüksek eşzamanlılık ortamlarında tutarlı yanıt verebilirlik, kararlı throughput
- NVIDIA yetkilileri, Mercury 2'nin NVIDIA AI altyapısıyla birleştiğinde saniyede 1.000 token'ı aştığını belirtti
Prodüksiyondaki Kullanım Senaryoları
1. Kodlama ve düzenleme
- Otomatik tamamlama, refactoring, kod ajanları gibi geliştirici döngülerinde anlık yanıt sağlıyor
- Zed kurucu ortağı Max Brunsfeld, “düşüncenin bir parçası kadar hızlı öneri hızı” vurgusu yaptı
2. Ajan döngüleri
- Çok aşamalı çıkarım çağrıları gerektiren ajan iş akışlarında çağrı gecikmesini azaltıyor
- Viant, Mercury 2'yi kullanarak gerçek zamanlı kampanya optimizasyonu ve otonom reklam sistemlerini güçlendirdi
- Wispr Flow, gerçek zamanlı konuşma ve transkripsiyon rafinesi için Mercury 2'nin hızını değerlendiriyor
- Skyvern, bunun “GPT-5.2'den en az iki kat daha hızlı” olduğunu belirtti
3. Gerçek zamanlı ses ve etkileşim
- Ses arayüzleri, en katı gecikme sınırlarına sahip
- Happyverse AI, Mercury 2 ile doğal gerçek zamanlı konuşabilen avatarlar oluşturdu
- OpenCall, düşük gecikme ve yüksek kalite sayesinde daha tepkisel ses ajanları geliştirmenin mümkün olduğunu belirtti
4. Arama ve RAG pipeline'ları
- Çoklu arama·yeniden sıralama·özetleme süreçlerinde biriken gecikmeyi azaltarak gerçek zamanlı çıkarımı mümkün kılıyor
- SearchBlox, Mercury 2 ile iş birliği içinde gerçek zamanlı arama yapay zekası geliştirdi;
müşteri desteği, risk ve e-ticaret gibi farklı alanlarda saniyeler içinde içgörü sağlıyor
Dağıtım ve Entegrasyon
- Mercury 2 hemen kullanıma hazır ve OpenAI API ile tam uyumlu
- Mevcut sistemlere kod değişikliği olmadan entegre edilebilir
- Kurumsal değerlendirmelerde iş yüküne uygunluk, performans doğrulama ve değerlendirme tasarımı desteği sunuluyor
- Resmî ifade: “Mercury 2 is live. Welcome to diffusion.”
1 yorum
Hacker News yorumları
Saniye başına zeka(metric) ölçme fikri ilginç
Örneğin token başına zekayı ve saniye başına token sayısını birlikte değerlendiren bir yaklaşım
Şahsen Sonnet 4.6, Opus 4.6'dan 5 kat daha hızlıysa muhtemelen çoğunlukla Sonnet kullanırdım
Önceki nesilde Sonnet serisi yeterince iyi değildi ama artık hızın sağladığı iterasyon avantajı çok büyük, bu yüzden durum değişti
Eskiden OpenAI Deep Research kullanıyordum ama o3-thinking + web araması çok daha hızlı ve yeterince zekiydi
Cereberas veya Groq gibi donanımlarla API geliştirirseniz iterasyon hızı ve maliyet tamamen başka bir seviyede oluyor
Yakın zamanda yazdığım araştırma notunda da, planlamayı AR modeline, üretimi ise diffusion modeline ayırmanın performansı büyük ölçüde artırdığını gösteriyorum
Örneğin 5 ton kömür yeterliyken 0.0000000001% iyileşme için 30 ton kullanmak gerçek bir ilerleme değil
Composer veya Flash sürümü modeller buna örnek, Mercury 2 de bu kategoride güçlü bir model olarak konumlanıyor
Hızlı modeller iterasyonda avantajlı, büyük modeller ise ilk denemede daha doğru
Şu anda Opus 4.6'yı seviyorum ama Sonnet ile verimlilik farkını verilerle görmek istiyorum
Gemini 3 Flash'ı sevmemin nedeni tam olarak buydu — yeterince zeki ve inanılmaz derecede hızlı
Basit bir test yaptım; “Maradona'nın başarıları” diye sorduğumda Mercury 2 “Dieadona” diye yazım hatası yaptı
Yerel bir 3B modelin bile kusursuz yanıtlayacağı bir soru ama Mercury 2 yavaş ve hataya açık
Mercury 2, yanıtlarını paralel arıtma(parallel refinement) yöntemiyle üretiyor
Aynı anda birden çok token üretip birkaç adım içinde yakınsayan bir yapı; daktilo gibi sırayla yazmak yerine bir editör gibi tüm taslağı cilalayan bir yaklaşım
DDPM ve SGM'nin SDE altında birleştirilmesine dair araştırmalar sürüyor; transformer'ın her katmanını bir diffusion adımı olarak görmenin mümkün olup olmayacağını merak ediyorum
Eğer transformer'ın L katmanı diffusion'ın L aşamalı arıtmasıyla eşleşirse, iki model arasında karşılıklı fitting mümkün olabilir
Inception'ın kurucu ortaklarından biri ve Chief Scientist olarak Mercury 2 veya diffusion LM hakkında teknik soruları memnuniyetle yanıtlarım
Gecikme veya maliyeti azaltabiliyor mu, autoregressive caching'e benzer bir eğri mi gösteriyor, yoksa hiç uygulanamıyor mu bilmek isterim
Dinamik blok uzunluğu uygulanıp uygulanamayacağı da ilginç
Çoğu ses sisteminde toplam yanıt gecikmesinden çok TTFT(time-to-first-token) önemlidir
Mercury 2'nin TTFT değerinin diğer reasoning modellerine kıyasla ne kadar iyileştiğini öğrenmek isterim
örnek bağlantı
Bunun neden olduğunu merak ediyorum
Saniyede binlerce token üreten modellerin ortaya çıkması en ilginç gelişme
Böyle olunca multi-shot prompting veya nudging yapılsa bile kullanıcı bunu fark etmez; bu da halüsinasyon ve deterministik olmayan yanıt sorunlarını azaltabilir
Mercury 2, ajan görevlerinde hızlı iterasyonu mümkün kılıyor
Tek bir deneme daha az doğru olabilir ama kısa çalışma süresi sayesinde çok daha hızlı iyileştirilebilir
Örneğin GPT-OSS 20B, tek bir 3090 üzerinde bs=64 ile yaklaşık 2k tok/s'ye ulaşıyor
diffusion modellerine hâlâ tam ikna olmuş değilim
Google ve başkaları da denedi ama çoğu durumda Pareto frontier üzerinde geride kaldılar
fiyat/performans karşılaştırma bağlantısı
Aynı kalite düzeyinde Mercury, benzer AR modellere göre 5 kattan fazla daha hızlı
Mutlak zeka seviyesi hâlâ Opus veya Gemini Pro'nun altında ama çıkarım hızı açısından büyük bir avantaja sahip
Autoregressive transformer'lara kıyasla çok daha az keşfedilmiş bir alan olduğu için teknik headroom yüksek
Morph'un Fast Apply ürünü gibi bir “Mercury Edit” sürümü olursa kesinlikle denemek isterim
diffusion tabanlı yaklaşım son derece ilginç
Geleneksel transformer'lar token'ları sırayla üretirken diffusion tüm çıktıyı tekrar tekrar rafine(refine) edebilir
Eğer gecikme(latency) sorununu çözdülerse, bu karmaşık reasoning görevleri için yeni olasılıkların kapısını açabilir
Yerel donanımda çalıştırılabilen open-weight diffusion LLM olup olmadığını merak ediyorum
Tüketici GPU'larında performans farkını bizzat görmek isterim
Mercury 2 Car Wash Test'te başarısız oldu
Genel amaçlı reasoning modeli olmaktan ziyade belirli kullanım alanlarına (ör. kodlama ajanı) odaklanıp bu alanda SOTA modellerle (Qwen3-Coder-Next vb.) karşılaştırılması daha mantıklı olabilir
Uzun oturumlar çalıştıracak olsam bile doğruluk daha önemli
Eğer bu model Talaas çipi üzerine yerleştirilirse saniyede 50.000'den fazla token üretebilir mi diye merak ediyorum