Mercury 2: Difüzyon Tabanlı Ultra Hızlı Çıkarım LLM'i

(inceptionlabs.ai)

7 puan yazan GN⁺ 2026-02-26 | 1 yorum | WhatsApp'ta paylaş

Difüzyon modeli (diffusion) tabanlı paralel üretim yaklaşımını kullanarak mevcut sıralı decoding LLM'lerin hız sınırlarını aşan bir dil modeli
Aynı anda birden fazla token üreten ve düzelten paralel rafine etme (parallel refinement) yapısıyla 5 kattan fazla daha hızlı yanıt süresi sağlıyor
Saniyede 1.009 token işleme hızı, 128K context, JSON çıktısı, araç kullanımı gibi özelliklerle gerçek zamanlı uygulamalar için optimize edildi
Kodlama yardımı, ajan döngüleri, ses arayüzleri, arama·RAG pipeline'ları gibi gecikmeye duyarlı ortamlarda verimliliğini kanıtladı
OpenAI API ile tam uyumlu, mevcut altyapıda değişiklik yapmadan doğrudan entegre edilebilir

Mercury 2'ye Genel Bakış

Mercury 2, dünyanın en hızlı çıkarım yapan dil modeli
- Hedefi, prodüksiyon yapay zeka ortamlarında anlık tepki verebilirlik sunmak
Mevcut LLM'lerdeki darboğaz, otoregresif sıralı decoding (one token at a time) yapısı
- Bu nedenle tekrarlayan döngü tabanlı yapay zeka iş akışlarında gecikme birikimi yaşanıyor

Difüzyon Tabanlı Gerçek Zamanlı Çıkarım Mimarisi

Mercury 2, sıralı decoding yerine paralel rafine etme (parallel refinement) yaklaşımını benimsiyor
- Birden fazla token'ı aynı anda üretip az sayıda adım içinde yakınsıyor
- Bir “daktilo” gibi değil, tüm taslağı tekrar tekrar düzelten bir “editör” gibi çalışıyor
Sonuç olarak 5 kattan fazla daha hızlı üretim hızı ve yeni bir hız eğrisi sunuyor
Difüzyon tabanlı çıkarım, gecikme (latency) ve maliyeti en aza indirirken yüksek kaliteli çıkarımı mümkün kılıyor

Performans ve Teknik Özellikler

Hız: NVIDIA Blackwell GPU üzerinde saniyede 1.009 token
Fiyat: 1 milyon giriş token'ı başına $0.25, 1 milyon çıkış token'ı başına $0.75
Kalite: önde gelen hız optimize edilmiş modellerle rekabet edebilecek düzeyde
Özellikler: ayarlanabilir çıkarım (tunable reasoning), 128K context, araç kullanımı, JSON schema ile hizalanmış çıktı
Gecikme optimizasyonu: p95 gecikme, yüksek eşzamanlılık ortamlarında tutarlı yanıt verebilirlik, kararlı throughput
NVIDIA yetkilileri, Mercury 2'nin NVIDIA AI altyapısıyla birleştiğinde saniyede 1.000 token'ı aştığını belirtti

Prodüksiyondaki Kullanım Senaryoları

1. Kodlama ve düzenleme

Otomatik tamamlama, refactoring, kod ajanları gibi geliştirici döngülerinde anlık yanıt sağlıyor
Zed kurucu ortağı Max Brunsfeld, “düşüncenin bir parçası kadar hızlı öneri hızı” vurgusu yaptı

2. Ajan döngüleri

Çok aşamalı çıkarım çağrıları gerektiren ajan iş akışlarında çağrı gecikmesini azaltıyor
Viant, Mercury 2'yi kullanarak gerçek zamanlı kampanya optimizasyonu ve otonom reklam sistemlerini güçlendirdi
Wispr Flow, gerçek zamanlı konuşma ve transkripsiyon rafinesi için Mercury 2'nin hızını değerlendiriyor
Skyvern, bunun “GPT-5.2'den en az iki kat daha hızlı” olduğunu belirtti

3. Gerçek zamanlı ses ve etkileşim

Ses arayüzleri, en katı gecikme sınırlarına sahip
Happyverse AI, Mercury 2 ile doğal gerçek zamanlı konuşabilen avatarlar oluşturdu
OpenCall, düşük gecikme ve yüksek kalite sayesinde daha tepkisel ses ajanları geliştirmenin mümkün olduğunu belirtti

4. Arama ve RAG pipeline'ları

Çoklu arama·yeniden sıralama·özetleme süreçlerinde biriken gecikmeyi azaltarak gerçek zamanlı çıkarımı mümkün kılıyor
SearchBlox, Mercury 2 ile iş birliği içinde gerçek zamanlı arama yapay zekası geliştirdi;
müşteri desteği, risk ve e-ticaret gibi farklı alanlarda saniyeler içinde içgörü sağlıyor

Dağıtım ve Entegrasyon

Mercury 2 hemen kullanıma hazır ve OpenAI API ile tam uyumlu
Mevcut sistemlere kod değişikliği olmadan entegre edilebilir
Kurumsal değerlendirmelerde iş yüküne uygunluk, performans doğrulama ve değerlendirme tasarımı desteği sunuluyor
Resmî ifade: “Mercury 2 is live. Welcome to diffusion.”

1 yorum

GN⁺ 2026-02-26

Hacker News yorumları

Saniye başına zeka(metric) ölçme fikri ilginç
Örneğin token başına zekayı ve saniye başına token sayısını birlikte değerlendiren bir yaklaşım
Şahsen Sonnet 4.6, Opus 4.6'dan 5 kat daha hızlıysa muhtemelen çoğunlukla Sonnet kullanırdım
Önceki nesilde Sonnet serisi yeterince iyi değildi ama artık hızın sağladığı iterasyon avantajı çok büyük, bu yüzden durum değişti
Eskiden OpenAI Deep Research kullanıyordum ama o3-thinking + web araması çok daha hızlı ve yeterince zekiydi
- “Hızın kendisi kalitenin bir ekseni” diye düşünüyorum
  Cereberas veya Groq gibi donanımlarla API geliştirirseniz iterasyon hızı ve maliyet tamamen başka bir seviyede oluyor
  Yakın zamanda yazdığım araştırma notunda da, planlamayı AR modeline, üretimi ise diffusion modeline ayırmanın performansı büyük ölçüde artırdığını gösteriyorum
- Bu metriğe donanım birimi başına verimliliği de eklemek daha gerçekçi olabilir
  Örneğin 5 ton kömür yeterliyken 0.0000000001% iyileşme için 30 ton kullanmak gerçek bir ilerleme değil
- Hızlı ajan iterasyonu hedefleyen yeni bir model ailesi ortaya çıkıyor
  Composer veya Flash sürümü modeller buna örnek, Mercury 2 de bu kategoride güçlü bir model olarak konumlanıyor
- Yakında gerçek benchmark yapabilecek gibiyiz
  Hızlı modeller iterasyonda avantajlı, büyük modeller ise ilk denemede daha doğru
  Şu anda Opus 4.6'yı seviyorum ama Sonnet ile verimlilik farkını verilerle görmek istiyorum
- “Intelligence per second” kavramını gerçekten çok beğendim
  Gemini 3 Flash'ı sevmemin nedeni tam olarak buydu — yeterince zeki ve inanılmaz derecede hızlı
Basit bir test yaptım; “Maradona'nın başarıları” diye sorduğumda Mercury 2 “Dieadona” diye yazım hatası yaptı
Yerel bir 3B modelin bile kusursuz yanıtlayacağı bir soru ama Mercury 2 yavaş ve hataya açık
Mercury 2, yanıtlarını paralel arıtma(parallel refinement) yöntemiyle üretiyor
Aynı anda birden çok token üretip birkaç adım içinde yakınsayan bir yapı; daktilo gibi sırayla yazmak yerine bir editör gibi tüm taslağı cilalayan bir yaklaşım
DDPM ve SGM'nin SDE altında birleştirilmesine dair araştırmalar sürüyor; transformer'ın her katmanını bir diffusion adımı olarak görmenin mümkün olup olmayacağını merak ediyorum
Eğer transformer'ın L katmanı diffusion'ın L aşamalı arıtmasıyla eşleşirse, iki model arasında karşılıklı fitting mümkün olabilir
Inception'ın kurucu ortaklarından biri ve Chief Scientist olarak Mercury 2 veya diffusion LM hakkında teknik soruları memnuniyetle yanıtlarım
- diffusion modelinde KV cache nasıl çalışıyor merak ediyorum
  Gecikme veya maliyeti azaltabiliyor mu, autoregressive caching'e benzer bir eğri mi gösteriyor, yoksa hiç uygulanamıyor mu bilmek isterim
- diffusion modelinin metin blokları düzeyinde reasoning yaptığı görülüyor; bloklar arasında bilgi bağımlılığı olduğunda bunun nasıl ele alındığını merak ediyorum
  Dinamik blok uzunluğu uygulanıp uygulanamayacağı da ilginç
- Sunumda bahsedilen Voice AI'ın pratikte nasıl çalıştığını merak ediyorum
  Çoğu ses sisteminde toplam yanıt gecikmesinden çok TTFT(time-to-first-token) önemlidir
  Mercury 2'nin TTFT değerinin diğer reasoning modellerine kıyasla ne kadar iyileştiğini öğrenmek isterim
- Zayıf transformer modellerindeki gibi döngüye girme sorunu yaşadım
  örnek bağlantı
  Bunun neden olduğunu merak ediyorum
- Daha yüksek hız için drifting model yönünde gelişme planı olup olmadığını da merak ediyorum
Saniyede binlerce token üreten modellerin ortaya çıkması en ilginç gelişme
Böyle olunca multi-shot prompting veya nudging yapılsa bile kullanıcı bunu fark etmez; bu da halüsinasyon ve deterministik olmayan yanıt sorunlarını azaltabilir
- Biz de aynı fikirdeyiz
  Mercury 2, ajan görevlerinde hızlı iterasyonu mümkün kılıyor
  Tek bir deneme daha az doğru olabilir ama kısa çalışma süresi sayesinde çok daha hızlı iyileştirilebilir
- Genel amaçlı modeller de batch inference ile oldukça hızlı olabiliyor
  Örneğin GPT-OSS 20B, tek bir 3090 üzerinde bs=64 ile yaklaşık 2k tok/s'ye ulaşıyor
diffusion modellerine hâlâ tam ikna olmuş değilim
Google ve başkaları da denedi ama çoğu durumda Pareto frontier üzerinde geride kaldılar
fiyat/performans karşılaştırma bağlantısı
- Pareto açısından buna itiraz eden bir görüş var
  Aynı kalite düzeyinde Mercury, benzer AR modellere göre 5 kattan fazla daha hızlı
  Mutlak zeka seviyesi hâlâ Opus veya Gemini Pro'nun altında ama çıkarım hızı açısından büyük bir avantaja sahip
- Metin diffusion hâlâ gelişime çok açık
  Autoregressive transformer'lara kıyasla çok daha az keşfedilmiş bir alan olduğu için teknik headroom yüksek
- Bu model hızlı düzenleme(edit) kullanımı için mükemmel olabilir
  Morph'un Fast Apply ürünü gibi bir “Mercury Edit” sürümü olursa kesinlikle denemek isterim
diffusion tabanlı yaklaşım son derece ilginç
Geleneksel transformer'lar token'ları sırayla üretirken diffusion tüm çıktıyı tekrar tekrar rafine(refine) edebilir
Eğer gecikme(latency) sorununu çözdülerse, bu karmaşık reasoning görevleri için yeni olasılıkların kapısını açabilir
Yerel donanımda çalıştırılabilen open-weight diffusion LLM olup olmadığını merak ediyorum
Tüketici GPU'larında performans farkını bizzat görmek isterim
Mercury 2 Car Wash Test'te başarısız oldu
Genel amaçlı reasoning modeli olmaktan ziyade belirli kullanım alanlarına (ör. kodlama ajanı) odaklanıp bu alanda SOTA modellerle (Qwen3-Coder-Next vb.) karşılaştırılması daha mantıklı olabilir
- Ben şahsen hızlı ama çok hata yapan modellerdense yavaş ama doğru modelleri tercih ederim
  Uzun oturumlar çalıştıracak olsam bile doğruluk daha önemli
Eğer bu model Talaas çipi üzerine yerleştirilirse saniyede 50.000'den fazla token üretebilir mi diye merak ediyorum
- Bellek gecikmesi olmayan ASIC tarzı bir devreye gömülürse, hangi model olursa olsun muazzam hız artışı mümkün gibi görünüyor

Mercury 2: Difüzyon Tabanlı Ultra Hızlı Çıkarım LLM'i

Mercury 2'ye Genel Bakış

Difüzyon Tabanlı Gerçek Zamanlı Çıkarım Mimarisi

Performans ve Teknik Özellikler

Prodüksiyondaki Kullanım Senaryoları

1. Kodlama ve düzenleme

2. Ajan döngüleri

3. Gerçek zamanlı ses ve etkileşim

4. Arama ve RAG pipeline'ları

Dağıtım ve Entegrasyon

İlgili okumalar

1 yorum

Hacker News yorumları