7 puan yazan GN⁺ 2026-02-26 | 1 yorum | WhatsApp'ta paylaş
  • Difüzyon modeli (diffusion) tabanlı paralel üretim yaklaşımını kullanarak mevcut sıralı decoding LLM'lerin hız sınırlarını aşan bir dil modeli
  • Aynı anda birden fazla token üreten ve düzelten paralel rafine etme (parallel refinement) yapısıyla 5 kattan fazla daha hızlı yanıt süresi sağlıyor
  • Saniyede 1.009 token işleme hızı, 128K context, JSON çıktısı, araç kullanımı gibi özelliklerle gerçek zamanlı uygulamalar için optimize edildi
  • Kodlama yardımı, ajan döngüleri, ses arayüzleri, arama·RAG pipeline'ları gibi gecikmeye duyarlı ortamlarda verimliliğini kanıtladı
  • OpenAI API ile tam uyumlu, mevcut altyapıda değişiklik yapmadan doğrudan entegre edilebilir

Mercury 2'ye Genel Bakış

  • Mercury 2, dünyanın en hızlı çıkarım yapan dil modeli
    • Hedefi, prodüksiyon yapay zeka ortamlarında anlık tepki verebilirlik sunmak
  • Mevcut LLM'lerdeki darboğaz, otoregresif sıralı decoding (one token at a time) yapısı
    • Bu nedenle tekrarlayan döngü tabanlı yapay zeka iş akışlarında gecikme birikimi yaşanıyor

Difüzyon Tabanlı Gerçek Zamanlı Çıkarım Mimarisi

  • Mercury 2, sıralı decoding yerine paralel rafine etme (parallel refinement) yaklaşımını benimsiyor
    • Birden fazla token'ı aynı anda üretip az sayıda adım içinde yakınsıyor
    • Bir “daktilo” gibi değil, tüm taslağı tekrar tekrar düzelten bir “editör” gibi çalışıyor
  • Sonuç olarak 5 kattan fazla daha hızlı üretim hızı ve yeni bir hız eğrisi sunuyor
  • Difüzyon tabanlı çıkarım, gecikme (latency) ve maliyeti en aza indirirken yüksek kaliteli çıkarımı mümkün kılıyor

Performans ve Teknik Özellikler

  • Hız: NVIDIA Blackwell GPU üzerinde saniyede 1.009 token
  • Fiyat: 1 milyon giriş token'ı başına $0.25, 1 milyon çıkış token'ı başına $0.75
  • Kalite: önde gelen hız optimize edilmiş modellerle rekabet edebilecek düzeyde
  • Özellikler: ayarlanabilir çıkarım (tunable reasoning), 128K context, araç kullanımı, JSON schema ile hizalanmış çıktı
  • Gecikme optimizasyonu: p95 gecikme, yüksek eşzamanlılık ortamlarında tutarlı yanıt verebilirlik, kararlı throughput
  • NVIDIA yetkilileri, Mercury 2'nin NVIDIA AI altyapısıyla birleştiğinde saniyede 1.000 token'ı aştığını belirtti

Prodüksiyondaki Kullanım Senaryoları

1. Kodlama ve düzenleme

  • Otomatik tamamlama, refactoring, kod ajanları gibi geliştirici döngülerinde anlık yanıt sağlıyor
  • Zed kurucu ortağı Max Brunsfeld, “düşüncenin bir parçası kadar hızlı öneri hızı” vurgusu yaptı

2. Ajan döngüleri

  • Çok aşamalı çıkarım çağrıları gerektiren ajan iş akışlarında çağrı gecikmesini azaltıyor
  • Viant, Mercury 2'yi kullanarak gerçek zamanlı kampanya optimizasyonu ve otonom reklam sistemlerini güçlendirdi
  • Wispr Flow, gerçek zamanlı konuşma ve transkripsiyon rafinesi için Mercury 2'nin hızını değerlendiriyor
  • Skyvern, bunun “GPT-5.2'den en az iki kat daha hızlı” olduğunu belirtti

3. Gerçek zamanlı ses ve etkileşim

  • Ses arayüzleri, en katı gecikme sınırlarına sahip
  • Happyverse AI, Mercury 2 ile doğal gerçek zamanlı konuşabilen avatarlar oluşturdu
  • OpenCall, düşük gecikme ve yüksek kalite sayesinde daha tepkisel ses ajanları geliştirmenin mümkün olduğunu belirtti

4. Arama ve RAG pipeline'ları

  • Çoklu arama·yeniden sıralama·özetleme süreçlerinde biriken gecikmeyi azaltarak gerçek zamanlı çıkarımı mümkün kılıyor
  • SearchBlox, Mercury 2 ile iş birliği içinde gerçek zamanlı arama yapay zekası geliştirdi;
    müşteri desteği, risk ve e-ticaret gibi farklı alanlarda saniyeler içinde içgörü sağlıyor

Dağıtım ve Entegrasyon

  • Mercury 2 hemen kullanıma hazır ve OpenAI API ile tam uyumlu
  • Mevcut sistemlere kod değişikliği olmadan entegre edilebilir
  • Kurumsal değerlendirmelerde iş yüküne uygunluk, performans doğrulama ve değerlendirme tasarımı desteği sunuluyor
  • Resmî ifade: “Mercury 2 is live. Welcome to diffusion.

1 yorum

 
GN⁺ 2026-02-26
Hacker News yorumları
  • Saniye başına zeka(metric) ölçme fikri ilginç
    Örneğin token başına zekayı ve saniye başına token sayısını birlikte değerlendiren bir yaklaşım
    Şahsen Sonnet 4.6, Opus 4.6'dan 5 kat daha hızlıysa muhtemelen çoğunlukla Sonnet kullanırdım
    Önceki nesilde Sonnet serisi yeterince iyi değildi ama artık hızın sağladığı iterasyon avantajı çok büyük, bu yüzden durum değişti
    Eskiden OpenAI Deep Research kullanıyordum ama o3-thinking + web araması çok daha hızlı ve yeterince zekiydi

    • Hızın kendisi kalitenin bir ekseni” diye düşünüyorum
      Cereberas veya Groq gibi donanımlarla API geliştirirseniz iterasyon hızı ve maliyet tamamen başka bir seviyede oluyor
      Yakın zamanda yazdığım araştırma notunda da, planlamayı AR modeline, üretimi ise diffusion modeline ayırmanın performansı büyük ölçüde artırdığını gösteriyorum
    • Bu metriğe donanım birimi başına verimliliği de eklemek daha gerçekçi olabilir
      Örneğin 5 ton kömür yeterliyken 0.0000000001% iyileşme için 30 ton kullanmak gerçek bir ilerleme değil
    • Hızlı ajan iterasyonu hedefleyen yeni bir model ailesi ortaya çıkıyor
      Composer veya Flash sürümü modeller buna örnek, Mercury 2 de bu kategoride güçlü bir model olarak konumlanıyor
    • Yakında gerçek benchmark yapabilecek gibiyiz
      Hızlı modeller iterasyonda avantajlı, büyük modeller ise ilk denemede daha doğru
      Şu anda Opus 4.6'yı seviyorum ama Sonnet ile verimlilik farkını verilerle görmek istiyorum
    • “Intelligence per second” kavramını gerçekten çok beğendim
      Gemini 3 Flash'ı sevmemin nedeni tam olarak buydu — yeterince zeki ve inanılmaz derecede hızlı
  • Basit bir test yaptım; “Maradona'nın başarıları” diye sorduğumda Mercury 2 “Dieadona” diye yazım hatası yaptı
    Yerel bir 3B modelin bile kusursuz yanıtlayacağı bir soru ama Mercury 2 yavaş ve hataya açık

  • Mercury 2, yanıtlarını paralel arıtma(parallel refinement) yöntemiyle üretiyor
    Aynı anda birden çok token üretip birkaç adım içinde yakınsayan bir yapı; daktilo gibi sırayla yazmak yerine bir editör gibi tüm taslağı cilalayan bir yaklaşım
    DDPM ve SGM'nin SDE altında birleştirilmesine dair araştırmalar sürüyor; transformer'ın her katmanını bir diffusion adımı olarak görmenin mümkün olup olmayacağını merak ediyorum
    Eğer transformer'ın L katmanı diffusion'ın L aşamalı arıtmasıyla eşleşirse, iki model arasında karşılıklı fitting mümkün olabilir

  • Inception'ın kurucu ortaklarından biri ve Chief Scientist olarak Mercury 2 veya diffusion LM hakkında teknik soruları memnuniyetle yanıtlarım

    • diffusion modelinde KV cache nasıl çalışıyor merak ediyorum
      Gecikme veya maliyeti azaltabiliyor mu, autoregressive caching'e benzer bir eğri mi gösteriyor, yoksa hiç uygulanamıyor mu bilmek isterim
    • diffusion modelinin metin blokları düzeyinde reasoning yaptığı görülüyor; bloklar arasında bilgi bağımlılığı olduğunda bunun nasıl ele alındığını merak ediyorum
      Dinamik blok uzunluğu uygulanıp uygulanamayacağı da ilginç
    • Sunumda bahsedilen Voice AI'ın pratikte nasıl çalıştığını merak ediyorum
      Çoğu ses sisteminde toplam yanıt gecikmesinden çok TTFT(time-to-first-token) önemlidir
      Mercury 2'nin TTFT değerinin diğer reasoning modellerine kıyasla ne kadar iyileştiğini öğrenmek isterim
    • Zayıf transformer modellerindeki gibi döngüye girme sorunu yaşadım
      örnek bağlantı
      Bunun neden olduğunu merak ediyorum
    • Daha yüksek hız için drifting model yönünde gelişme planı olup olmadığını da merak ediyorum
  • Saniyede binlerce token üreten modellerin ortaya çıkması en ilginç gelişme
    Böyle olunca multi-shot prompting veya nudging yapılsa bile kullanıcı bunu fark etmez; bu da halüsinasyon ve deterministik olmayan yanıt sorunlarını azaltabilir

    • Biz de aynı fikirdeyiz
      Mercury 2, ajan görevlerinde hızlı iterasyonu mümkün kılıyor
      Tek bir deneme daha az doğru olabilir ama kısa çalışma süresi sayesinde çok daha hızlı iyileştirilebilir
    • Genel amaçlı modeller de batch inference ile oldukça hızlı olabiliyor
      Örneğin GPT-OSS 20B, tek bir 3090 üzerinde bs=64 ile yaklaşık 2k tok/s'ye ulaşıyor
  • diffusion modellerine hâlâ tam ikna olmuş değilim
    Google ve başkaları da denedi ama çoğu durumda Pareto frontier üzerinde geride kaldılar
    fiyat/performans karşılaştırma bağlantısı

    • Pareto açısından buna itiraz eden bir görüş var
      Aynı kalite düzeyinde Mercury, benzer AR modellere göre 5 kattan fazla daha hızlı
      Mutlak zeka seviyesi hâlâ Opus veya Gemini Pro'nun altında ama çıkarım hızı açısından büyük bir avantaja sahip
    • Metin diffusion hâlâ gelişime çok açık
      Autoregressive transformer'lara kıyasla çok daha az keşfedilmiş bir alan olduğu için teknik headroom yüksek
    • Bu model hızlı düzenleme(edit) kullanımı için mükemmel olabilir
      Morph'un Fast Apply ürünü gibi bir “Mercury Edit” sürümü olursa kesinlikle denemek isterim
  • diffusion tabanlı yaklaşım son derece ilginç
    Geleneksel transformer'lar token'ları sırayla üretirken diffusion tüm çıktıyı tekrar tekrar rafine(refine) edebilir
    Eğer gecikme(latency) sorununu çözdülerse, bu karmaşık reasoning görevleri için yeni olasılıkların kapısını açabilir

  • Yerel donanımda çalıştırılabilen open-weight diffusion LLM olup olmadığını merak ediyorum
    Tüketici GPU'larında performans farkını bizzat görmek isterim

  • Mercury 2 Car Wash Test'te başarısız oldu
    Genel amaçlı reasoning modeli olmaktan ziyade belirli kullanım alanlarına (ör. kodlama ajanı) odaklanıp bu alanda SOTA modellerle (Qwen3-Coder-Next vb.) karşılaştırılması daha mantıklı olabilir

    • Ben şahsen hızlı ama çok hata yapan modellerdense yavaş ama doğru modelleri tercih ederim
      Uzun oturumlar çalıştıracak olsam bile doğruluk daha önemli
  • Eğer bu model Talaas çipi üzerine yerleştirilirse saniyede 50.000'den fazla token üretebilir mi diye merak ediyorum

    • Bellek gecikmesi olmayan ASIC tarzı bir devreye gömülürse, hangi model olursa olsun muazzam hız artışı mümkün gibi görünüyor