OpenRouter Fusion API

(openrouter.ai)

15 puan yazan GN⁺ 2026-06-16 | 1 yorum | WhatsApp'ta paylaş

Birden fazla modelin sonucunu sentezlemenin (synthesize), tek tek modellerin performansını açık ara geride bırakabildiği bulgusundan yola çıkıyor
Tek bir prompt’un birden çok uzman model tarafından paralel olarak analiz edilmesinin ardından, hakem model (judge model) sonuçları sentezleyip nihai yanıtı yazdığı çok modelli müzakere (multi-model deliberation) yaklaşımı
Panel modelleri, web search ve web fetch etkin durumdayken paralel analiz yapıyor; hakem model ise uzlaşı, çelişkiler, kısmi örtüşme, benzersiz içgörüler, kör noktalar için yapılandırılmış bir analiz hazırlıyor
Varsayılan ayar Quality preset; daha ucuz modeller için Budget preset’e geçilebilir veya fusion eklentisi alanlarıyla panel ve hakem tamamen yeniden tanımlanabilir
Tek modelin yeterli olmadığı araştırma, uzman değerlendirmesi ve yanlış cevabın maliyetinin ek tamamlama maliyetini aştığı durumlar için uygun
Tüm panel üyeleri ve hakem çağrısı çalıştırıldığı için, istek maliyeti tek model yerine ayrı completion’ların toplamı üzerinden fiyatlandırılıyor

Nasıl çalışır

Tek bir prompt’u küçük ölçekli bir çok modelli müzakereye dönüştürür
- Uzman model paneli, web search ve web fetch açık durumdayken prompt’u paralel olarak analiz eder
- Hakem model, panel yanıtlarını sentezleyerek uzlaşı (consensus), çelişkiler (contradictions), kısmi kapsama (partial coverage), benzersiz içgörüler (unique insights), kör noktalar (blind spots) şeklinde yapılandırılmış analiz üretir
- Hakem model, bu yapılandırılmış analize dayanarak nihai yanıtı yazar

Panel yapısı ve ayarlar

Varsayılan panel Quality preset kullanır
- Daha ucuz üyeler istenirse Budget preset’e geçilebilir
- fusion eklentisinin analysis_models ve model alanlarıyla panel ve hakem tamamen override edilebilir
Tek modelin yeterli olmadığı durumlarda kullanılması önerilir
- Araştırma, uzman değerlendirmesi veya yanlış cevabın maliyetinin ek tamamlama maliyetinden yüksek olduğu alanlar için uygundur

Fiyatlandırma ve kısıtlar

Tüm panel üyeleri ve hakem çağrısı çalıştırıldığı için, istek maliyeti tek model bazında değil ayrı completion’ların toplamı olarak hesaplanır
- Gerçekte hangi modellerin çalıştığı Activity sayfasından görülebilir
Bağlam sınırı seçilen modellere göre değişir

Preset’lerde 6 model kullanılır

En yüksek kalite: Claude Opus, OpenAI GPT, Google Gemini Pro
En düşük maliyet: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi

İlgili duyuru: "Fusion ile frontier performansının ötesine geçmek"

Birden fazla modelin sonucunu sentezleyerek tek tek modellerin performansını aşan bir araç; katılımcı model paneli ile sonuçları birleştiren judge model doğrudan seçilip tek modelmiş gibi çağrılabiliyor
DRACO benchmark üzerindeki 100 deep research görevinin ölçümünde panel, tekil modelleri tutarlı biçimde geride bıraktı
- Fable 5 + GPT-5.5 birleşimi %69,0 ile tek başına Fable 5 (%65,3) dahil tüm bireysel modelleri geçti
- Düşük maliyetli panel (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro), %50 maliyetle Fable 5 skorunun 1% yakınına geldi ve GPT-5.5 ile Opus 4.8’i geçti
Prompt, panel modellerine paralel olarak gönderilir; judge uzlaşı noktaları, çelişkiler, benzersiz içgörüler ve kör noktaları analiz eder, çağrılan model de buna dayanarak nihai yanıtı yazar
Tüm pipeline server-side çalıştığı için, tekil model çağrılarıyla aynı şekilde kullanılabilir
Opus 4.8’in kendi kendisiyle fusion yapılması durumunda bile %65,5’e ulaşıp tek başına kullanımına (%58,8) göre 6,7 puan artış göstermesi, sentez aşamasının etkisini doğruladı
Panel modellerinin puanlama rubriğini çevrimiçi bulma yoluyla kirlenme riski tespit edildi; web search ve web fetch hariç tutma listesi tek satırlık ayarla uygulanarak bu risk engellenebiliyor
4 kullanım yolu sunuluyor: Chatroom (kod gerekmez), Model slug (string değiştirme), Server tool (en üst düzey kontrol), Plugin (panel belirleme)
Fable için birebir drop-in replacement değil; Fable’ın güçlü olduğu uzun ufuklu görevler dahil değil, kodlamada ise isteğe bağlı çağrı aracı olarak kullanılabiliyor

1 yorum

GN⁺ 2026-06-16

Hacker News görüşleri

Birkaç ay önce OpenRouter kullanan bir MCP ile Fusion yapmayı denemiştim. Fikir, Claude tıkandığında başvuracağı bir “uzmanlar paneli” vermekti
Çok test ve benchmark yaptıktan sonra, bir modele başka bir modelin cevabını değerlendirtmenin pratikte daha iyi bir cevap vermediğini gördüm. Sonuçta sorduğunuz şey “bu cevap senin vereceğin cevaba ne kadar benziyor” oluyor ve ek turlar ya da akla gelen “bariz” çözümler de aslında sıcaklığı artırmaya benziyordu. Bir çözüm buldum ama maliyeti saçma derecede yüksekti. Bu yaklaşım daha çok ilgi görürse ben de benimkini yayımlayabilirim
- Prompt önemli. Başka modellerin görüşünü istiyorsanız, doğal olarak onları en baştan aynı prompt ile üretim yapacak şekilde çalıştırıp sonra birleştirmek gerekir; isterseniz mevcut yanıt üzerinde çalışmalarını da sağlayabilirsiniz
  Ben açıkça ciddiyet seviyesine göre sorun bulmalarını istiyorum, sonra bu sorunları bir hakem model panelinden geçirip sadece belli bir eşiğin üstüne çıkanları orijinal yanıtta düzelttiriyorum. Sonuçları ciddi biçimde iyileştiren farkındalık, hakem modele doğruluk ile “faydalılık/düzeltilmeli mi” eksenlerini ayrı ayrı değerlendirmesini söylemek oldu. Çünkü sorun bulmaya zorlarsanız sonunda ufak tefek kusur avcılığı çıkıyor ve doğruluk ekseni de benim kullanım alanımda sorun tespit modellerini değerlendirmek için daha uygundu. Bu açıklamaları üretirken kısmen uygulanıyor: https://hanzirama.com/character/%E6%9D%A5#explain — şu anda bu site, benim LLM değerlendirme düzeneğimin küçük bir yan ürünü hâline geldi. En yüksek kalite gerekiyorsa OpenRouter'da sağlayıcıyı sabitlemeniz gerekebilir. Yalnızca :exacto, özellikle açık ağırlıklı modellerde, tekrarlanabilir iyi sonuçlar almak için yeterli olmuyor
- Hakem modele cevabın küçük ve zayıf bir yerel LLM'den geldiğini söylerseniz, cevabı aşırı sert biçimde didik didik ettiğini gördüm. Ama bunu sistematik olarak denemedim; o yüzden bunun sezgimin ötesinde genellenebilir olup olmadığını bilmiyorum
  LLM'yi “kendini üstün hisseden” bir moda kandırabilirseniz epey kötü davranabildiğini düşünen başka biri var mı merak ediyorum
- 2024'te bu fikrin kaba bir sürümünü yapmıştım[0], bu yaklaşımın hâlâ sürmesi ilginç. Kalite eşiği ayarlanabiliyordu ama pek fark yaratmıyor gibiydi ve frontier modeller neredeyse her zaman birbiriyle aynı fikirde olup cevaba yüksek puan veriyordu
  İki yıl öncesine göre oyun tamamen değişti, o yüzden yeniden bakmaya değer. [0] https://github.com/Ceroxylon/konsensis
- Bunun, cevabın doğrulanabilir olup olmamasına bağlı olduğunu düşünüyorum
  Uygulamamda iki hakem modeli test ettim. İlki, özgeçmiş özelleştirme modeli için bir hakem modeldi; ortaya çıkan özgeçmişi orijinal özgeçmiş ve iş ilanıyla karşılaştırıp uygunluk ve dürüstlük açısından 10 üzerinden puanlıyordu ve iyi çalıştı, faydalı oldu. İkincisi ise LLM trading bot platformunda ana modelin kararlarını gözden geçiren bir inceleme modeliydi. Burada bot belirsizlikle uğraştığı için, yanlış candle fiyatına göre karar vermek ya da SELL olması gerekirken BUY demek gibi bariz hataları yakalamadığı sürece aslında zararlı olabiliyor. Öncelikle karar gecikmesi ekleniyor; Gemma 4 31B için 30 saniye olan süre 60 saniyeye çıkıyor, yani iki katına. Ayrıca inceleme modeli yalnızca BUY/SELL kararlarında çalışıyor, HOLD için çalışmıyor; bu yüzden gecikme ve maliyet yüzünden bot daha fazla işlem yapmak yerine aşırı temkinli hâle gelebiliyor. Bu yüzden cevap kolay doğrulanamıyorsa, inceleme modeli yerine daha iyi bir modelle işi tek seferde yapmak daha mantıklı olabilir diye düşünüyorum. Öyleyse hakem modele neden ihtiyaç duyulduğu ve neden aynı ajanın kendi kendini gözden geçirmediği de belirsizleşiyor. Üstelik Gemma 4 gibi akıl yürüten modellerin düşünme metnine bakınca zaten kendi kendilerini gözden geçiriyorlar. Yani ellerinden gelenin en iyisini yapıyorlar; yeniden inceleme çok fazla ek bilgi katmıyor. İlginç bir deney, ama olay bazında değerlendirmek gerekiyor
- Ben de aynı deneyimi yaşadım. Nesnel olarak daha iyi cevap bulmak düşündüğümden zordu; ayrıca pahalı ve yavaştı
Sadece Claude Code kullanarak bunu şu tarz bir prompt ile yapıyordum
Mimari sorunları inceleyelim. 10 ajan başlat, her birine bir persona oluştur, sonra _api.go dosyasını inceleyip reviews/-review.md içine inceleme yazdır. Her ajan, her incelemenin başındaki özeti görsün, istediği 3 incelemeye round-robin şeklinde yanıt versin ve response/--response.md içine yazsın. Sonra yanıtlara karşı itirazları rebuttals/-rebuttal.md içine yazsın. Son olarak her ajan, kendi incelemesini, yanıtlarını ve itirazlarını gözden geçirecek ayrı bir ajan daha başlatsın ve sonucu findings/-findings.md içinde toparlasın. En sonunda başka bir ajan sonuçları birleştirip review-findings.md içine yazsın; burada daha kısa bir sürüm sunulsun. Bu yöntem hem frontier modellerde hem de yerelde barındırılan modellerde iyi çalıştı. En son kullandığım Qwen 3.5'ti
- Tek bir akışta birden fazla ajan kullanmaya alışık değilim, o yüzden birkaç şey merak ediyorum
  Üretilen bütün dosyaları gözden geçirip halüsinasyon olmadığını kontrol ediyor musunuz, yoksa sadece sondaki kısa sonuç dosyasına mı bakıyorsunuz merak ediyorum. Birden fazla ajan geçişiyle halüsinasyonların birbirini götürüp sonunda sadece gerçeğin kalması mı hedefleniyor, onu da merak ediyorum. Son sürümde ciddi biçimde yanlış şeyler gördüğünüz oldu mu, bunu da bilmek isterim. Maliyet beni düşündürüyordu ama yerel barındırılan modeller kullanılırsa bu tarafı daha az sorun olabilir. Yine de yerel barındırılan modellerin hâlâ yerel komut çalıştırma veya internete erişim konusunda sorunları yok mu? Öyleyse, projenin geri kalanına bakmadan sadece ilgili dosyanın bağlamıyla mı çalışıyorlar, onu merak ediyorum
- Aynı incelemeyi n kez çalıştırıp sonuçları birleştirmektense mekanizma epey fazla görünüyor. Neden böyle bir tasarıma yöneldiğinizi merak ediyorum
Arka plan bağlamı burada: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
Biraz daha iyi UI olan yer https://openrouter.ai/fusion. OpenRouter’ın Fusion API’si istekleri aynı anda birden fazla modele gönderiyor ve bir hakem model yanıtları birleştirerek nihai cevabı oluşturuyor. Daha uzun sürmesi karşılığında performansı ciddi biçimde artırdığı söyleniyor. En azından test ettikleri deep research benchmark’ında durum buydu. Budget preset’i daha ucuz 3 modelden oluşuyor ve ilgili benchmark’ta Fable’a kabaca benzerken maliyeti yarısı kadar. Quality preset’i pahalı 3 modelden oluşuyor, Fable’ı geçiyor ama maliyeti Fable’ın iki katı. Pareto grafiği: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... İlginç biçimde aynı modeli kendisiyle fusion etmek de performansı artırmış. 2xOpus4.8 benchmark’ta Fable’a kabaca benzer ama maliyeti Fable’ın iki katı. Farklı modelleri karıştırınca biraz daha ek kazanç var. Ana kazanç büyük olasılıkla ek test zamanı hesaplamasından geliyor. DSV4 gibi son dönemde çıkan ucuz modellerin kendisiyle ya da Mimo ile fusion edilmesi etrafında daha fazla araştırma görmek isterim; ayrıca fusion gibi paralel test zamanı hesaplaması ile daha fazla akıl yürütme hesabı ya da daha fazla tur arasındaki ödünleşimi de görmek isterim
- “Aynı modeli kendisiyle fusion etmek de performansı artırdı” meselesi, GPT-2’den GPT-3’e gidilen dönemde epey yaygın bir yaklaşımdı
  Esasen mümkün çıktı uzayından daha fazla örnek çekmek demek. Modelin bir görevi başarma olasılığı %60 ise 5-10 örnek çekip çoğunluk oyu gibi bir şey uygulayabilirsiniz. Sonuçları birleştirmenin kolay olduğu problemler için model doğruluğu arttıkça daha az kullanılır oldu, ama daha karmaşık bir hakem, yani yetkin bir LLM varsa çıktı uzayını daha fazla örneklemek ve iyi kısımları seçmek hâlâ performansı artırabiliyor
- Fable 5 + GPT 5.5 panelinin tek başına ikisinden birinin frontier performansını epey geçmesi, ama Gemini eklenince üç modellik panelin daha iyi olmak yerine kötüleşmesi ilginç
  Bana Gemini’nin o görevde daha zayıf olduğu ama kendi çözümünü hakem modele kabul ettirme konusunda daha iyi olduğu gibi geliyor. Bir de iki Opus 4.8’li panelin tek bir Fable 5 ile neredeyse tam aynı seviyede olması biraz şüpheli kokuyor. Anthropic perde arkasında zaten böyle bir şey yapıyor olabilir mi, bunu bilmenin bir yolu var mı?
- Sentez aşaması yüzünden ne kadar daha uzun sürdüğü konusuna neredeyse hiç değinmemeleri üzücü. Deep research benchmark’ında çok önemli olmayabilir ama kodlama işlerine nasıl uygulanacağını merak ediyorum
- Şu anki modellerde de hâlâ geçerli mi bilmiyorum ama birkaç nesil önce Microsoft araştırmalarında, modeli N kez yineletmenin performansı ciddi artırdığı ve en iyi noktanın 4 tekrar olduğu bulunmuştu
Opus 4.7 ya da GPT 5.5’i doğrudan çağırmaktan niteliksel olarak nasıl farklı olduğunu görmek için hızlı bir değerlendirme yaptım
Beklendiği gibi Fusion 7 kat daha yavaştı ve 4 kat daha pahalıydı. Bunu eleştirmek için söylemiyorum; bence Fusion “yalnızca gerektiğinde kullanılan” kategorisine giriyor. https://3fpi5avcqq.evvl.io/
- Fusion, distillation hedefi olarak gerçekten çok iyi görünüyor
- Paylaşım için teşekkürler. En büyük endişem hızdı, ama onlar bu kısımdan hiç bahsetmemişti
- Altta hangi modeli kullandığını merak ediyorum. Arayüzdeki varsayılan Quality seçeneğini kullandıysan, frontier seviyesinde 3 model ve bunlardan birinin hakem olduğu bir yapı için maliyetin yaklaşık 4 kat olması mantıklı
  Asıl fikir muhtemelen daha basit ve ucuz modellerle Fusion kullanmak
- Bana oldukça sezgiye aykırı geliyor. Bunun iyi çalışacağı doğru çerçeve ve yapıyı bulmak kolay olmayabilir. Modeller birlikte iyi geçinmekten gerçekten hoşlanmıyor
  Gerçek kullanımda bunun sürümünün nasıl dayanacağını merak ediyorum
Bu problemi çok düşündüm ve basitleştirerek anlamaya çalışırsam her modeli, insan bilgisinin üzerinde duran bir çan eğrisi dağılımı gibi görebiliriz; her modelin dağılımı farklı
Birden fazla model kullanınca, başlangıçtaki eğrinin dışındaki metinle başka modellerin dağılımını değiştirebilirsiniz. Ama tekrar düşününce SFP ve reinforcement learning’in zaten özgün metin dağılımını yeterince değiştirdiğini, dolayısıyla modellerin birleşik çıktısının daha iyi bir şeye dönüşecek kadar çeşitlenip çeşitlenmediğini, yoksa sadece bir yankı odası mı oluşturduğunu merak ediyorum. Bunu henüz kanıtlayacak bir yöntem yok ama ben öyle olmadığını düşünüyorum
Fusion’la ilgili anekdotsal bir sonuç olarak, Fable’da kullandığım aynı sorguyu OpenRouter Fusion’da denedim ve sonuç daha kötüydü
Fable belli ölçüde çok derin bir bilgi/zeka katmanını yakaladı; sadece kulağa makul gelen yanıtlar vermekle kalmayıp çözüm maddelerini önceliklendirmeyi önerdi ve bazı maddelerin bırakılmasını savundu, bu da bana oldukça mantıklı geldi. Buna karşılık Fusion, Fable öncesi state-of-the-art modellerin verdiği aynı tür cevapların biraz çeşitlendirilmiş hâli gibi hissettirdi ve Fable’a erişimim varken yaptığım çok sınırlı testlerde Fable’ın ulaştığı derinliğe ulaşamadı
Hafta sonu yeni OpenRouter Fusion modelinden ilham alarak, bunu Claude Code üzerinde çalıştırıp çalıştıramayacağımı ve başkalarının da kolayca deneyebilmesi için bir şey yapıp yapamayacağımı görmek üzere uğraştım
Ortaya çıkan şey claude-fusion-launcher — Claude Code’u tek bir model yerine bir model paneli üzerinde çalıştırıyor. Maliyeti de gösteriyor. https://github.com/smorinlabs/claude-fusion-launcher
- Hızlıca pahalı hâle gelmiyor mu? Web sitesinde denediğim tek seferlik prompt’ların maliyeti neredeyse prompt başına 1 dolar oldu
Aynı prompt’u aynı modelle birkaç kez, daha yüksek temperature ile yeniden üretmenin farklı modeller çalıştırmaya eşdeğer olup olmadığını merak ediyorum
Farklı frontier modeller arasında hissedilen değişkenliğin önemli bir kısmının, sıfır olmayan temperature’dan gelen rastgelelikten kaynaklanıyor olabileceğinden şüpheleniyorum. Modeller sanki 5, 10, 15 gibi hoş görünen yuvarlak sayıda madde döndürmek üzere eğitilmiş gibi. Bunun nedeni pazarlama materyalleriyle eğitimin yarattığı girişim de olabilir. Ayrıca büyük bağlamlarda geri çağırma oranı %100 olmaktan çok uzak. Dolayısıyla kodda 27 hata varsa, ister birden fazla model kullanın ister aynı modeli tekrar tekrar çağırın, her çalıştırmada bu 27’nin içinden farklı 10 sorunu bulabilirsiniz
Bu alanda resmî bir araştırma olup olmadığını merak ediyorum. Ben de bu tür bir yaklaşımın varyasyonlarını denedim, ancak sonuçların daha iyi olduğunu kendinden emin şekilde söylemek zordu.
Bir işletme için en iyi stratejiyi 2-3 danışmana ayrı ayrı sormaya mı benziyor diye endişeleniyorum. Yanıtları birleştirmenin gerçekten daha iyi bir şey ortaya çıkarıp çıkarmadığından emin değilim.
TrustedRouter'ımda da benzer bir özelliği açık kaynak olarak, uçtan uca şifreleme ile birlikte yayınladım: https://trustedrouter.com/
- Gerçek bir gizlilik taahhüdü görmenin güzel olduğunu düşünüyorum. Kaçamak ve muğlak sağlayıcı şartlarını durmadan okumaya çok zaman harcıyorum.

OpenRouter Fusion API

Nasıl çalışır

Panel yapısı ve ayarlar

Fiyatlandırma ve kısıtlar

Preset’lerde 6 model kullanılır

İlgili duyuru: "Fusion ile frontier performansının ötesine geçmek"

İlgili okumalar

1 yorum

Hacker News görüşleri