OpenRouter Fusion API
(openrouter.ai)- Birden fazla modelin sonucunu sentezlemenin (synthesize), tek tek modellerin performansını açık ara geride bırakabildiği bulgusundan yola çıkıyor
- Tek bir prompt’un birden çok uzman model tarafından paralel olarak analiz edilmesinin ardından, hakem model (judge model) sonuçları sentezleyip nihai yanıtı yazdığı çok modelli müzakere (multi-model deliberation) yaklaşımı
- Panel modelleri, web search ve web fetch etkin durumdayken paralel analiz yapıyor; hakem model ise uzlaşı, çelişkiler, kısmi örtüşme, benzersiz içgörüler, kör noktalar için yapılandırılmış bir analiz hazırlıyor
- Varsayılan ayar Quality preset; daha ucuz modeller için Budget preset’e geçilebilir veya fusion eklentisi alanlarıyla panel ve hakem tamamen yeniden tanımlanabilir
- Tek modelin yeterli olmadığı araştırma, uzman değerlendirmesi ve yanlış cevabın maliyetinin ek tamamlama maliyetini aştığı durumlar için uygun
- Tüm panel üyeleri ve hakem çağrısı çalıştırıldığı için, istek maliyeti tek model yerine ayrı completion’ların toplamı üzerinden fiyatlandırılıyor
Nasıl çalışır
- Tek bir prompt’u küçük ölçekli bir çok modelli müzakereye dönüştürür
- Uzman model paneli, web search ve web fetch açık durumdayken prompt’u paralel olarak analiz eder
- Hakem model, panel yanıtlarını sentezleyerek uzlaşı (consensus), çelişkiler (contradictions), kısmi kapsama (partial coverage), benzersiz içgörüler (unique insights), kör noktalar (blind spots) şeklinde yapılandırılmış analiz üretir
- Hakem model, bu yapılandırılmış analize dayanarak nihai yanıtı yazar
Panel yapısı ve ayarlar
- Varsayılan panel Quality preset kullanır
- Daha ucuz üyeler istenirse Budget preset’e geçilebilir
- fusion eklentisinin
analysis_modelsvemodelalanlarıyla panel ve hakem tamamen override edilebilir
- Tek modelin yeterli olmadığı durumlarda kullanılması önerilir
- Araştırma, uzman değerlendirmesi veya yanlış cevabın maliyetinin ek tamamlama maliyetinden yüksek olduğu alanlar için uygundur
Fiyatlandırma ve kısıtlar
- Tüm panel üyeleri ve hakem çağrısı çalıştırıldığı için, istek maliyeti tek model bazında değil ayrı completion’ların toplamı olarak hesaplanır
- Gerçekte hangi modellerin çalıştığı Activity sayfasından görülebilir
- Bağlam sınırı seçilen modellere göre değişir
Preset’lerde 6 model kullanılır
- En yüksek kalite: Claude Opus, OpenAI GPT, Google Gemini Pro
- En düşük maliyet: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi
İlgili duyuru: "Fusion ile frontier performansının ötesine geçmek"
- Birden fazla modelin sonucunu sentezleyerek tek tek modellerin performansını aşan bir araç; katılımcı model paneli ile sonuçları birleştiren judge model doğrudan seçilip tek modelmiş gibi çağrılabiliyor
- DRACO benchmark üzerindeki 100 deep research görevinin ölçümünde panel, tekil modelleri tutarlı biçimde geride bıraktı
- Fable 5 + GPT-5.5 birleşimi %69,0 ile tek başına Fable 5 (%65,3) dahil tüm bireysel modelleri geçti
- Düşük maliyetli panel (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro), %50 maliyetle Fable 5 skorunun 1% yakınına geldi ve GPT-5.5 ile Opus 4.8’i geçti
- Prompt, panel modellerine paralel olarak gönderilir; judge uzlaşı noktaları, çelişkiler, benzersiz içgörüler ve kör noktaları analiz eder, çağrılan model de buna dayanarak nihai yanıtı yazar
- Tüm pipeline server-side çalıştığı için, tekil model çağrılarıyla aynı şekilde kullanılabilir
- Opus 4.8’in kendi kendisiyle fusion yapılması durumunda bile %65,5’e ulaşıp tek başına kullanımına (%58,8) göre 6,7 puan artış göstermesi, sentez aşamasının etkisini doğruladı
- Panel modellerinin puanlama rubriğini çevrimiçi bulma yoluyla kirlenme riski tespit edildi; web search ve web fetch hariç tutma listesi tek satırlık ayarla uygulanarak bu risk engellenebiliyor
- 4 kullanım yolu sunuluyor: Chatroom (kod gerekmez), Model slug (string değiştirme), Server tool (en üst düzey kontrol), Plugin (panel belirleme)
- Fable için birebir drop-in replacement değil; Fable’ın güçlü olduğu uzun ufuklu görevler dahil değil, kodlamada ise isteğe bağlı çağrı aracı olarak kullanılabiliyor
1 yorum
Hacker News görüşleri
Birkaç ay önce OpenRouter kullanan bir MCP ile Fusion yapmayı denemiştim. Fikir, Claude tıkandığında başvuracağı bir “uzmanlar paneli” vermekti
Çok test ve benchmark yaptıktan sonra, bir modele başka bir modelin cevabını değerlendirtmenin pratikte daha iyi bir cevap vermediğini gördüm. Sonuçta sorduğunuz şey “bu cevap senin vereceğin cevaba ne kadar benziyor” oluyor ve ek turlar ya da akla gelen “bariz” çözümler de aslında sıcaklığı artırmaya benziyordu. Bir çözüm buldum ama maliyeti saçma derecede yüksekti. Bu yaklaşım daha çok ilgi görürse ben de benimkini yayımlayabilirim
Ben açıkça ciddiyet seviyesine göre sorun bulmalarını istiyorum, sonra bu sorunları bir hakem model panelinden geçirip sadece belli bir eşiğin üstüne çıkanları orijinal yanıtta düzelttiriyorum. Sonuçları ciddi biçimde iyileştiren farkındalık, hakem modele doğruluk ile “faydalılık/düzeltilmeli mi” eksenlerini ayrı ayrı değerlendirmesini söylemek oldu. Çünkü sorun bulmaya zorlarsanız sonunda ufak tefek kusur avcılığı çıkıyor ve doğruluk ekseni de benim kullanım alanımda sorun tespit modellerini değerlendirmek için daha uygundu. Bu açıklamaları üretirken kısmen uygulanıyor: https://hanzirama.com/character/%E6%9D%A5#explain — şu anda bu site, benim LLM değerlendirme düzeneğimin küçük bir yan ürünü hâline geldi. En yüksek kalite gerekiyorsa OpenRouter'da sağlayıcıyı sabitlemeniz gerekebilir. Yalnızca
:exacto, özellikle açık ağırlıklı modellerde, tekrarlanabilir iyi sonuçlar almak için yeterli olmuyorLLM'yi “kendini üstün hisseden” bir moda kandırabilirseniz epey kötü davranabildiğini düşünen başka biri var mı merak ediyorum
İki yıl öncesine göre oyun tamamen değişti, o yüzden yeniden bakmaya değer. [0] https://github.com/Ceroxylon/konsensis
Uygulamamda iki hakem modeli test ettim. İlki, özgeçmiş özelleştirme modeli için bir hakem modeldi; ortaya çıkan özgeçmişi orijinal özgeçmiş ve iş ilanıyla karşılaştırıp uygunluk ve dürüstlük açısından 10 üzerinden puanlıyordu ve iyi çalıştı, faydalı oldu. İkincisi ise LLM trading bot platformunda ana modelin kararlarını gözden geçiren bir inceleme modeliydi. Burada bot belirsizlikle uğraştığı için, yanlış candle fiyatına göre karar vermek ya da SELL olması gerekirken BUY demek gibi bariz hataları yakalamadığı sürece aslında zararlı olabiliyor. Öncelikle karar gecikmesi ekleniyor; Gemma 4 31B için 30 saniye olan süre 60 saniyeye çıkıyor, yani iki katına. Ayrıca inceleme modeli yalnızca BUY/SELL kararlarında çalışıyor, HOLD için çalışmıyor; bu yüzden gecikme ve maliyet yüzünden bot daha fazla işlem yapmak yerine aşırı temkinli hâle gelebiliyor. Bu yüzden cevap kolay doğrulanamıyorsa, inceleme modeli yerine daha iyi bir modelle işi tek seferde yapmak daha mantıklı olabilir diye düşünüyorum. Öyleyse hakem modele neden ihtiyaç duyulduğu ve neden aynı ajanın kendi kendini gözden geçirmediği de belirsizleşiyor. Üstelik Gemma 4 gibi akıl yürüten modellerin düşünme metnine bakınca zaten kendi kendilerini gözden geçiriyorlar. Yani ellerinden gelenin en iyisini yapıyorlar; yeniden inceleme çok fazla ek bilgi katmıyor. İlginç bir deney, ama olay bazında değerlendirmek gerekiyor
Sadece Claude Code kullanarak bunu şu tarz bir prompt ile yapıyordum
Mimari sorunları inceleyelim. 10 ajan başlat, her birine bir persona oluştur, sonra
_api.godosyasını inceleyipreviews/-review.mdiçine inceleme yazdır. Her ajan, her incelemenin başındaki özeti görsün, istediği 3 incelemeye round-robin şeklinde yanıt versin veresponse/--response.mdiçine yazsın. Sonra yanıtlara karşı itirazlarırebuttals/-rebuttal.mdiçine yazsın. Son olarak her ajan, kendi incelemesini, yanıtlarını ve itirazlarını gözden geçirecek ayrı bir ajan daha başlatsın ve sonucufindings/-findings.mdiçinde toparlasın. En sonunda başka bir ajan sonuçları birleştiripreview-findings.mdiçine yazsın; burada daha kısa bir sürüm sunulsun. Bu yöntem hem frontier modellerde hem de yerelde barındırılan modellerde iyi çalıştı. En son kullandığım Qwen 3.5'tiÜretilen bütün dosyaları gözden geçirip halüsinasyon olmadığını kontrol ediyor musunuz, yoksa sadece sondaki kısa sonuç dosyasına mı bakıyorsunuz merak ediyorum. Birden fazla ajan geçişiyle halüsinasyonların birbirini götürüp sonunda sadece gerçeğin kalması mı hedefleniyor, onu da merak ediyorum. Son sürümde ciddi biçimde yanlış şeyler gördüğünüz oldu mu, bunu da bilmek isterim. Maliyet beni düşündürüyordu ama yerel barındırılan modeller kullanılırsa bu tarafı daha az sorun olabilir. Yine de yerel barındırılan modellerin hâlâ yerel komut çalıştırma veya internete erişim konusunda sorunları yok mu? Öyleyse, projenin geri kalanına bakmadan sadece ilgili dosyanın bağlamıyla mı çalışıyorlar, onu merak ediyorum
Arka plan bağlamı burada: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
Biraz daha iyi UI olan yer https://openrouter.ai/fusion. OpenRouter’ın Fusion API’si istekleri aynı anda birden fazla modele gönderiyor ve bir hakem model yanıtları birleştirerek nihai cevabı oluşturuyor. Daha uzun sürmesi karşılığında performansı ciddi biçimde artırdığı söyleniyor. En azından test ettikleri deep research benchmark’ında durum buydu. Budget preset’i daha ucuz 3 modelden oluşuyor ve ilgili benchmark’ta Fable’a kabaca benzerken maliyeti yarısı kadar. Quality preset’i pahalı 3 modelden oluşuyor, Fable’ı geçiyor ama maliyeti Fable’ın iki katı. Pareto grafiği: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... İlginç biçimde aynı modeli kendisiyle fusion etmek de performansı artırmış. 2xOpus4.8 benchmark’ta Fable’a kabaca benzer ama maliyeti Fable’ın iki katı. Farklı modelleri karıştırınca biraz daha ek kazanç var. Ana kazanç büyük olasılıkla ek test zamanı hesaplamasından geliyor. DSV4 gibi son dönemde çıkan ucuz modellerin kendisiyle ya da Mimo ile fusion edilmesi etrafında daha fazla araştırma görmek isterim; ayrıca fusion gibi paralel test zamanı hesaplaması ile daha fazla akıl yürütme hesabı ya da daha fazla tur arasındaki ödünleşimi de görmek isterim
Esasen mümkün çıktı uzayından daha fazla örnek çekmek demek. Modelin bir görevi başarma olasılığı %60 ise 5-10 örnek çekip çoğunluk oyu gibi bir şey uygulayabilirsiniz. Sonuçları birleştirmenin kolay olduğu problemler için model doğruluğu arttıkça daha az kullanılır oldu, ama daha karmaşık bir hakem, yani yetkin bir LLM varsa çıktı uzayını daha fazla örneklemek ve iyi kısımları seçmek hâlâ performansı artırabiliyor
Bana Gemini’nin o görevde daha zayıf olduğu ama kendi çözümünü hakem modele kabul ettirme konusunda daha iyi olduğu gibi geliyor. Bir de iki Opus 4.8’li panelin tek bir Fable 5 ile neredeyse tam aynı seviyede olması biraz şüpheli kokuyor. Anthropic perde arkasında zaten böyle bir şey yapıyor olabilir mi, bunu bilmenin bir yolu var mı?
Opus 4.7 ya da GPT 5.5’i doğrudan çağırmaktan niteliksel olarak nasıl farklı olduğunu görmek için hızlı bir değerlendirme yaptım
Beklendiği gibi Fusion 7 kat daha yavaştı ve 4 kat daha pahalıydı. Bunu eleştirmek için söylemiyorum; bence Fusion “yalnızca gerektiğinde kullanılan” kategorisine giriyor. https://3fpi5avcqq.evvl.io/
Asıl fikir muhtemelen daha basit ve ucuz modellerle Fusion kullanmak
Gerçek kullanımda bunun sürümünün nasıl dayanacağını merak ediyorum
Bu problemi çok düşündüm ve basitleştirerek anlamaya çalışırsam her modeli, insan bilgisinin üzerinde duran bir çan eğrisi dağılımı gibi görebiliriz; her modelin dağılımı farklı
Birden fazla model kullanınca, başlangıçtaki eğrinin dışındaki metinle başka modellerin dağılımını değiştirebilirsiniz. Ama tekrar düşününce SFP ve reinforcement learning’in zaten özgün metin dağılımını yeterince değiştirdiğini, dolayısıyla modellerin birleşik çıktısının daha iyi bir şeye dönüşecek kadar çeşitlenip çeşitlenmediğini, yoksa sadece bir yankı odası mı oluşturduğunu merak ediyorum. Bunu henüz kanıtlayacak bir yöntem yok ama ben öyle olmadığını düşünüyorum
Fusion’la ilgili anekdotsal bir sonuç olarak, Fable’da kullandığım aynı sorguyu OpenRouter Fusion’da denedim ve sonuç daha kötüydü
Fable belli ölçüde çok derin bir bilgi/zeka katmanını yakaladı; sadece kulağa makul gelen yanıtlar vermekle kalmayıp çözüm maddelerini önceliklendirmeyi önerdi ve bazı maddelerin bırakılmasını savundu, bu da bana oldukça mantıklı geldi. Buna karşılık Fusion, Fable öncesi state-of-the-art modellerin verdiği aynı tür cevapların biraz çeşitlendirilmiş hâli gibi hissettirdi ve Fable’a erişimim varken yaptığım çok sınırlı testlerde Fable’ın ulaştığı derinliğe ulaşamadı
Hafta sonu yeni OpenRouter Fusion modelinden ilham alarak, bunu Claude Code üzerinde çalıştırıp çalıştıramayacağımı ve başkalarının da kolayca deneyebilmesi için bir şey yapıp yapamayacağımı görmek üzere uğraştım
Ortaya çıkan şey claude-fusion-launcher — Claude Code’u tek bir model yerine bir model paneli üzerinde çalıştırıyor. Maliyeti de gösteriyor. https://github.com/smorinlabs/claude-fusion-launcher
Aynı prompt’u aynı modelle birkaç kez, daha yüksek temperature ile yeniden üretmenin farklı modeller çalıştırmaya eşdeğer olup olmadığını merak ediyorum
Farklı frontier modeller arasında hissedilen değişkenliğin önemli bir kısmının, sıfır olmayan temperature’dan gelen rastgelelikten kaynaklanıyor olabileceğinden şüpheleniyorum. Modeller sanki 5, 10, 15 gibi hoş görünen yuvarlak sayıda madde döndürmek üzere eğitilmiş gibi. Bunun nedeni pazarlama materyalleriyle eğitimin yarattığı girişim de olabilir. Ayrıca büyük bağlamlarda geri çağırma oranı %100 olmaktan çok uzak. Dolayısıyla kodda 27 hata varsa, ister birden fazla model kullanın ister aynı modeli tekrar tekrar çağırın, her çalıştırmada bu 27’nin içinden farklı 10 sorunu bulabilirsiniz
Bu alanda resmî bir araştırma olup olmadığını merak ediyorum. Ben de bu tür bir yaklaşımın varyasyonlarını denedim, ancak sonuçların daha iyi olduğunu kendinden emin şekilde söylemek zordu.
Bir işletme için en iyi stratejiyi 2-3 danışmana ayrı ayrı sormaya mı benziyor diye endişeleniyorum. Yanıtları birleştirmenin gerçekten daha iyi bir şey ortaya çıkarıp çıkarmadığından emin değilim.
TrustedRouter'ımda da benzer bir özelliği açık kaynak olarak, uçtan uca şifreleme ile birlikte yayınladım: https://trustedrouter.com/