Tongyi DeepResearch – OpenAI DeepResearch ile boy ölçüşen açık kaynaklı 30B MoE modeli

(tongyi-agent.github.io)

10 puan yazan GN⁺ 2025-11-04 | 1 yorum | WhatsApp'ta paylaş

Tongyi DeepResearch, OpenAI DeepResearch ile eşdeğer performans gösteren ilk tam açık kaynaklı web ajanı olarak, karmaşık bilgi keşfi benchmark'larında en üst düzey sonuçlar elde etti
- Tongyi Lab, Alibaba Group'un yapay zeka araştırma ve geliştirme birimlerinden biri olup büyük dil modelleri (LLM), çok modlu modeller ve ajan teknolojilerine odaklanır; QWEN modelini geliştiren ekiptir
Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) ve Reinforcement Learning (RL)'i birleştiren uçtan uca eğitim pipeline'ı kuruldu
Tamamen sentetik veri tabanlı büyük ölçekli QA üretimi ve IterResearch paradigmasıyla uzun vadeli akıl yürütme ve planlama yetenekleri güçlendirildi
ReAct modu ve Heavy modu desteğiyle basit akıl yürütmeden karmaşık çok adımlı araştırmalara kadar uyum sağlayarak, GRPO algoritması tabanlı pekiştirmeli öğrenmeyle istikrarlı performans sağlandı
Gerçekte Gaode Mate ve Tongyi FaRui gibi Alibaba içi ve dışı hizmetlerde uygulanarak, açık kaynaklı yapay zeka araştırma ajanlarının pratikliğini ve ölçeklenebilirliğini kanıtladı

Sohbet botundan otonom ajana

Tongyi DeepResearch, OpenAI DeepResearch seviyesinde performansa ulaşan ilk tam açık kaynaklı web ajanı
- Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75 puan aldı
- Mevcut tüm ticari ve açık kaynaklı Deep Research ajanlarını geride bıraktı
Modelin yanı sıra veri sentezi tabanlı tüm eğitim metodolojisi de açıklandı
- Agentic CPT, SFT ve RL dahil tüm süreç için otomatik veri üretimi ve pekiştirmeli öğrenme altyapısı sunuluyor
ReAct framework ile prompt engineering olmadan da güçlü içsel yetenekler sergiliyor
- Heavy Mode'da karmaşık planlama ve akıl yürütme kapasitesinin sınırlarını gösteriyor

Sentetik veri tabanlı sürekli ön eğitim ve sonrasındaki eğitim

Agentic CPT kullanılarak ajan tipi temel model oluşturuldu
- AgentFounder sistemi üzerinden büyük ölçekli veri sentezi ve döngüsel veri flywheel'i gerçekleştirildi
Veri yeniden yapılandırma ve soru üretimi aşamasında belge, crawl verisi, bilgi grafiği ve araç çağrı kayıtları entegre edildi
- Bunlar varlık merkezli açık dünya bilgi belleği olarak yeniden yapılandırıldı ve çeşitli türlerde (soru, cevap) çiftleri üretildi
Action Synthesis ile birinci dereceden ve daha yüksek dereceli eylem verileri üretildi
- Çok adımlı karar verme yapısı modellenerek karar verme yeteneği güçlendirildi
Sonraki eğitim (Post-training) verisi
- Tam otomatik sentetik QA üretim pipeline'ı kuruldu
  - WebWalker, WebSailor, WebShaper gibi bir dizi araştırmayla graf tabanlı sentez ve zorluk kontrollü QA verisi üretildi
- Rastgele yürüyüş tabanlı bilgi grafiği ve tablo verisi füzyonu ile gerçekçi bilgi yapısı sağlandı
  - Varlık birleştirme gibi 'atomik işlemler' ile zorluk sistematik olarak ayarlandı
- Küme teorisi tabanlı problem biçimlendirmesi ile bilgi yapısı ve akıl yürütme yapısı arasındaki uyumsuzluk en aza indirildi
  - QA tutarlılığı doğrulama verimliliği artırıldı
- Otomatik veri motoru ile doktora düzeyinde araştırma soruları üretildi
  - Disiplinler arası bilgi tabanından başlayıp yinelemeli karmaşıklık artırma döngüsüyle yüksek zorlukta QA üretildi
- ReAct ve IterResearch framework'leri kullanılarak çeşitli akıl yürütme örüntüleri öğretildi
  - IterResearch, her turda çalışma alanını yeniden kurarak uzun vadeli planlama yeteneğini güçlendiriyor

Rollout modları

Model, ReAct modu ve Heavy modu olmak üzere iki çalışma biçimini destekliyor
Native ReAct Mode
- Thought–Action–Observation döngü yapısını izliyor ve prompt engineering olmadan da yüksek performans gösteriyor
  - 128K context length ile çok sayıda etkileşim turunu işleyebiliyor
- Sadelik ve genellik, modelin içsel yeteneklerini değerlendirmek için net bir ölçüt sunuyor
- “The Bitter Lesson” ilkesi doğrultusunda ölçeklenebilir genel metodoloji benimsendi
Heavy Mode
- IterResearch paradigması temelinde karmaşık çok adımlı araştırma görevleri yürütülüyor
  - Her turda yalnızca temel sonuçlar korunarak yeni bir çalışma alanı yeniden oluşturuluyor
  - Merkezi rapor sürekli güncellenerek yüksek kaliteli akıl yürütme korunuyor
- Research–Synthesis framework ile birden fazla araştırma ajanının sonuçları paralel olarak araştırılıp entegre ediliyor
  - Sınırlı context içinde daha geniş araştırma yolları elde ediliyor

Uçtan uca ajan eğitim pipeline'ı

Agentic CPT → SFT → RL şeklinde ilerleyen tam entegre eğitim döngüsü kuruldu
On-policy pekiştirmeli öğrenme (RL) aşamasında Group Relative Policy Optimization (GRPO) algoritması kullanıldı
- Token düzeyinde policy gradient loss, leave-one-out stratejisi ve negatif örnek filtreleme ile istikrar sağlandı
- Eğitim sırasında ödül artışı ve yüksek policy entropy korunarak keşif sürdürüldü
Sentetik veri, BrowseComp gibi insan açıklamalı verilere kıyasla daha tutarlı dağılım sağlayarak eğitim verimliliğini artırdı
Altyapı yapısı
- Sentetik eğitim ortamı: çevrimdışı Wikipedia DB ve özelleştirilmiş araç setiyle simülasyon ortamı kuruldu
- Kararlı araç sandbox'ı: caching, retry ve yedek API ile araç çağrısı hataları önlendi
- Otomatik veri kürasyonu: eğitim dinamiklerine göre gerçek zamanlı veri sentezi ve filtreleme ile kararlılık ve performans artırıldı
- Asenkron On-policy framework: rLLM tabanlı adım düzeyinde asenkron RL döngüsü uygulandı
- Bu süreçle kendini evrimleştiren yapay zeka ajanı eğitim döngüsü tamamlandı ve karmaşık dinamik ortamlarda da istikrarlı problem çözme mümkün hale geldi

Gerçek uygulama örnekleri

Gaode Mate (harita ve navigasyon ajanı)
- Amap ekibiyle iş birliği içinde 'Xiao Gao' AI copilot geliştirildi
- Çok adımlı akıl yürütmeyle seyahat planı, evcil hayvan dostu konaklama içeren rotalar gibi karmaşık planlar oluşturuyor
Tongyi FaRui (hukuki araştırma ajanı)
- İçtihat arama, mevzuat çapraz inceleme ve analiz birleştirme gibi avukat seviyesinde çok adımlı araştırmalar yürütüyor
- Tüm sonuçlar doğrulanabilir yargı materyallerine dayanıyor ve doğru alıntılar içeriyor

Sınırlar ve gelecek görevler

128K context sınırı, çok uzun soluklu görevlerin işlenmesinde kısıt yaratıyor
30B ölçekli MoE modelinin ötesine ölçeklenebilirliğin doğrulanması gerekiyor
Pekiştirmeli öğrenme verimliliğini artırmak için kısmi rollout ve off-policy öğrenme üzerine araştırma planlanıyor

Seri araştırmalar

WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher dahil 11 ilgili makale yayımlandı
Son 6 ayda her ay teknik rapor yayımlandı; bu kez Tongyi DeepResearch‑30B‑A3B modeli ile birlikte 6 yeni rapor eş zamanlı olarak açıklandı
Yeni nesil ajan tipi model geliştirmesi sürdürülecek

1 yorum

GN⁺ 2025-11-04

Hacker News görüşleri

“Deep research” için yayımlanan 30B MoE modeli sevindirici
Birden fazla ajanı paralel çalıştırıp keşif ve çıkarımı hafif modellerin, planlama, araç yönlendirme ve doğrulamayı ise 30B modelin üstlendiği yapı verimli görünüyor
MoE’nin uzmanlaşmış yapısı dağıtık ajan yapay zekası için çok uygun, ancak yeniden deneme, uzlaşma ve çok adımlı web araştırması değerlendirmesi için bir orkestrasyon gerekiyor
Bu aralar özelleşmiş LLM’lerin patlayıcı biçimde artıp artmayacağı merak ediliyor
Büyük modeller fazlasıyla büyüyüp ön eğitim sınırlarına dayanırsa, amaca özel modeller daha da çoğalabilir
GPT‑3.5 satrançta iyiydi ama son modeller öyle değilse, eğitim verisinde bir trade-off var gibi görünüyor
- Şu anda genel amaçlı büyük modeller neredeyse her açıdan daha üstün
  Küçük modelleri belirli işler için fine-tune etmek maliyetli ve büyük modellerin gelişim hızı o kadar yüksek ki çok çabuk geride kalıyorlar
  Ama gelişim yavaşlarsa küçük model eğitimi yeniden anlam kazanabilir
- Satrançta güçlü LLM’lere dair bir benchmark görmek isterdim
  Uzun zamandır sadece SvelteKit gibi belirli framework’leri çok iyi bilen 4B~8B bir model olsa güzel olur diye düşünüyordum
  Büyük modellerin kalitesinin her zaman daha iyi olduğunu söylemek zor ve küçük bir model tek bir GPU’da çalışıyorsa çok daha pratik olabilir
  Eskiden kardeşime satranç LLM karşılaştırma sitesi fikrini önermiştim ama hâlâ yapılmadı
- GPT‑3.5’in satrançta güçlü olduğu sözüne katılmıyorum
  Bizzat denediğimde çok sayıda halüsinasyon hamlesi vardı
- seed‑tars.com/game‑tars bağlantısı paylaşılıyor
- MoE mimarisinin özü tam da bu değil mi?
  Gereken parçaları ayrı ayrı eğitip iyileştirebilmek büyük avantaj
Bu tür deep research araçlarının gerçekten ne kadar faydalı olduğu merak ediliyor
Benim deneyimimde arama motoru özeti seviyesini aşamıyor ve sadece sönük raporlar üretiyorlar
- Birleşik Krallık’ta küçük bir web sitesi işletirken mevzuata uyum için kullandım; bağlam verildiğinde oldukça özelleştirilmiş sonuçlar üretiyor
  Avukat seviyesinde değil ama bütçesi olmayan projeler için büyük yardım
- Benim deneyimim de benzer
  Gerçekten öğrenmek isteyenlere değil de, ‘kaliteli görünmek’ için yazılmış danışmanlık raporu hissi veriyor; pratik değeri düşük
- Raporlar sönük ama kaynak tarama için kullanışlı
  “Bu konu daha önce araştırılmış mı?” gibi sorular için bakılacak örnekler bulmaya yardım ediyor
- ChatGPT’yi sık kullanıyorum; soru sorunca ilgili kaynakları derleme işini iyi yapıyor
  Doğrudan araştırmanın yerini tamamen almıyor ama başlangıçta bilgiyi toparlamada çok yardımcı
- Arama motoru düzeyinde özetler bile yeni fikirler ya da unknown unknowns bulmak için yeterince işe yarayabiliyor
Daha önce hazırlanan Qwen3 4B distill modeli ve sentetik veri seti Hugging Face üzerinde yayımlanmış
- Tarayıcıda doğrudan denenebilen bir Hugging Face Space yapılması isteniyor
  Qwen3 4B, benim Intel entegre GPU’mda bile iyi çalıştığı için etkileyiciydi
  Daha önce ‘zararlı içerik tespiti için ultra ucuz model’ fikrini düşünmüştüm; bu tür küçük LLM’ler o rolü üstlenebilir gibi görünüyor
  Ayrıca yönlendirme için de kullanılabilir
- Kendi web arama MCP’m ile denedim; bu kadar küçük bir modelde böyle bir deep research kalitesini ilk kez görüyorum
Genel olarak ilgi çekici bir seri
Ama CSS özelliği word-break: break-word; yüzünden okumak çok zor
- Ben de okumaya çalıştım ama kelimeler birbirine bağlanmıyor gibi hissettiriyor
Pazar sabahı, bunu bir mühendislik hobisi olarak self-host etmek için ne gerektiği merak ediliyor
2080Ti ve 128GB VRAM(?) ile yavaş da olsa çalıştırmak istiyorlar
Kısıtların işi daha eğlenceli kıldığı düşünülüyor
- Ucuza VRAM toplamak için AMD MI50 iyi bir seçenek
  32GB sürümü AliExpress’te 150~250 dolar arasında bulunabiliyor ve birkaç tane birleştirilirse 128GB VRAM kurulumu yapılabiliyor
  En yeni GPU’lar kadar hızlı değil ama yeterince kullanılabilir
- Yerelde hızlıca denemek için en kolay yol Ollama uygulaması
  ollama.com üzerinden kurulabiliyor
  Ama 2080Ti ile 128GB VRAM nasıl oluyor, onu merak ediyorum
- Ben modelleri 128GB birleşik belleğe sahip MacBook Pro üzerinde çalıştırıyorum
  Yavaş ama çevrimdışı da iyi çalışıyor ve kafede bile kullanılabiliyor
  Ollama kullandığım için en yeni modellerin port edilmesini beklemem gerekiyor
- Kısıtlı bütçeyle topladığım kurulum şöyle
  Ryzen 9 9950X, 96GB RAM, iki adet RTX 3090, 1600W PSU
  FP8 kuantize 30B modelleri rahatça çalıştırabiliyor
- Muhtemelen VRAM değil RAM kastediliyordu
  Bu model 30B MoE olsa da aktif parametre sayısı yaklaşık 3B, yani Qwen3 MoE’ye benziyor
  Ben 11 yıllık i5‑6600 ve Radeon 6600 (8GB) ile 4bit kuantize modeli çalıştırıyorum; 16k context’te yaklaşık 12tps alıyorum
  Çalıştırma betiği örneği de paylaşılmış
Tongyi modeli OpenRouter’da da sunuluyor ve ücretsiz sürümü de var
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
“Deep research”ün “Agree” diye çevrilmiş olabileceğine dair bir espri yapılıyor
- Aslında Çince adı 通义千问(Tongyi Qianwen) ve anlamı “tüm soruları bilmek”
  “同意” ile telaffuzu aynı ama anlamı farklı
  Alibaba Qwen resmi sayfası referans gösteriliyor
Bu modelin ağırlıkları aslında bir ay önce yayımlanmıştı
- Yine de herkes gelişmeleri gerçek zamanlı takip etmiyor; bu yüzden bir aylık model bile hâlâ faydalı olabilir
- O hâlde diğer modellerle performans karşılaştırması nasıl, merak ediliyor
OpenAI’nin “Deep research”ü belirli bir modelden çok işlevsel bir desene benziyor
GPT‑5, GPT‑4o, o3 gibi hangi model kullanılırsa sonuç da ona göre değişiyor
- Şu anda OpenAI, Perplexity, Google Gemini, Anthropic, Grok ve diğerlerinin neredeyse hepsi benzer araştırma kalıpları sunuyor
  Bunlar arama tabanlı, uzun çalışan görevler; 5~10 dakika boyunca bilgi toplayıp alıntılar içeren raporlar üretiyorlar
  Tongyi modeli de bu tür döngüsel arama ve rapor yazımı işlerine özel olarak ayarlanmış görünüyor

Tongyi DeepResearch – OpenAI DeepResearch ile boy ölçüşen açık kaynaklı 30B MoE modeli

Sohbet botundan otonom ajana

Sentetik veri tabanlı sürekli ön eğitim ve sonrasındaki eğitim

Sonraki eğitim (Post-training) verisi

Rollout modları

Native ReAct Mode

Heavy Mode

Uçtan uca ajan eğitim pipeline'ı

Altyapı yapısı

Gerçek uygulama örnekleri

Sınırlar ve gelecek görevler

Seri araştırmalar

İlgili okumalar

1 yorum

Hacker News görüşleri