- Tongyi DeepResearch, OpenAI DeepResearch ile eşdeğer performans gösteren ilk tam açık kaynaklı web ajanı olarak, karmaşık bilgi keşfi benchmark'larında en üst düzey sonuçlar elde etti
- Tongyi Lab, Alibaba Group'un yapay zeka araştırma ve geliştirme birimlerinden biri olup büyük dil modelleri (LLM), çok modlu modeller ve ajan teknolojilerine odaklanır; QWEN modelini geliştiren ekiptir
- Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) ve Reinforcement Learning (RL)'i birleştiren uçtan uca eğitim pipeline'ı kuruldu
- Tamamen sentetik veri tabanlı büyük ölçekli QA üretimi ve IterResearch paradigmasıyla uzun vadeli akıl yürütme ve planlama yetenekleri güçlendirildi
- ReAct modu ve Heavy modu desteğiyle basit akıl yürütmeden karmaşık çok adımlı araştırmalara kadar uyum sağlayarak, GRPO algoritması tabanlı pekiştirmeli öğrenmeyle istikrarlı performans sağlandı
- Gerçekte Gaode Mate ve Tongyi FaRui gibi Alibaba içi ve dışı hizmetlerde uygulanarak, açık kaynaklı yapay zeka araştırma ajanlarının pratikliğini ve ölçeklenebilirliğini kanıtladı
Sohbet botundan otonom ajana
- Tongyi DeepResearch, OpenAI DeepResearch seviyesinde performansa ulaşan ilk tam açık kaynaklı web ajanı
- Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75 puan aldı
- Mevcut tüm ticari ve açık kaynaklı Deep Research ajanlarını geride bıraktı
- Modelin yanı sıra veri sentezi tabanlı tüm eğitim metodolojisi de açıklandı
- Agentic CPT, SFT ve RL dahil tüm süreç için otomatik veri üretimi ve pekiştirmeli öğrenme altyapısı sunuluyor
- ReAct framework ile prompt engineering olmadan da güçlü içsel yetenekler sergiliyor
- Heavy Mode'da karmaşık planlama ve akıl yürütme kapasitesinin sınırlarını gösteriyor
Sentetik veri tabanlı sürekli ön eğitim ve sonrasındaki eğitim
- Agentic CPT kullanılarak ajan tipi temel model oluşturuldu
- AgentFounder sistemi üzerinden büyük ölçekli veri sentezi ve döngüsel veri flywheel'i gerçekleştirildi
- Veri yeniden yapılandırma ve soru üretimi aşamasında belge, crawl verisi, bilgi grafiği ve araç çağrı kayıtları entegre edildi
- Bunlar varlık merkezli açık dünya bilgi belleği olarak yeniden yapılandırıldı ve çeşitli türlerde (soru, cevap) çiftleri üretildi
- Action Synthesis ile birinci dereceden ve daha yüksek dereceli eylem verileri üretildi
- Çok adımlı karar verme yapısı modellenerek karar verme yeteneği güçlendirildi
-
Sonraki eğitim (Post-training) verisi
- Tam otomatik sentetik QA üretim pipeline'ı kuruldu
- WebWalker, WebSailor, WebShaper gibi bir dizi araştırmayla graf tabanlı sentez ve zorluk kontrollü QA verisi üretildi
- Rastgele yürüyüş tabanlı bilgi grafiği ve tablo verisi füzyonu ile gerçekçi bilgi yapısı sağlandı
- Varlık birleştirme gibi 'atomik işlemler' ile zorluk sistematik olarak ayarlandı
- Küme teorisi tabanlı problem biçimlendirmesi ile bilgi yapısı ve akıl yürütme yapısı arasındaki uyumsuzluk en aza indirildi
- QA tutarlılığı doğrulama verimliliği artırıldı
- Otomatik veri motoru ile doktora düzeyinde araştırma soruları üretildi
- Disiplinler arası bilgi tabanından başlayıp yinelemeli karmaşıklık artırma döngüsüyle yüksek zorlukta QA üretildi
- ReAct ve IterResearch framework'leri kullanılarak çeşitli akıl yürütme örüntüleri öğretildi
- IterResearch, her turda çalışma alanını yeniden kurarak uzun vadeli planlama yeteneğini güçlendiriyor
Rollout modları
- Model, ReAct modu ve Heavy modu olmak üzere iki çalışma biçimini destekliyor
-
Native ReAct Mode
- Thought–Action–Observation döngü yapısını izliyor ve prompt engineering olmadan da yüksek performans gösteriyor
- 128K context length ile çok sayıda etkileşim turunu işleyebiliyor
- Sadelik ve genellik, modelin içsel yeteneklerini değerlendirmek için net bir ölçüt sunuyor
- “The Bitter Lesson” ilkesi doğrultusunda ölçeklenebilir genel metodoloji benimsendi
-
Heavy Mode
- IterResearch paradigması temelinde karmaşık çok adımlı araştırma görevleri yürütülüyor
- Her turda yalnızca temel sonuçlar korunarak yeni bir çalışma alanı yeniden oluşturuluyor
- Merkezi rapor sürekli güncellenerek yüksek kaliteli akıl yürütme korunuyor
- Research–Synthesis framework ile birden fazla araştırma ajanının sonuçları paralel olarak araştırılıp entegre ediliyor
- Sınırlı context içinde daha geniş araştırma yolları elde ediliyor
Uçtan uca ajan eğitim pipeline'ı
- Agentic CPT → SFT → RL şeklinde ilerleyen tam entegre eğitim döngüsü kuruldu
- On-policy pekiştirmeli öğrenme (RL) aşamasında Group Relative Policy Optimization (GRPO) algoritması kullanıldı
- Token düzeyinde policy gradient loss, leave-one-out stratejisi ve negatif örnek filtreleme ile istikrar sağlandı
- Eğitim sırasında ödül artışı ve yüksek policy entropy korunarak keşif sürdürüldü
- Sentetik veri, BrowseComp gibi insan açıklamalı verilere kıyasla daha tutarlı dağılım sağlayarak eğitim verimliliğini artırdı
-
Altyapı yapısı
- Sentetik eğitim ortamı: çevrimdışı Wikipedia DB ve özelleştirilmiş araç setiyle simülasyon ortamı kuruldu
- Kararlı araç sandbox'ı: caching, retry ve yedek API ile araç çağrısı hataları önlendi
- Otomatik veri kürasyonu: eğitim dinamiklerine göre gerçek zamanlı veri sentezi ve filtreleme ile kararlılık ve performans artırıldı
- Asenkron On-policy framework: rLLM tabanlı adım düzeyinde asenkron RL döngüsü uygulandı
- Bu süreçle kendini evrimleştiren yapay zeka ajanı eğitim döngüsü tamamlandı ve karmaşık dinamik ortamlarda da istikrarlı problem çözme mümkün hale geldi
Gerçek uygulama örnekleri
- Gaode Mate (harita ve navigasyon ajanı)
- Amap ekibiyle iş birliği içinde 'Xiao Gao' AI copilot geliştirildi
- Çok adımlı akıl yürütmeyle seyahat planı, evcil hayvan dostu konaklama içeren rotalar gibi karmaşık planlar oluşturuyor
- Tongyi FaRui (hukuki araştırma ajanı)
- İçtihat arama, mevzuat çapraz inceleme ve analiz birleştirme gibi avukat seviyesinde çok adımlı araştırmalar yürütüyor
- Tüm sonuçlar doğrulanabilir yargı materyallerine dayanıyor ve doğru alıntılar içeriyor
Sınırlar ve gelecek görevler
- 128K context sınırı, çok uzun soluklu görevlerin işlenmesinde kısıt yaratıyor
- 30B ölçekli MoE modelinin ötesine ölçeklenebilirliğin doğrulanması gerekiyor
- Pekiştirmeli öğrenme verimliliğini artırmak için kısmi rollout ve off-policy öğrenme üzerine araştırma planlanıyor
Seri araştırmalar
- WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher dahil 11 ilgili makale yayımlandı
- Son 6 ayda her ay teknik rapor yayımlandı; bu kez Tongyi DeepResearch‑30B‑A3B modeli ile birlikte 6 yeni rapor eş zamanlı olarak açıklandı
- Yeni nesil ajan tipi model geliştirmesi sürdürülecek
1 yorum
Hacker News görüşleri
Birden fazla ajanı paralel çalıştırıp keşif ve çıkarımı hafif modellerin, planlama, araç yönlendirme ve doğrulamayı ise 30B modelin üstlendiği yapı verimli görünüyor
MoE’nin uzmanlaşmış yapısı dağıtık ajan yapay zekası için çok uygun, ancak yeniden deneme, uzlaşma ve çok adımlı web araştırması değerlendirmesi için bir orkestrasyon gerekiyor
Büyük modeller fazlasıyla büyüyüp ön eğitim sınırlarına dayanırsa, amaca özel modeller daha da çoğalabilir
GPT‑3.5 satrançta iyiydi ama son modeller öyle değilse, eğitim verisinde bir trade-off var gibi görünüyor
Küçük modelleri belirli işler için fine-tune etmek maliyetli ve büyük modellerin gelişim hızı o kadar yüksek ki çok çabuk geride kalıyorlar
Ama gelişim yavaşlarsa küçük model eğitimi yeniden anlam kazanabilir
Uzun zamandır sadece SvelteKit gibi belirli framework’leri çok iyi bilen 4B~8B bir model olsa güzel olur diye düşünüyordum
Büyük modellerin kalitesinin her zaman daha iyi olduğunu söylemek zor ve küçük bir model tek bir GPU’da çalışıyorsa çok daha pratik olabilir
Eskiden kardeşime satranç LLM karşılaştırma sitesi fikrini önermiştim ama hâlâ yapılmadı
Bizzat denediğimde çok sayıda halüsinasyon hamlesi vardı
Gereken parçaları ayrı ayrı eğitip iyileştirebilmek büyük avantaj
Benim deneyimimde arama motoru özeti seviyesini aşamıyor ve sadece sönük raporlar üretiyorlar
Avukat seviyesinde değil ama bütçesi olmayan projeler için büyük yardım
Gerçekten öğrenmek isteyenlere değil de, ‘kaliteli görünmek’ için yazılmış danışmanlık raporu hissi veriyor; pratik değeri düşük
“Bu konu daha önce araştırılmış mı?” gibi sorular için bakılacak örnekler bulmaya yardım ediyor
Doğrudan araştırmanın yerini tamamen almıyor ama başlangıçta bilgiyi toparlamada çok yardımcı
Qwen3 4B, benim Intel entegre GPU’mda bile iyi çalıştığı için etkileyiciydi
Daha önce ‘zararlı içerik tespiti için ultra ucuz model’ fikrini düşünmüştüm; bu tür küçük LLM’ler o rolü üstlenebilir gibi görünüyor
Ayrıca yönlendirme için de kullanılabilir
Ama CSS özelliği
word-break: break-word;yüzünden okumak çok zor2080Ti ve 128GB VRAM(?) ile yavaş da olsa çalıştırmak istiyorlar
Kısıtların işi daha eğlenceli kıldığı düşünülüyor
32GB sürümü AliExpress’te 150~250 dolar arasında bulunabiliyor ve birkaç tane birleştirilirse 128GB VRAM kurulumu yapılabiliyor
En yeni GPU’lar kadar hızlı değil ama yeterince kullanılabilir
ollama.com üzerinden kurulabiliyor
Ama 2080Ti ile 128GB VRAM nasıl oluyor, onu merak ediyorum
Yavaş ama çevrimdışı da iyi çalışıyor ve kafede bile kullanılabiliyor
Ollama kullandığım için en yeni modellerin port edilmesini beklemem gerekiyor
Ryzen 9 9950X, 96GB RAM, iki adet RTX 3090, 1600W PSU
FP8 kuantize 30B modelleri rahatça çalıştırabiliyor
Bu model 30B MoE olsa da aktif parametre sayısı yaklaşık 3B, yani Qwen3 MoE’ye benziyor
Ben 11 yıllık i5‑6600 ve Radeon 6600 (8GB) ile 4bit kuantize modeli çalıştırıyorum; 16k context’te yaklaşık 12tps alıyorum
Çalıştırma betiği örneği de paylaşılmış
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
“同意” ile telaffuzu aynı ama anlamı farklı
Alibaba Qwen resmi sayfası referans gösteriliyor
GPT‑5, GPT‑4o, o3 gibi hangi model kullanılırsa sonuç da ona göre değişiyor
Bunlar arama tabanlı, uzun çalışan görevler; 5~10 dakika boyunca bilgi toplayıp alıntılar içeren raporlar üretiyorlar
Tongyi modeli de bu tür döngüsel arama ve rapor yazımı işlerine özel olarak ayarlanmış görünüyor