10 puan yazan GN⁺ 2025-11-04 | 1 yorum | WhatsApp'ta paylaş
  • Tongyi DeepResearch, OpenAI DeepResearch ile eşdeğer performans gösteren ilk tam açık kaynaklı web ajanı olarak, karmaşık bilgi keşfi benchmark'larında en üst düzey sonuçlar elde etti
    • Tongyi Lab, Alibaba Group'un yapay zeka araştırma ve geliştirme birimlerinden biri olup büyük dil modelleri (LLM), çok modlu modeller ve ajan teknolojilerine odaklanır; QWEN modelini geliştiren ekiptir
  • Agentic Continual Pre-training (CPT), Supervised Fine-Tuning (SFT) ve Reinforcement Learning (RL)'i birleştiren uçtan uca eğitim pipeline'ı kuruldu
  • Tamamen sentetik veri tabanlı büyük ölçekli QA üretimi ve IterResearch paradigmasıyla uzun vadeli akıl yürütme ve planlama yetenekleri güçlendirildi
  • ReAct modu ve Heavy modu desteğiyle basit akıl yürütmeden karmaşık çok adımlı araştırmalara kadar uyum sağlayarak, GRPO algoritması tabanlı pekiştirmeli öğrenmeyle istikrarlı performans sağlandı
  • Gerçekte Gaode Mate ve Tongyi FaRui gibi Alibaba içi ve dışı hizmetlerde uygulanarak, açık kaynaklı yapay zeka araştırma ajanlarının pratikliğini ve ölçeklenebilirliğini kanıtladı

Sohbet botundan otonom ajana

  • Tongyi DeepResearch, OpenAI DeepResearch seviyesinde performansa ulaşan ilk tam açık kaynaklı web ajanı
    • Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75 puan aldı
    • Mevcut tüm ticari ve açık kaynaklı Deep Research ajanlarını geride bıraktı
  • Modelin yanı sıra veri sentezi tabanlı tüm eğitim metodolojisi de açıklandı
    • Agentic CPT, SFT ve RL dahil tüm süreç için otomatik veri üretimi ve pekiştirmeli öğrenme altyapısı sunuluyor
  • ReAct framework ile prompt engineering olmadan da güçlü içsel yetenekler sergiliyor
    • Heavy Mode'da karmaşık planlama ve akıl yürütme kapasitesinin sınırlarını gösteriyor

Sentetik veri tabanlı sürekli ön eğitim ve sonrasındaki eğitim

  • Agentic CPT kullanılarak ajan tipi temel model oluşturuldu
    • AgentFounder sistemi üzerinden büyük ölçekli veri sentezi ve döngüsel veri flywheel'i gerçekleştirildi
  • Veri yeniden yapılandırma ve soru üretimi aşamasında belge, crawl verisi, bilgi grafiği ve araç çağrı kayıtları entegre edildi
    • Bunlar varlık merkezli açık dünya bilgi belleği olarak yeniden yapılandırıldı ve çeşitli türlerde (soru, cevap) çiftleri üretildi
  • Action Synthesis ile birinci dereceden ve daha yüksek dereceli eylem verileri üretildi
    • Çok adımlı karar verme yapısı modellenerek karar verme yeteneği güçlendirildi
  • Sonraki eğitim (Post-training) verisi

    • Tam otomatik sentetik QA üretim pipeline'ı kuruldu
      • WebWalker, WebSailor, WebShaper gibi bir dizi araştırmayla graf tabanlı sentez ve zorluk kontrollü QA verisi üretildi
    • Rastgele yürüyüş tabanlı bilgi grafiği ve tablo verisi füzyonu ile gerçekçi bilgi yapısı sağlandı
      • Varlık birleştirme gibi 'atomik işlemler' ile zorluk sistematik olarak ayarlandı
    • Küme teorisi tabanlı problem biçimlendirmesi ile bilgi yapısı ve akıl yürütme yapısı arasındaki uyumsuzluk en aza indirildi
      • QA tutarlılığı doğrulama verimliliği artırıldı
    • Otomatik veri motoru ile doktora düzeyinde araştırma soruları üretildi
      • Disiplinler arası bilgi tabanından başlayıp yinelemeli karmaşıklık artırma döngüsüyle yüksek zorlukta QA üretildi
    • ReAct ve IterResearch framework'leri kullanılarak çeşitli akıl yürütme örüntüleri öğretildi
      • IterResearch, her turda çalışma alanını yeniden kurarak uzun vadeli planlama yeteneğini güçlendiriyor

Rollout modları

  • Model, ReAct modu ve Heavy modu olmak üzere iki çalışma biçimini destekliyor
  • Native ReAct Mode

    • Thought–Action–Observation döngü yapısını izliyor ve prompt engineering olmadan da yüksek performans gösteriyor
      • 128K context length ile çok sayıda etkileşim turunu işleyebiliyor
    • Sadelik ve genellik, modelin içsel yeteneklerini değerlendirmek için net bir ölçüt sunuyor
    • “The Bitter Lesson” ilkesi doğrultusunda ölçeklenebilir genel metodoloji benimsendi
  • Heavy Mode

    • IterResearch paradigması temelinde karmaşık çok adımlı araştırma görevleri yürütülüyor
      • Her turda yalnızca temel sonuçlar korunarak yeni bir çalışma alanı yeniden oluşturuluyor
      • Merkezi rapor sürekli güncellenerek yüksek kaliteli akıl yürütme korunuyor
    • Research–Synthesis framework ile birden fazla araştırma ajanının sonuçları paralel olarak araştırılıp entegre ediliyor
      • Sınırlı context içinde daha geniş araştırma yolları elde ediliyor

Uçtan uca ajan eğitim pipeline'ı

  • Agentic CPT → SFT → RL şeklinde ilerleyen tam entegre eğitim döngüsü kuruldu
  • On-policy pekiştirmeli öğrenme (RL) aşamasında Group Relative Policy Optimization (GRPO) algoritması kullanıldı
    • Token düzeyinde policy gradient loss, leave-one-out stratejisi ve negatif örnek filtreleme ile istikrar sağlandı
    • Eğitim sırasında ödül artışı ve yüksek policy entropy korunarak keşif sürdürüldü
  • Sentetik veri, BrowseComp gibi insan açıklamalı verilere kıyasla daha tutarlı dağılım sağlayarak eğitim verimliliğini artırdı
  • Altyapı yapısı

    • Sentetik eğitim ortamı: çevrimdışı Wikipedia DB ve özelleştirilmiş araç setiyle simülasyon ortamı kuruldu
    • Kararlı araç sandbox'ı: caching, retry ve yedek API ile araç çağrısı hataları önlendi
    • Otomatik veri kürasyonu: eğitim dinamiklerine göre gerçek zamanlı veri sentezi ve filtreleme ile kararlılık ve performans artırıldı
    • Asenkron On-policy framework: rLLM tabanlı adım düzeyinde asenkron RL döngüsü uygulandı
    • Bu süreçle kendini evrimleştiren yapay zeka ajanı eğitim döngüsü tamamlandı ve karmaşık dinamik ortamlarda da istikrarlı problem çözme mümkün hale geldi

Gerçek uygulama örnekleri

  • Gaode Mate (harita ve navigasyon ajanı)
    • Amap ekibiyle iş birliği içinde 'Xiao Gao' AI copilot geliştirildi
    • Çok adımlı akıl yürütmeyle seyahat planı, evcil hayvan dostu konaklama içeren rotalar gibi karmaşık planlar oluşturuyor
  • Tongyi FaRui (hukuki araştırma ajanı)
    • İçtihat arama, mevzuat çapraz inceleme ve analiz birleştirme gibi avukat seviyesinde çok adımlı araştırmalar yürütüyor
    • Tüm sonuçlar doğrulanabilir yargı materyallerine dayanıyor ve doğru alıntılar içeriyor

Sınırlar ve gelecek görevler

  • 128K context sınırı, çok uzun soluklu görevlerin işlenmesinde kısıt yaratıyor
  • 30B ölçekli MoE modelinin ötesine ölçeklenebilirliğin doğrulanması gerekiyor
  • Pekiştirmeli öğrenme verimliliğini artırmak için kısmi rollout ve off-policy öğrenme üzerine araştırma planlanıyor

Seri araştırmalar

  • WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher dahil 11 ilgili makale yayımlandı
  • Son 6 ayda her ay teknik rapor yayımlandı; bu kez Tongyi DeepResearch‑30B‑A3B modeli ile birlikte 6 yeni rapor eş zamanlı olarak açıklandı
  • Yeni nesil ajan tipi model geliştirmesi sürdürülecek

1 yorum

 
GN⁺ 2025-11-04
Hacker News görüşleri
  • “Deep research” için yayımlanan 30B MoE modeli sevindirici
    Birden fazla ajanı paralel çalıştırıp keşif ve çıkarımı hafif modellerin, planlama, araç yönlendirme ve doğrulamayı ise 30B modelin üstlendiği yapı verimli görünüyor
    MoE’nin uzmanlaşmış yapısı dağıtık ajan yapay zekası için çok uygun, ancak yeniden deneme, uzlaşma ve çok adımlı web araştırması değerlendirmesi için bir orkestrasyon gerekiyor
  • Bu aralar özelleşmiş LLM’lerin patlayıcı biçimde artıp artmayacağı merak ediliyor
    Büyük modeller fazlasıyla büyüyüp ön eğitim sınırlarına dayanırsa, amaca özel modeller daha da çoğalabilir
    GPT‑3.5 satrançta iyiydi ama son modeller öyle değilse, eğitim verisinde bir trade-off var gibi görünüyor
    • Şu anda genel amaçlı büyük modeller neredeyse her açıdan daha üstün
      Küçük modelleri belirli işler için fine-tune etmek maliyetli ve büyük modellerin gelişim hızı o kadar yüksek ki çok çabuk geride kalıyorlar
      Ama gelişim yavaşlarsa küçük model eğitimi yeniden anlam kazanabilir
    • Satrançta güçlü LLM’lere dair bir benchmark görmek isterdim
      Uzun zamandır sadece SvelteKit gibi belirli framework’leri çok iyi bilen 4B~8B bir model olsa güzel olur diye düşünüyordum
      Büyük modellerin kalitesinin her zaman daha iyi olduğunu söylemek zor ve küçük bir model tek bir GPU’da çalışıyorsa çok daha pratik olabilir
      Eskiden kardeşime satranç LLM karşılaştırma sitesi fikrini önermiştim ama hâlâ yapılmadı
    • GPT‑3.5’in satrançta güçlü olduğu sözüne katılmıyorum
      Bizzat denediğimde çok sayıda halüsinasyon hamlesi vardı
    • seed‑tars.com/game‑tars bağlantısı paylaşılıyor
    • MoE mimarisinin özü tam da bu değil mi?
      Gereken parçaları ayrı ayrı eğitip iyileştirebilmek büyük avantaj
  • Bu tür deep research araçlarının gerçekten ne kadar faydalı olduğu merak ediliyor
    Benim deneyimimde arama motoru özeti seviyesini aşamıyor ve sadece sönük raporlar üretiyorlar
    • Birleşik Krallık’ta küçük bir web sitesi işletirken mevzuata uyum için kullandım; bağlam verildiğinde oldukça özelleştirilmiş sonuçlar üretiyor
      Avukat seviyesinde değil ama bütçesi olmayan projeler için büyük yardım
    • Benim deneyimim de benzer
      Gerçekten öğrenmek isteyenlere değil de, ‘kaliteli görünmek’ için yazılmış danışmanlık raporu hissi veriyor; pratik değeri düşük
    • Raporlar sönük ama kaynak tarama için kullanışlı
      “Bu konu daha önce araştırılmış mı?” gibi sorular için bakılacak örnekler bulmaya yardım ediyor
    • ChatGPT’yi sık kullanıyorum; soru sorunca ilgili kaynakları derleme işini iyi yapıyor
      Doğrudan araştırmanın yerini tamamen almıyor ama başlangıçta bilgiyi toparlamada çok yardımcı
    • Arama motoru düzeyinde özetler bile yeni fikirler ya da unknown unknowns bulmak için yeterince işe yarayabiliyor
  • Daha önce hazırlanan Qwen3 4B distill modeli ve sentetik veri seti Hugging Face üzerinde yayımlanmış
    • Tarayıcıda doğrudan denenebilen bir Hugging Face Space yapılması isteniyor
      Qwen3 4B, benim Intel entegre GPU’mda bile iyi çalıştığı için etkileyiciydi
      Daha önce ‘zararlı içerik tespiti için ultra ucuz model’ fikrini düşünmüştüm; bu tür küçük LLM’ler o rolü üstlenebilir gibi görünüyor
      Ayrıca yönlendirme için de kullanılabilir
    • Kendi web arama MCP’m ile denedim; bu kadar küçük bir modelde böyle bir deep research kalitesini ilk kez görüyorum
  • Genel olarak ilgi çekici bir seri
    Ama CSS özelliği word-break: break-word; yüzünden okumak çok zor
    • Ben de okumaya çalıştım ama kelimeler birbirine bağlanmıyor gibi hissettiriyor
  • Pazar sabahı, bunu bir mühendislik hobisi olarak self-host etmek için ne gerektiği merak ediliyor
    2080Ti ve 128GB VRAM(?) ile yavaş da olsa çalıştırmak istiyorlar
    Kısıtların işi daha eğlenceli kıldığı düşünülüyor
    • Ucuza VRAM toplamak için AMD MI50 iyi bir seçenek
      32GB sürümü AliExpress’te 150~250 dolar arasında bulunabiliyor ve birkaç tane birleştirilirse 128GB VRAM kurulumu yapılabiliyor
      En yeni GPU’lar kadar hızlı değil ama yeterince kullanılabilir
    • Yerelde hızlıca denemek için en kolay yol Ollama uygulaması
      ollama.com üzerinden kurulabiliyor
      Ama 2080Ti ile 128GB VRAM nasıl oluyor, onu merak ediyorum
    • Ben modelleri 128GB birleşik belleğe sahip MacBook Pro üzerinde çalıştırıyorum
      Yavaş ama çevrimdışı da iyi çalışıyor ve kafede bile kullanılabiliyor
      Ollama kullandığım için en yeni modellerin port edilmesini beklemem gerekiyor
    • Kısıtlı bütçeyle topladığım kurulum şöyle
      Ryzen 9 9950X, 96GB RAM, iki adet RTX 3090, 1600W PSU
      FP8 kuantize 30B modelleri rahatça çalıştırabiliyor
    • Muhtemelen VRAM değil RAM kastediliyordu
      Bu model 30B MoE olsa da aktif parametre sayısı yaklaşık 3B, yani Qwen3 MoE’ye benziyor
      Ben 11 yıllık i5‑6600 ve Radeon 6600 (8GB) ile 4bit kuantize modeli çalıştırıyorum; 16k context’te yaklaşık 12tps alıyorum
      Çalıştırma betiği örneği de paylaşılmış
  • Tongyi modeli OpenRouter’da da sunuluyor ve ücretsiz sürümü de var
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • “Deep research”ün “Agree” diye çevrilmiş olabileceğine dair bir espri yapılıyor
    • Aslında Çince adı 通义千问(Tongyi Qianwen) ve anlamı “tüm soruları bilmek”
      “同意” ile telaffuzu aynı ama anlamı farklı
      Alibaba Qwen resmi sayfası referans gösteriliyor
  • Bu modelin ağırlıkları aslında bir ay önce yayımlanmıştı
    • Yine de herkes gelişmeleri gerçek zamanlı takip etmiyor; bu yüzden bir aylık model bile hâlâ faydalı olabilir
    • O hâlde diğer modellerle performans karşılaştırması nasıl, merak ediliyor
  • OpenAI’nin “Deep research”ü belirli bir modelden çok işlevsel bir desene benziyor
    GPT‑5, GPT‑4o, o3 gibi hangi model kullanılırsa sonuç da ona göre değişiyor
    • Şu anda OpenAI, Perplexity, Google Gemini, Anthropic, Grok ve diğerlerinin neredeyse hepsi benzer araştırma kalıpları sunuyor
      Bunlar arama tabanlı, uzun çalışan görevler; 5~10 dakika boyunca bilgi toplayıp alıntılar içeren raporlar üretiyorlar
      Tongyi modeli de bu tür döngüsel arama ve rapor yazımı işlerine özel olarak ayarlanmış görünüyor