Open Deep Research - açık kaynakla hayata geçirilen Deep Research

xguru · 2025-02-05T13:13:12+09:00

OpenAI tarafından duyurulan DeepResearch, web araması üzerinden içeriği özetliyor ve soru-cevap yapıyor GAIA benchmark'ında yüksek puan elde ederek dikkat çekti Güçlü bir LLM ile dahili bir ajan çatısını birleştirerek web gezintisi gibi çeşitli araçları adım adım kullanıyor OpenAI ajan çatısının ayrıntılarını açıklamadığı için, bunu açık kaynakla yeniden üretmek amacıyla 24 saat boyunca deney yapıldı Ajan çatısı nedir ve neden önemlidir? Ajan çatısı, LLM üzerine ek bir katman koyarak tarayıcıda gezinme, PDF okuma gibi çeşitli eylemler yaptıran bir yapı LLM'i yalnızca basit bir sohbet biçiminde kullanmaktan ziyade, ajan sistemiyle birleştirildiğinde çok daha güçlü hale geliyor smolagents gibi kütüphaneler üzerinden basit bir ajan çatısı uygulansa bile performans büyük ölçüde artıyor OpenAI DeepResearch de bu yaklaşımı kullanarak üstün performans elde ediyor GAIA benchmark'ı GAIA, ajan performansını değerlendirmek için son derece zor bir benchmark Örneğin, “Embroidery from Uzbekistan”da geçen meyveleri belirli bir geminin eski kahvaltı menüsüyle ilişkilendirip sırayla listelemeyi isteyen karmaşık bir soru veriliyor Yalnızca tek bir LLM ile başarı oranı %7 seviyesinde kalırken, DeepResearch %67'nin üzerine çıkarak büyük bir fark gösteriyor GAIA soruları çok adımlı akıl yürütme, bilgi arama, çok modlu işleme gibi yetenekler gerektirdiği için ajan yaklaşımının gerçek gücünü test etmeye uygun Open Deep Research inşa etmek DeepResearch yaklaşımını yeniden üretmek için açık kaynak LLM ile ajan çatısını birleştiren bir deney yapıldı Amaç, basit metin tabanlı bir web tarayıcısı ve dosya görüntüleme aracı gibi araçlarla GAIA performansını yükseltmekti CodeAgent kullanımı CodeAgent yaklaşımı, eylemleri JSON yerine kod biçiminde ifade ediyor Wang et al. (2024) çalışmasına göre kod temsili daha sıkıştırılmış, daha sezgisel ve LLM için daha uygun avantajlar sunuyor Adım sayısı azaldığı için maliyeti düşürüyor ve çok modlu durum yönetimi açısından da avantaj sağlıyor Uygun araçlar geliştirmek İlk araç: metin tabanlı web tarayıcısı Operator benzeri zengin işlevler henüz uygulanmış değil, ancak ilk aşamada yalnızca basit gezinme işlevi sunuluyor İkinci araç: metin dosyası biçimlerini görüntülemek için bir inspector Basit bir belge işleme aracıyla içerik okuma işlevi destekleniyor İleride daha ayrıntılı dosya biçimi desteği, web gezintisinde vision model entegrasyonu ve GUI ajanı eklenmesi planlanıyor Sonuçlar 24 saatlik yeniden üretim deneyiyle GAIA benchmark'ında %54 seviyesine ulaşıldı JSON yerine kod temsili kullanıldığında puan %33'ten %54'e yükseldi Açık smolagents çatısı ve araçları kullanılarak herkes tarafından yeniden üretilebiliyor Operator düzeyinde bir tarayıcı veya güçlü yerel modellerle birleştirildiğinde daha da geliştirilebilecek büyük bir alan var Toplulukların yeniden uygulamaları dzhng, assafelovic, nickscamara, jina-ai, mshumer gibi çeşitli uygulamalar topluluk içinde ortaya çıktı Her biri farklı kütüphaneler kullanıyor veya farklı arama/indeksleme yöntemleri deniyor İleride açık LLM'ler, vision model'ler ve kod tabanlı eylem temsilleriyle elde edilen yeniden üretim sonuçlarını paylaşarak bunu geliştirmeyi hedefliyorlar En önemli bir sonraki adım OpenAI'nin Operator'ü gibi gelişmiş web tarayıcı işlevlerini destekleyecek bir GUI ajanı oluşturmak kritik önem taşıyor Ekranı görüp fare ve klavyeyle işlem yapabilen yeteneği açık kaynak olarak sunmak istiyorlar smolagents, OpenAI Operator vb. ile entegre edilerek olgunluğun artırılması planlanıyor GAIA puanını yükseltmek, açık LLM kullanımı ve görsel web gezintisi uygulaması başlıca görevler arasında

(huggingface.co)

21 puan yazan xguru 2025-02-05 | Henüz yorum yok. | WhatsApp'ta paylaş

OpenAI tarafından duyurulan DeepResearch, web araması üzerinden içeriği özetliyor ve soru-cevap yapıyor
- GAIA benchmark'ında yüksek puan elde ederek dikkat çekti
- Güçlü bir LLM ile dahili bir ajan çatısını birleştirerek web gezintisi gibi çeşitli araçları adım adım kullanıyor
OpenAI ajan çatısının ayrıntılarını açıklamadığı için, bunu açık kaynakla yeniden üretmek amacıyla 24 saat boyunca deney yapıldı

Ajan çatısı nedir ve neden önemlidir?

Ajan çatısı, LLM üzerine ek bir katman koyarak tarayıcıda gezinme, PDF okuma gibi çeşitli eylemler yaptıran bir yapı
LLM'i yalnızca basit bir sohbet biçiminde kullanmaktan ziyade, ajan sistemiyle birleştirildiğinde çok daha güçlü hale geliyor
smolagents gibi kütüphaneler üzerinden basit bir ajan çatısı uygulansa bile performans büyük ölçüde artıyor
OpenAI DeepResearch de bu yaklaşımı kullanarak üstün performans elde ediyor

GAIA benchmark'ı

GAIA, ajan performansını değerlendirmek için son derece zor bir benchmark
Örneğin, “Embroidery from Uzbekistan”da geçen meyveleri belirli bir geminin eski kahvaltı menüsüyle ilişkilendirip sırayla listelemeyi isteyen karmaşık bir soru veriliyor
Yalnızca tek bir LLM ile başarı oranı %7 seviyesinde kalırken, DeepResearch %67'nin üzerine çıkarak büyük bir fark gösteriyor
GAIA soruları çok adımlı akıl yürütme, bilgi arama, çok modlu işleme gibi yetenekler gerektirdiği için ajan yaklaşımının gerçek gücünü test etmeye uygun

Open Deep Research inşa etmek

DeepResearch yaklaşımını yeniden üretmek için açık kaynak LLM ile ajan çatısını birleştiren bir deney yapıldı
Amaç, basit metin tabanlı bir web tarayıcısı ve dosya görüntüleme aracı gibi araçlarla GAIA performansını yükseltmekti
CodeAgent kullanımı
- CodeAgent yaklaşımı, eylemleri JSON yerine kod biçiminde ifade ediyor
- Wang et al. (2024) çalışmasına göre kod temsili daha sıkıştırılmış, daha sezgisel ve LLM için daha uygun avantajlar sunuyor
- Adım sayısı azaldığı için maliyeti düşürüyor ve çok modlu durum yönetimi açısından da avantaj sağlıyor
Uygun araçlar geliştirmek
- İlk araç: metin tabanlı web tarayıcısı
  - Operator benzeri zengin işlevler henüz uygulanmış değil, ancak ilk aşamada yalnızca basit gezinme işlevi sunuluyor
- İkinci araç: metin dosyası biçimlerini görüntülemek için bir inspector
  - Basit bir belge işleme aracıyla içerik okuma işlevi destekleniyor
- İleride daha ayrıntılı dosya biçimi desteği, web gezintisinde vision model entegrasyonu ve GUI ajanı eklenmesi planlanıyor
Reklam

Sonuçlar

24 saatlik yeniden üretim deneyiyle GAIA benchmark'ında %54 seviyesine ulaşıldı
JSON yerine kod temsili kullanıldığında puan %33'ten %54'e yükseldi
Açık smolagents çatısı ve araçları kullanılarak herkes tarafından yeniden üretilebiliyor
Operator düzeyinde bir tarayıcı veya güçlü yerel modellerle birleştirildiğinde daha da geliştirilebilecek büyük bir alan var

Toplulukların yeniden uygulamaları

dzhng, assafelovic, nickscamara, jina-ai, mshumer gibi çeşitli uygulamalar topluluk içinde ortaya çıktı
Her biri farklı kütüphaneler kullanıyor veya farklı arama/indeksleme yöntemleri deniyor
İleride açık LLM'ler, vision model'ler ve kod tabanlı eylem temsilleriyle elde edilen yeniden üretim sonuçlarını paylaşarak bunu geliştirmeyi hedefliyorlar

En önemli bir sonraki adım

OpenAI'nin Operator'ü gibi gelişmiş web tarayıcı işlevlerini destekleyecek bir GUI ajanı oluşturmak kritik önem taşıyor
Ekranı görüp fare ve klavyeyle işlem yapabilen yeteneği açık kaynak olarak sunmak istiyorlar
smolagents, OpenAI Operator vb. ile entegre edilerek olgunluğun artırılması planlanıyor
GAIA puanını yükseltmek, açık LLM kullanımı ve görsel web gezintisi uygulaması başlıca görevler arasında