21 puan yazan xguru 2025-02-05 | Henüz yorum yok. | WhatsApp'ta paylaş
  • OpenAI tarafından duyurulan DeepResearch, web araması üzerinden içeriği özetliyor ve soru-cevap yapıyor
    • GAIA benchmark'ında yüksek puan elde ederek dikkat çekti
    • Güçlü bir LLM ile dahili bir ajan çatısını birleştirerek web gezintisi gibi çeşitli araçları adım adım kullanıyor
  • OpenAI ajan çatısının ayrıntılarını açıklamadığı için, bunu açık kaynakla yeniden üretmek amacıyla 24 saat boyunca deney yapıldı

Ajan çatısı nedir ve neden önemlidir?

  • Ajan çatısı, LLM üzerine ek bir katman koyarak tarayıcıda gezinme, PDF okuma gibi çeşitli eylemler yaptıran bir yapı
  • LLM'i yalnızca basit bir sohbet biçiminde kullanmaktan ziyade, ajan sistemiyle birleştirildiğinde çok daha güçlü hale geliyor
  • smolagents gibi kütüphaneler üzerinden basit bir ajan çatısı uygulansa bile performans büyük ölçüde artıyor
  • OpenAI DeepResearch de bu yaklaşımı kullanarak üstün performans elde ediyor

GAIA benchmark'ı

  • GAIA, ajan performansını değerlendirmek için son derece zor bir benchmark
  • Örneğin, “Embroidery from Uzbekistan”da geçen meyveleri belirli bir geminin eski kahvaltı menüsüyle ilişkilendirip sırayla listelemeyi isteyen karmaşık bir soru veriliyor
  • Yalnızca tek bir LLM ile başarı oranı %7 seviyesinde kalırken, DeepResearch %67'nin üzerine çıkarak büyük bir fark gösteriyor
  • GAIA soruları çok adımlı akıl yürütme, bilgi arama, çok modlu işleme gibi yetenekler gerektirdiği için ajan yaklaşımının gerçek gücünü test etmeye uygun

Open Deep Research inşa etmek

  • DeepResearch yaklaşımını yeniden üretmek için açık kaynak LLM ile ajan çatısını birleştiren bir deney yapıldı
  • Amaç, basit metin tabanlı bir web tarayıcısı ve dosya görüntüleme aracı gibi araçlarla GAIA performansını yükseltmekti
  • CodeAgent kullanımı
    • CodeAgent yaklaşımı, eylemleri JSON yerine kod biçiminde ifade ediyor
    • Wang et al. (2024) çalışmasına göre kod temsili daha sıkıştırılmış, daha sezgisel ve LLM için daha uygun avantajlar sunuyor
    • Adım sayısı azaldığı için maliyeti düşürüyor ve çok modlu durum yönetimi açısından da avantaj sağlıyor
  • Uygun araçlar geliştirmek
    • İlk araç: metin tabanlı web tarayıcısı
      • Operator benzeri zengin işlevler henüz uygulanmış değil, ancak ilk aşamada yalnızca basit gezinme işlevi sunuluyor
    • İkinci araç: metin dosyası biçimlerini görüntülemek için bir inspector
      • Basit bir belge işleme aracıyla içerik okuma işlevi destekleniyor
    • İleride daha ayrıntılı dosya biçimi desteği, web gezintisinde vision model entegrasyonu ve GUI ajanı eklenmesi planlanıyor

Sonuçlar

  • 24 saatlik yeniden üretim deneyiyle GAIA benchmark'ında %54 seviyesine ulaşıldı
  • JSON yerine kod temsili kullanıldığında puan %33'ten %54'e yükseldi
  • Açık smolagents çatısı ve araçları kullanılarak herkes tarafından yeniden üretilebiliyor
  • Operator düzeyinde bir tarayıcı veya güçlü yerel modellerle birleştirildiğinde daha da geliştirilebilecek büyük bir alan var

Toplulukların yeniden uygulamaları

  • dzhng, assafelovic, nickscamara, jina-ai, mshumer gibi çeşitli uygulamalar topluluk içinde ortaya çıktı
  • Her biri farklı kütüphaneler kullanıyor veya farklı arama/indeksleme yöntemleri deniyor
  • İleride açık LLM'ler, vision model'ler ve kod tabanlı eylem temsilleriyle elde edilen yeniden üretim sonuçlarını paylaşarak bunu geliştirmeyi hedefliyorlar

En önemli bir sonraki adım

  • OpenAI'nin Operator'ü gibi gelişmiş web tarayıcı işlevlerini destekleyecek bir GUI ajanı oluşturmak kritik önem taşıyor
  • Ekranı görüp fare ve klavyeyle işlem yapabilen yeteneği açık kaynak olarak sunmak istiyorlar
  • smolagents, OpenAI Operator vb. ile entegre edilerek olgunluğun artırılması planlanıyor
  • GAIA puanını yükseltmek, açık LLM kullanımı ve görsel web gezintisi uygulaması başlıca görevler arasında

Henüz yorum yok.

Henüz yorum yok.