- OpenAI tarafından duyurulan DeepResearch, web araması üzerinden içeriği özetliyor ve soru-cevap yapıyor
- GAIA benchmark'ında yüksek puan elde ederek dikkat çekti
- Güçlü bir LLM ile dahili bir ajan çatısını birleştirerek web gezintisi gibi çeşitli araçları adım adım kullanıyor
- OpenAI ajan çatısının ayrıntılarını açıklamadığı için, bunu açık kaynakla yeniden üretmek amacıyla 24 saat boyunca deney yapıldı
Ajan çatısı nedir ve neden önemlidir?
- Ajan çatısı, LLM üzerine ek bir katman koyarak tarayıcıda gezinme, PDF okuma gibi çeşitli eylemler yaptıran bir yapı
- LLM'i yalnızca basit bir sohbet biçiminde kullanmaktan ziyade, ajan sistemiyle birleştirildiğinde çok daha güçlü hale geliyor
- smolagents gibi kütüphaneler üzerinden basit bir ajan çatısı uygulansa bile performans büyük ölçüde artıyor
- OpenAI DeepResearch de bu yaklaşımı kullanarak üstün performans elde ediyor
GAIA benchmark'ı
- GAIA, ajan performansını değerlendirmek için son derece zor bir benchmark
- Örneğin, “Embroidery from Uzbekistan”da geçen meyveleri belirli bir geminin eski kahvaltı menüsüyle ilişkilendirip sırayla listelemeyi isteyen karmaşık bir soru veriliyor
- Yalnızca tek bir LLM ile başarı oranı %7 seviyesinde kalırken, DeepResearch %67'nin üzerine çıkarak büyük bir fark gösteriyor
- GAIA soruları çok adımlı akıl yürütme, bilgi arama, çok modlu işleme gibi yetenekler gerektirdiği için ajan yaklaşımının gerçek gücünü test etmeye uygun
Open Deep Research inşa etmek
- DeepResearch yaklaşımını yeniden üretmek için açık kaynak LLM ile ajan çatısını birleştiren bir deney yapıldı
- Amaç, basit metin tabanlı bir web tarayıcısı ve dosya görüntüleme aracı gibi araçlarla GAIA performansını yükseltmekti
- CodeAgent kullanımı
- CodeAgent yaklaşımı, eylemleri JSON yerine kod biçiminde ifade ediyor
- Wang et al. (2024) çalışmasına göre kod temsili daha sıkıştırılmış, daha sezgisel ve LLM için daha uygun avantajlar sunuyor
- Adım sayısı azaldığı için maliyeti düşürüyor ve çok modlu durum yönetimi açısından da avantaj sağlıyor
- Uygun araçlar geliştirmek
- İlk araç: metin tabanlı web tarayıcısı
- Operator benzeri zengin işlevler henüz uygulanmış değil, ancak ilk aşamada yalnızca basit gezinme işlevi sunuluyor
- İkinci araç: metin dosyası biçimlerini görüntülemek için bir inspector
- Basit bir belge işleme aracıyla içerik okuma işlevi destekleniyor
- İleride daha ayrıntılı dosya biçimi desteği, web gezintisinde vision model entegrasyonu ve GUI ajanı eklenmesi planlanıyor
Sonuçlar
- 24 saatlik yeniden üretim deneyiyle GAIA benchmark'ında %54 seviyesine ulaşıldı
- JSON yerine kod temsili kullanıldığında puan %33'ten %54'e yükseldi
- Açık smolagents çatısı ve araçları kullanılarak herkes tarafından yeniden üretilebiliyor
- Operator düzeyinde bir tarayıcı veya güçlü yerel modellerle birleştirildiğinde daha da geliştirilebilecek büyük bir alan var
Toplulukların yeniden uygulamaları
- dzhng, assafelovic, nickscamara, jina-ai, mshumer gibi çeşitli uygulamalar topluluk içinde ortaya çıktı
- Her biri farklı kütüphaneler kullanıyor veya farklı arama/indeksleme yöntemleri deniyor
- İleride açık LLM'ler, vision model'ler ve kod tabanlı eylem temsilleriyle elde edilen yeniden üretim sonuçlarını paylaşarak bunu geliştirmeyi hedefliyorlar
En önemli bir sonraki adım
- OpenAI'nin Operator'ü gibi gelişmiş web tarayıcı işlevlerini destekleyecek bir GUI ajanı oluşturmak kritik önem taşıyor
- Ekranı görüp fare ve klavyeyle işlem yapabilen yeteneği açık kaynak olarak sunmak istiyorlar
- smolagents, OpenAI Operator vb. ile entegre edilerek olgunluğun artırılması planlanıyor
- GAIA puanını yükseltmek, açık LLM kullanımı ve görsel web gezintisi uygulaması başlıca görevler arasında
Henüz yorum yok.