- OpenAI'nin ChatGPT'ye eklediği yeni ajan benzeri özellik "Deep research"
- İnternetten büyük miktarda bilgiyi toplayıp analiz ederek ve sentezleyerek, karmaşık görevleri onlarca dakika içinde otomatik olarak çözüyor
- Gelecekte AGI'ye ulaşmak için temel bir adım olarak, yeni bilgi üretebilen "bilgi sentezi" yeteneği vazgeçilmez kabul ediliyor
Deep research neden geliştirildi
- Finans, bilim, politika, mühendislik gibi ileri düzey bilgi işi alanlarından büyük tüketici ürünleri satın alma araştırmalarına kadar, kapsamlı ve güvenilir araştırma sonuçlarına ihtiyaç duyan kullanıcılar için geliştirildi
- Çeşitli çevrimiçi kaynaklardan, kolay görünmeyen niş bilgileri veya sezgisel olmayan gerçekleri hızla bulup belgelendirebiliyor
- Profesyonel düzeyde araştırmayı otomatikleştirerek iş üretkenliğini büyük ölçüde artırmayı hedefliyor
Deep research nasıl kullanılır
- ChatGPT'nin mesaj giriş alanında Deep research modunu seçin
- İstekle birlikte (ör. rakip analizi, kişiselleştirilmiş ürün önerileri vb.) gerekli dosya veya elektronik tabloları ekleyebilirsiniz
- Deep research, 5 dakikadan en fazla 30 dakikaya kadar interneti tarayarak ayrıntılı bir rapor hazırlar
- İşlem sırasında, adım adım özetler ve başvuru kaynaklarının gösterildiği bir kenar çubuğundan süreci takip edebilirsiniz
- Nihai çıktı, kapsamlı alıntılarla birlikte rapor biçiminde sunulur; ileride görsel ve veri görselleştirme gibi öğelerin de eklenmesi planlanıyor
Nasıl çalışır
- OpenAI o1'in akıl yürütme yeteneklerini genişleten yeni nesil bir modelden (OpenAI o3 tabanlı) yararlanarak karmaşık tarama ve analiz görevlerini ele alıyor
- Çok aşamalı planlama, bilgi toplama ve ara geri bildirimleri yansıtma süreçlerini kendi başına yürütüyor
- Kullanıcının yüklediği dosyalara da erişerek Python araçlarıyla grafik oluşturma gibi analiz işleri yapabiliyor
- Belirli cümleler düzeyinde kaynak göstererek doğruluğu ve şeffaflığı artırıyor
Humanity’s Last Exam değerlendirmesi
- Yakın zamanda yayımlanan kapsamlı değerlendirme Humanity’s Last Exam'de %26,6 doğru yanıt oranı elde ederek önceki modellere kıyasla üstün performans gösterdi
- 3.000'den fazla uzman düzeyinde soru içeriyor ve birçok akademik alanı kapsıyor
- Kimya, beşerî ve sosyal bilimler ile matematik alanlarında önceki modellere göre büyük gelişme gösterdi
- Karşılaştırma için GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1 gibi çeşitli modeller yer aldı ve Deep research modeli %26,6 ile en yüksek doğruluğu gösterdi
- GPT-4o yaklaşık %3,3, Claude 3.5 Sonnet %4,3 ve OpenAI o1 %9,1 seviyesindeydi
GAIA benchmark'ı
- GAIA, web tarama, çok modlu işleme ve araç kullanma yeteneklerinin tümünü gerektiren gerçek dünya sorularını değerlendiren bir ölçüttür
- Deep research modeli bu benchmark'ta önceki en yüksek performansı geride bıraktı
- GAIA soruları zorluk seviyelerini 1'den 3'e ayırıyor ve Deep research tüm seviyelerde önceki en iyi sonuçlardan daha yüksek puan aldı
- Özellikle, önceki kayda kıyasla her seviyede yaklaşık %6-8 arası iyileşme gösterirken genel ortalama da yükseldi
Uzman düzeyinde işler
- Şirket içi değerlendirmelerde, saatler süren manuel araştırmanın yerini alabilecek kadar yüksek bir otomasyon seviyesi gösterdi
- Model ne kadar çok kaynak tarar ve ne kadar uzun düşünürse performansı o kadar artıyor; bu yüzden hesaplama için yeterli süre tanımak önemli
Sınırlamalar
- Bazı olgusal hatalar veya yanlış akıl yürütmelerin (hallucination) hâlâ ortaya çıkması mümkün
- Söylentiler ile güvenilirliği yüksek kaynakları ayırt etmekte zorlanabiliyor ve belirsizliği ifade etme biçimi her zaman doğru olmayabiliyor
- İlk sürümde rapor veya alıntı biçimi biraz pürüzlü olabilir ve bazı durumlarda çalışma süresi uzayabilir
Erişim ve kullanım
- Şu anda Deep research, yüksek hesaplama maliyeti nedeniyle öncelikle Pro kullanıcılarına sunuluyor ve ayda en fazla 100 kullanım mümkün
- Yakında Plus ve Team kullanıcılarına da kademeli olarak açılacak
- Birleşik Krallık, İsviçre ve Avrupa Ekonomik Alanı (EEA) kullanıcıları için destek daha sonra genişletilecek
- Gelecekte daha hızlı ve verimli küçük model sürümleriyle tüm ücretli hesapların istek limitleri önemli ölçüde artırılacak
Gelecek planları
- Deep research şimdilik ChatGPT'nin web sürümünde kullanılabiliyor; mobil ve masaüstü uygulamalara da yakında eklenecek
- İleride abonelik tabanlı veriler ve kurum içi kaynaklarla da bağlantı kurarak daha kişiselleştirilmiş sonuçlar sunması planlanıyor
- Deep research, Operator ile birleştirildiğinde çevrimdışı/çevrimiçi gerçek işleri de otomatik olarak yerine getiren gelişmiş bir ajan deneyimi oluşturabileceği düşünülüyor
3 yorum
DeepResearch kullanılarak hazırlanmış gerçek raporlar
Hacker News görüşleri
Bir kullanıcı, kendisi hakkında bir rapor oluşturmayı denediğini ancak çeşitli hatalarla karşılaştığını belirtti. Örneğin, Stack Overflow itibarını yanlış algılamış ve röportaj alıntısını da yanlış kişiden almış.
Başka bir kullanıcı, dil modellerinin yaklaşık %10 oranında tamamen doğru yanıt veremediğini ve bunun güveni zedeleyebileceğini belirtti. Yanıtların doğruluğunu kontrol etmek için gereken sürenin de önemli bir unsur olduğunu vurguladı.
Bir kullanıcı, bunun yakın zamanda Standard tarafından yayınlanan rapor oluşturma projesine benzediğini söyledi.
Gemini'nin bu özelliği birkaç aydır "Deep Research" adıyla sunduğunu belirtti. Yapay zeka dünyasında isim çakışmalarının neden yaşandığını sorguladı.
Bir kullanıcı, hata ve halüsinasyon sorunları kabul edilse bile birçok kişinin bunları görmezden gelip sonuçları kendi PowerPoint'ine ekleyeceğinden endişe etti. Bu tür araçlar güçlendikçe bilginin çarpıtılmasının daha da ağırlaşacağı uyarısında bulundu.
Henüz yayınlanmamış o3 modelinin bu özelliği desteklediğini ve bunun oldukça etkileyici bir model olduğunu belirtti. Google, DeepSeek ve Perplexity'deki önde gelen modeller düzeyinde olduğunu vurguladı.
Bunun akademide çalışanlar için ilginç bir araç olduğunu, denemek istediğini ancak maliyetin yük oluşturduğunu söyledi. Belirli bir prompt ile test edilmesini rica etti.
Bunun AGI ve ASI için bir ön koşul niteliğinde olup olmadığına dair soru işaretleri dile getirdi. Araştırmanın önemine kuşkuyla yaklaştı ve yürütme sonuçları yerine yanıtlara dayanılması konusunda kaygı belirtti.
İç testlerde yalnızca %20 başarı oranına ulaşıldığını belirterek, büyük miktarda hatalı metni gözden geçirmenin çok zaman aldığını söyledi. Daha yinelemeli bir sürece ihtiyaç olduğunu savundu.
Bloglarda tanınmış uzmanların ya da görünür olmak isteyen kişilerin yazmayı sürdürüp sürdürmeyeceğini sorguladı. Okurların tamamen botlara dönüştüğü bir senaryodan endişe etti.
Müthiş derecede heyecanla bekliyorum.. Bunun
one more thingolmaması inanılmaz..Acaba DeepSeek meselesi bununla gölgede mi kalacak