OpenAI, Deep Research'ü duyurdu

xguru · 2025-02-03T13:41:21+09:00

OpenAI'nin ChatGPT'ye eklediği yeni ajan benzeri özellik "Deep research" İnternetten büyük miktarda bilgiyi toplayıp analiz ederek ve sentezleyerek, karmaşık görevleri onlarca dakika içinde otomatik olarak çözüyor Gelecekte AGI'ye ulaşmak için temel bir adım olarak, yeni bilgi üretebilen "bilgi sentezi" yeteneği vazgeçilmez kabul ediliyor Deep research neden geliştirildi Finans, bilim, politika, mühendislik gibi ileri düzey bilgi işi alanlarından büyük tüketici ürünleri satın alma araştırmalarına kadar, kapsamlı ve güvenilir araştırma sonuçlarına ihtiyaç duyan kullanıcılar için geliştirildi Çeşitli çevrimiçi kaynaklardan, kolay görünmeyen niş bilgileri veya sezgisel olmayan gerçekleri hızla bulup belgelendirebiliyor Profesyonel düzeyde araştırmayı otomatikleştirerek iş üretkenliğini büyük ölçüde artırmayı hedefliyor Deep research nasıl kullanılır ChatGPT'nin mesaj giriş alanında Deep research modunu seçin İstekle birlikte (ör. rakip analizi, kişiselleştirilmiş ürün önerileri vb.) gerekli dosya veya elektronik tabloları ekleyebilirsiniz Deep research, 5 dakikadan en fazla 30 dakikaya kadar interneti tarayarak ayrıntılı bir rapor hazırlar İşlem sırasında, adım adım özetler ve başvuru kaynaklarının gösterildiği bir kenar çubuğundan süreci takip edebilirsiniz Nihai çıktı, kapsamlı alıntılarla birlikte rapor biçiminde sunulur; ileride görsel ve veri görselleştirme gibi öğelerin de eklenmesi planlanıyor Nasıl çalışır OpenAI o1'in akıl yürütme yeteneklerini genişleten yeni nesil bir modelden (OpenAI o3 tabanlı) yararlanarak karmaşık tarama ve analiz görevlerini ele alıyor Çok aşamalı planlama, bilgi toplama ve ara geri bildirimleri yansıtma süreçlerini kendi başına yürütüyor Kullanıcının yüklediği dosyalara da erişerek Python araçlarıyla grafik oluşturma gibi analiz işleri yapabiliyor Belirli cümleler düzeyinde kaynak göstererek doğruluğu ve şeffaflığı artırıyor Humanity’s Last Exam değerlendirmesi Yakın zamanda yayımlanan kapsamlı değerlendirme Humanity’s Last Exam'de %26,6 doğru yanıt oranı elde ederek önceki modellere kıyasla üstün performans gösterdi 3.000'den fazla uzman düzeyinde soru içeriyor ve birçok akademik alanı kapsıyor Kimya, beşerî ve sosyal bilimler ile matematik alanlarında önceki modellere göre büyük gelişme gösterdi Karşılaştırma için GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1 gibi çeşitli modeller yer aldı ve Deep research modeli %26,6 ile en yüksek doğruluğu gösterdi GPT-4o yaklaşık %3,3, Claude 3.5 Sonnet %4,3 ve OpenAI o1 %9,1 seviyesindeydi GAIA benchmark'ı GAIA, web tarama, çok modlu işleme ve araç kullanma yeteneklerinin tümünü gerektiren gerçek dünya sorularını değerlendiren bir ölçüttür Deep research modeli bu benchmark'ta önceki en yüksek performansı geride bıraktı GAIA soruları zorluk seviyelerini 1'den 3'e ayırıyor ve Deep research tüm seviyelerde önceki en iyi sonuçlardan daha yüksek puan aldı Özellikle, önceki kayda kıyasla her seviyede yaklaşık %6-8 arası iyileşme gösterirken genel ortalama da yükseldi Uzman düzeyinde işler Şirket içi değerlendirmelerde, saatler süren manuel araştırmanın yerini alabilecek kadar yüksek bir otomasyon seviyesi gösterdi Model ne kadar çok kaynak tarar ve ne kadar uzun düşünürse performansı o kadar artıyor; bu yüzden hesaplama için yeterli süre tanımak önemli Sınırlamalar Bazı olgusal hatalar veya yanlış akıl yürütmelerin (hallucination) hâlâ ortaya çıkması mümkün Söylentiler ile güvenilirliği yüksek kaynakları ayırt etmekte zorlanabiliyor ve belirsizliği ifade etme biçimi her zaman doğru olmayabiliyor İlk sürümde rapor veya alıntı biçimi biraz pürüzlü olabilir ve bazı durumlarda çalışma süresi uzayabilir Erişim ve kullanım Şu anda Deep research, yüksek hesaplama maliyeti nedeniyle öncelikle Pro kullanıcılarına sunuluyor ve ayda en fazla 100 kullanım mümkün Yakında Plus ve Team kullanıcılarına da kademeli olarak açılacak Birleşik Krallık, İsviçre ve Avrupa Ekonomik Alanı (EEA) kullanıcıları için destek daha sonra genişletilecek Gelecekte daha hızlı ve verimli küçük model sürümleriyle tüm ücretli hesapların istek limitleri önemli ölçüde artırılacak Gelecek planları Deep research şimdilik ChatGPT'nin web sürümünde kullanılabiliyor; mobil ve masaüstü uygulamalara da yakında eklenecek İleride abonelik tabanlı veriler ve kurum içi kaynaklarla da bağlantı kurarak daha kişiselleştirilmiş sonuçlar sunması planlanıyor Deep research, Operator ile birleştirildiğinde çevrimdışı/çevrimiçi gerçek işleri de otomatik olarak yerine getiren gelişmiş bir ajan deneyimi oluşturabileceği düşünülüyor

(openai.com)

13 puan yazan xguru 2025-02-03 | 3 yorum | WhatsApp'ta paylaş

OpenAI'nin ChatGPT'ye eklediği yeni ajan benzeri özellik "Deep research"
İnternetten büyük miktarda bilgiyi toplayıp analiz ederek ve sentezleyerek, karmaşık görevleri onlarca dakika içinde otomatik olarak çözüyor
Gelecekte AGI'ye ulaşmak için temel bir adım olarak, yeni bilgi üretebilen "bilgi sentezi" yeteneği vazgeçilmez kabul ediliyor

Deep research neden geliştirildi

Finans, bilim, politika, mühendislik gibi ileri düzey bilgi işi alanlarından büyük tüketici ürünleri satın alma araştırmalarına kadar, kapsamlı ve güvenilir araştırma sonuçlarına ihtiyaç duyan kullanıcılar için geliştirildi
Çeşitli çevrimiçi kaynaklardan, kolay görünmeyen niş bilgileri veya sezgisel olmayan gerçekleri hızla bulup belgelendirebiliyor
Profesyonel düzeyde araştırmayı otomatikleştirerek iş üretkenliğini büyük ölçüde artırmayı hedefliyor

Deep research nasıl kullanılır

ChatGPT'nin mesaj giriş alanında Deep research modunu seçin
İstekle birlikte (ör. rakip analizi, kişiselleştirilmiş ürün önerileri vb.) gerekli dosya veya elektronik tabloları ekleyebilirsiniz
Deep research, 5 dakikadan en fazla 30 dakikaya kadar interneti tarayarak ayrıntılı bir rapor hazırlar
İşlem sırasında, adım adım özetler ve başvuru kaynaklarının gösterildiği bir kenar çubuğundan süreci takip edebilirsiniz
Nihai çıktı, kapsamlı alıntılarla birlikte rapor biçiminde sunulur; ileride görsel ve veri görselleştirme gibi öğelerin de eklenmesi planlanıyor

Nasıl çalışır

OpenAI o1'in akıl yürütme yeteneklerini genişleten yeni nesil bir modelden (OpenAI o3 tabanlı) yararlanarak karmaşık tarama ve analiz görevlerini ele alıyor
Çok aşamalı planlama, bilgi toplama ve ara geri bildirimleri yansıtma süreçlerini kendi başına yürütüyor
Kullanıcının yüklediği dosyalara da erişerek Python araçlarıyla grafik oluşturma gibi analiz işleri yapabiliyor
Belirli cümleler düzeyinde kaynak göstererek doğruluğu ve şeffaflığı artırıyor

Humanity’s Last Exam değerlendirmesi

Yakın zamanda yayımlanan kapsamlı değerlendirme Humanity’s Last Exam'de %26,6 doğru yanıt oranı elde ederek önceki modellere kıyasla üstün performans gösterdi
- 3.000'den fazla uzman düzeyinde soru içeriyor ve birçok akademik alanı kapsıyor
Kimya, beşerî ve sosyal bilimler ile matematik alanlarında önceki modellere göre büyük gelişme gösterdi
Karşılaştırma için GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1 gibi çeşitli modeller yer aldı ve Deep research modeli %26,6 ile en yüksek doğruluğu gösterdi
- GPT-4o yaklaşık %3,3, Claude 3.5 Sonnet %4,3 ve OpenAI o1 %9,1 seviyesindeydi

GAIA benchmark'ı

GAIA, web tarama, çok modlu işleme ve araç kullanma yeteneklerinin tümünü gerektiren gerçek dünya sorularını değerlendiren bir ölçüttür
Deep research modeli bu benchmark'ta önceki en yüksek performansı geride bıraktı
GAIA soruları zorluk seviyelerini 1'den 3'e ayırıyor ve Deep research tüm seviyelerde önceki en iyi sonuçlardan daha yüksek puan aldı
Özellikle, önceki kayda kıyasla her seviyede yaklaşık %6-8 arası iyileşme gösterirken genel ortalama da yükseldi

Uzman düzeyinde işler

Şirket içi değerlendirmelerde, saatler süren manuel araştırmanın yerini alabilecek kadar yüksek bir otomasyon seviyesi gösterdi
Model ne kadar çok kaynak tarar ve ne kadar uzun düşünürse performansı o kadar artıyor; bu yüzden hesaplama için yeterli süre tanımak önemli

Sınırlamalar

Bazı olgusal hatalar veya yanlış akıl yürütmelerin (hallucination) hâlâ ortaya çıkması mümkün
Söylentiler ile güvenilirliği yüksek kaynakları ayırt etmekte zorlanabiliyor ve belirsizliği ifade etme biçimi her zaman doğru olmayabiliyor
İlk sürümde rapor veya alıntı biçimi biraz pürüzlü olabilir ve bazı durumlarda çalışma süresi uzayabilir

Erişim ve kullanım

Şu anda Deep research, yüksek hesaplama maliyeti nedeniyle öncelikle Pro kullanıcılarına sunuluyor ve ayda en fazla 100 kullanım mümkün
Yakında Plus ve Team kullanıcılarına da kademeli olarak açılacak
Birleşik Krallık, İsviçre ve Avrupa Ekonomik Alanı (EEA) kullanıcıları için destek daha sonra genişletilecek
Gelecekte daha hızlı ve verimli küçük model sürümleriyle tüm ücretli hesapların istek limitleri önemli ölçüde artırılacak

Gelecek planları

Deep research şimdilik ChatGPT'nin web sürümünde kullanılabiliyor; mobil ve masaüstü uygulamalara da yakında eklenecek
İleride abonelik tabanlı veriler ve kurum içi kaynaklarla da bağlantı kurarak daha kişiselleştirilmiş sonuçlar sunması planlanıyor
Deep research, Operator ile birleştirildiğinde çevrimdışı/çevrimiçi gerçek işleri de otomatik olarak yerine getiren gelişmiş bir ajan deneyimi oluşturabileceği düşünülüyor

3 yorum

xguru 2025-02-09

DeepResearch kullanılarak hazırlanmış gerçek raporlar

GN⁺ 2025-02-04

Hacker News görüşleri

Bir kullanıcı, kendisi hakkında bir rapor oluşturmayı denediğini ancak çeşitli hatalarla karşılaştığını belirtti. Örneğin, Stack Overflow itibarını yanlış algılamış ve röportaj alıntısını da yanlış kişiden almış.
Başka bir kullanıcı, dil modellerinin yaklaşık %10 oranında tamamen doğru yanıt veremediğini ve bunun güveni zedeleyebileceğini belirtti. Yanıtların doğruluğunu kontrol etmek için gereken sürenin de önemli bir unsur olduğunu vurguladı.
Bir kullanıcı, bunun yakın zamanda Standard tarafından yayınlanan rapor oluşturma projesine benzediğini söyledi.
Gemini'nin bu özelliği birkaç aydır "Deep Research" adıyla sunduğunu belirtti. Yapay zeka dünyasında isim çakışmalarının neden yaşandığını sorguladı.
Bir kullanıcı, hata ve halüsinasyon sorunları kabul edilse bile birçok kişinin bunları görmezden gelip sonuçları kendi PowerPoint'ine ekleyeceğinden endişe etti. Bu tür araçlar güçlendikçe bilginin çarpıtılmasının daha da ağırlaşacağı uyarısında bulundu.
Henüz yayınlanmamış o3 modelinin bu özelliği desteklediğini ve bunun oldukça etkileyici bir model olduğunu belirtti. Google, DeepSeek ve Perplexity'deki önde gelen modeller düzeyinde olduğunu vurguladı.
Bunun akademide çalışanlar için ilginç bir araç olduğunu, denemek istediğini ancak maliyetin yük oluşturduğunu söyledi. Belirli bir prompt ile test edilmesini rica etti.
Bunun AGI ve ASI için bir ön koşul niteliğinde olup olmadığına dair soru işaretleri dile getirdi. Araştırmanın önemine kuşkuyla yaklaştı ve yürütme sonuçları yerine yanıtlara dayanılması konusunda kaygı belirtti.
İç testlerde yalnızca %20 başarı oranına ulaşıldığını belirterek, büyük miktarda hatalı metni gözden geçirmenin çok zaman aldığını söyledi. Daha yinelemeli bir sürece ihtiyaç olduğunu savundu.
Bloglarda tanınmış uzmanların ya da görünür olmak isteyen kişilerin yazmayı sürdürüp sürdürmeyeceğini sorguladı. Okurların tamamen botlara dönüştüğü bir senaryodan endişe etti.

devil1032 2025-02-03

Müthiş derecede heyecanla bekliyorum.. Bunun one more thing olmaması inanılmaz..
Acaba DeepSeek meselesi bununla gölgede mi kalacak