Deep Research, Deep Search ve sadece Search arasındaki farklar

(leehanchung.github.io)

6 puan yazan GN⁺ 2025-03-06 | 2 yorum | WhatsApp'ta paylaş

Son dönemde AI lab'leri, çeşitli özellikleri duyurmak için 'Deep Research' terimini kullanıyor
Google, 2024 Aralık'ta Gemini 1.5 Deep Research'ü; OpenAI, 2025 Şubat'ta Deep Research'ü; Perplexity ise hemen ardından kendi Deep Research'ünü tanıttı
Bunun dışında DeepSeek, Alibaba'nın Qwen'i, Elon Musk'ın xAI'ı gibi aktörler de sohbet botu asistanlarına Search ve Deep Search özelliklerini ekledi
GitHub'da onlarca açık kaynak 'Deep Research' uygulaması ortaya çıktı
Bu durum, 2025'in Retrieval-Augmented Generation (RAG) kavramına benzer biçimde, 'Deep Research' teriminin net bir tanım olmadan kullanıldığını gösteriyor

Deep Research, Deep Search veya sadece Search

Google: “Deep Research, yapay zekayı kullanarak karmaşık konuları keşfeder, kapsamlı ve kolay okunabilir raporlar sunar ve Gemini'nin karmaşık görevleri üstlenerek size zaman kazandırma konusunda giderek daha yetkin hale geldiğini gösterir.”
OpenAI: “Deep Research, OpenAI'ın yeni nesil ajanıdır; kullanıcı bir prompt verdiğinde ChatGPT yüzlerce çevrimiçi kaynağı bulur, analiz eder ve sentezler, ardından bir araştırma analisti düzeyinde kapsamlı bir rapor üretir.”
Perplexity: “Bir Deep Research sorusu sorduğunuzda Perplexity onlarca arama yapar, yüzlerce kaynağı okur, materyal üzerinde akıl yürütür ve otonom biçimde kapsamlı bir rapor sunar.”

Pazarlama terimlerini bir kenara bırakırsak, Deep Research şu şekilde tanımlanabilir

Kullanıcı sorgusunu alan, büyük dil modelini (LLM) ajan olarak kullanan, tekrarlı biçimde bilgi arayıp analiz eden ve ayrıntılı bir rapor üreten bir rapor üretim sistemi

Doğal dil işleme (NLP) terminolojisinde bu, 'rapor üretimi (report generation)' olarak bilinir

Uygulama biçimleri

ChatGPT'nin ortaya çıkışından sonra, rapor üretimi ya da 'Deep Research' AI mühendisliğinin başlıca odaklarından biri haline geldi
Yazar bunu 2023 başlarında bir hackathon'da denedi; bu, AI mühendisliğinin yeni yeni yükseldiği bir dönemdi
LangChain, AutoGPT, GPT-Researcher, prompt engineering gibi araçlar ve sayısız demo, Twitter ve LinkedIn'de büyük ilgi gördü
Ancak asıl zorluk, uygulama ayrıntılarında yatıyor
Aşağıda rapor üretim sistemi kurmak için yaygın kalıplar inceleniyor, aralarındaki farklar vurgulanıyor ve çeşitli sağlayıcıların sundukları sınıflandırılıyor

Eğitimsiz: Yönlendirilmiş çevrimsiz grafik (DAG)

Başlangıçta, GPT-3.5 gibi bir LLM'den raporu sıfırdan üretmesini istemenin pratik olmadığı görüldü
Bunun yerine, birden fazla LLM çağrısını bağlamak için Composite pattern kullanıldı
Kullanıcı sorgusu ayrıştırılarak bir rapor taslağı oluşturulur
Her bölüm için arama motorlarından veya bilgi tabanlarından ilgili bilgiler bulunur ve özetlenir
Son olarak LLM kullanılarak bölümler tutarlı bir raporda birleştirilir
GPT-Researcher buna bir örnektir
- Bu sistemdeki tüm prompt'lar 'prompt engineering' ile dikkatle ayarlanır
- Değerlendirme, çıktının öznel olarak gözden geçirilmesine dayanır ve rapor kalitesi tutarsızdır
- Çalıştığında harikadır, ancak her zaman istikrarlı değildir

Eğitimsiz: Sonlu durum makinesi (FSM)

Rapor kalitesini artırmak için mühendisler DAG yaklaşımına daha fazla karmaşıklık ekledi
Tek geçişli süreç yerine Reflexion ve self-reflection gibi yapısal kalıplar eklenerek LLM'nin kendi çıktısını gözden geçirip iyileştirmesi sağlandı
Bu, basit bir DAG'ı sonlu durum makinesine (FSM) dönüştürür ve LLM durum geçişlerini kısmen yönlendirir
- DAG yaklaşımında olduğu gibi, tüm prompt'lar elle yazılır ve değerlendirme özneldir
- Sistem elle ayarlandığı için rapor kalitesi hâlâ büyük ölçüde değişkenlik gösterir

Eğitimli: Uçtan uca

Önceki yöntemlerin rastgele prompt engineering ve ölçülebilir değerlendirme metriklerinin eksikliği gibi dezavantajları, değişim ihtiyacını doğurdu
Stanford'un STORM sistemi, bu sorunları DSPy ile sistemi uçtan uca optimize ederek çözüyor
- Sonuç olarak STORM, Wikipedia makaleleriyle boy ölçüşebilecek kalitede raporlar üretiyor

Eğitimli: Büyük ölçekli akıl yürütme modelleri

LLM'lerin akıl yürütme kapasitesi arttıkça, büyük ölçekli akıl yürütme modelleri Deep Research için cazip bir seçenek haline geldi
Örneğin OpenAI, Deep Research modelini şu şekilde eğitiyor
- Çıktıları değerlendirmek için LLM-as-a-judge ve değerlendirme rubric'leri kullanıyor
Google'ın Gemini'si ve Perplexity'nin sohbet asistanı da 'Deep Research' özelliği sunuyor, ancak model ya da sistemi nasıl optimize ettiklerine veya anlamlı nicel değerlendirmelere dair bir belge yayımlamıyorlar
Ancak Google'ın Deep Research ürün yöneticisi, bir podcast röportajında şöyle dedi: “Özel erişim izinlerimiz var. Neredeyse aynı model (Gemini 1.5). Elbette kendimize ait ek post-training çalışmaları yapıyoruz.”
Bu, fine-tuning çalışmasının çok büyük ağırlık taşımadığını düşündürüyor
Bu arada xAI'ın Grok'u rapor üretiminde başarılı, ancak görünüşe göre iki iterasyonun ötesinde arama yapmıyor
Yani birkaç kez taslak bölümlerini, ardından her bölümü birkaç kez arıyor

Rekabet tablosu

Deep Research özelliği sunan farklı servislerin yeteneklerini değerlendirmek için kavramsal bir harita geliştirildi
Dikey eksen: araştırmanın derinliği (önceki sonuçlara dayanarak ek bilgi toplanan iterasyon döngülerinin sayısı)
Yatay eksen: eğitim düzeyi (elle ayarlanmış sistemlerden makine öğrenmesi tekniklerinden yararlanan tamamen eğitimli sistemlere kadar)
Temsilî eğitimli sistemler:
- OpenAI Deep Research: araştırma görevleri için optimize edilmiş, reinforcement learning tabanlı bir sistem
- DeepSeek: genel akıl yürütme ve araç kullanımı için eğitilmiş, araştırma ihtiyaçlarına uyarlanabilir
- Google Gemini: geniş kapsamlı biçimde eğitilmiş, ancak araştırmaya özel olmayan bir LLM
- Stanford STORM: tüm araştırma sürecini uçtan uca optimize eden bir sistem
Bu çerçeve, her servisin iteratif araştırma derinliği ile eğitim yaklaşımını nasıl dengelediğini anlamayı sağlıyor

Sonuç

Deep Research teknolojisi hızla gelişiyor ve birkaç ay önce etkisiz olan ya da hiç uygulanmamış teknikler bugün başarıyla kullanılabiliyor
Ancak terimin belirsiz kullanımı kafa karışıklığını artırıyor
Umarız bu yazı teknik farkları netleştirir ve pazarlama terimlerinin peşine takılmamaya yardımcı olur

2 yorum

halfenif 2025-03-10

> Bir iş arkadaşı, "AlphaGO Lee Sedol'u yendi ama Lee Sedol çok daha iyi bir otonom sürüş algoritmasına sahip" diye şaka yaptı

Ama Lee Sedol'dan yalnızca bir tane var ve kopyalanamıyor

GN⁺ 2025-03-06

Hacker News görüşleri

Han Xiao’nun önerdiği DeepSearch ve DeepResearch ayrımı oldukça ilgi çekici
- DeepSearch, en iyi yanıtı bulana kadar arama, okuma ve akıl yürütmeyi yineleyen bir süreç
- DeepResearch, DeepSearch’e yapılandırılmış bir çerçeve ekleyerek uzun bir araştırma raporu üretir
- DeepSearch’in daha değerli ve daha ilgi çekici bir örüntü olduğunu düşünüyorum
- DeepResearch, sonucu bir "rapor" olarak paketleyen kozmetik bir etki sadece; hatalı veya yanıltıcı sonuçlar üretme olasılığı yüksek
Bir iş arkadaşım, "AlphaGO Lee Sedol’u yendi ama Lee Sedol çok daha iyi bir otonom sürüş algoritmasına sahip" diye şaka yapmıştı
- Bu, zaman geçtikçe en gelişmiş yapay zeka sistemleriyle sıradan bir insanın "ortalama yeteneği" arasındaki büyük farkı vurguluyor
OpenAI ve diğer şirketlerin sundukları arasındaki farkı iyi yakalıyor gibi görünüyor
- Google’ın Gemini 2.0 Flash’ı da Google Arama ile yerel olarak entegre
- OpenAI’nin DR yaklaşımı, belirli görevler için model eğitme yönünde olma eğiliminde
- Model + sonradan yapılan RL eğitimi kombinasyonunu ürün olarak sunma yönüne gidiyorlar
- genspark MOA, verilen prompt için derinlemesine bir rapor üretiyor
Yapay zeka giderek daha çeşitli hale geliyor ve farklı ajanların ortaya çıkması muhtemel
Grok’un rapor üretmede iyi olduğu söyleniyor; yanıtları tablo biçiminde istemek karşılaştırmayı kolaylaştırıyor
- Amazon karşılaştırılacak ürünleri seçiyor ama karşılaştırma ölçütleri iyi değil
- Grok ile sütun ekleyip çıkarabilir ve yanıtı kısaltabilirsiniz
DR, bilgi toplamak ve odaklı bir başlangıç noktasından gerçek araştırma yapmak için iyi bir yöntem
- Bunu LLM yapıyor diye daha bilge hale gelmiş olmuyor
- LLM konuyu daha derinlemesine anlamıyor
- Bilgiyi bütünleştirmek ve uygulamak için daha derin bir yetenek gerekiyor
- Transformer mimarisinin sınırlamaları nedeniyle gerçek zamanlı öğrenme zor
OpenAI Deep Research ile Perplexity’nin Deep Research’ünü karşılaştırınca, aralarında "dar ve derin" ile "sığ ve geniş" farkı var
- OpenAI yüksek kaliteli kaynakları seçip belirli bir konuda derine iniyor
- Perplexity çok sayıda kaynak kullanarak yüzeysel bir problem alanı sunuyor
- OpenAI daha uzun sürüyor
Deep Search/Research ile çeşitli iş akışları denedim
- Buyurgan (kaynakları doğrudan seçip rapor üretme) ve bildirime dayalı (DFS/BFS algoritmaları kullanma) yaklaşımlar var
- STORM gibi sistemlerin uçtan uca akışından etkileniyorum
STORM yüksek puan aldı ama GPT Researcher aynı şekilde değerlendirilmedi
- GPT Researcher’ı farklı bütçelere göre yapılandırabilirsiniz
İnternetteki en büyük bilgi düzenleme platformları bunlar ama bu ürünleri tanımlamak için başka bir kelime bulamıyorum