Deep Research, Deep Search ve sadece Search arasındaki farklar
(leehanchung.github.io)- Son dönemde AI lab'leri, çeşitli özellikleri duyurmak için 'Deep Research' terimini kullanıyor
- Google, 2024 Aralık'ta Gemini 1.5 Deep Research'ü; OpenAI, 2025 Şubat'ta Deep Research'ü; Perplexity ise hemen ardından kendi Deep Research'ünü tanıttı
- Bunun dışında DeepSeek, Alibaba'nın Qwen'i, Elon Musk'ın xAI'ı gibi aktörler de sohbet botu asistanlarına Search ve Deep Search özelliklerini ekledi
- GitHub'da onlarca açık kaynak 'Deep Research' uygulaması ortaya çıktı
- Bu durum, 2025'in Retrieval-Augmented Generation (RAG) kavramına benzer biçimde, 'Deep Research' teriminin net bir tanım olmadan kullanıldığını gösteriyor
Deep Research, Deep Search veya sadece Search
Google: “Deep Research, yapay zekayı kullanarak karmaşık konuları keşfeder, kapsamlı ve kolay okunabilir raporlar sunar ve Gemini'nin karmaşık görevleri üstlenerek size zaman kazandırma konusunda giderek daha yetkin hale geldiğini gösterir.”
OpenAI: “Deep Research, OpenAI'ın yeni nesil ajanıdır; kullanıcı bir prompt verdiğinde ChatGPT yüzlerce çevrimiçi kaynağı bulur, analiz eder ve sentezler, ardından bir araştırma analisti düzeyinde kapsamlı bir rapor üretir.”
Perplexity: “Bir Deep Research sorusu sorduğunuzda Perplexity onlarca arama yapar, yüzlerce kaynağı okur, materyal üzerinde akıl yürütür ve otonom biçimde kapsamlı bir rapor sunar.”
- Pazarlama terimlerini bir kenara bırakırsak, Deep Research şu şekilde tanımlanabilir
Kullanıcı sorgusunu alan, büyük dil modelini (LLM) ajan olarak kullanan, tekrarlı biçimde bilgi arayıp analiz eden ve ayrıntılı bir rapor üreten bir rapor üretim sistemi
- Doğal dil işleme (NLP) terminolojisinde bu, 'rapor üretimi (report generation)' olarak bilinir
Uygulama biçimleri
- ChatGPT'nin ortaya çıkışından sonra, rapor üretimi ya da 'Deep Research' AI mühendisliğinin başlıca odaklarından biri haline geldi
- Yazar bunu 2023 başlarında bir hackathon'da denedi; bu, AI mühendisliğinin yeni yeni yükseldiği bir dönemdi
- LangChain, AutoGPT, GPT-Researcher, prompt engineering gibi araçlar ve sayısız demo, Twitter ve LinkedIn'de büyük ilgi gördü
- Ancak asıl zorluk, uygulama ayrıntılarında yatıyor
- Aşağıda rapor üretim sistemi kurmak için yaygın kalıplar inceleniyor, aralarındaki farklar vurgulanıyor ve çeşitli sağlayıcıların sundukları sınıflandırılıyor
Eğitimsiz: Yönlendirilmiş çevrimsiz grafik (DAG)
- Başlangıçta, GPT-3.5 gibi bir LLM'den raporu sıfırdan üretmesini istemenin pratik olmadığı görüldü
- Bunun yerine, birden fazla LLM çağrısını bağlamak için Composite pattern kullanıldı
- Kullanıcı sorgusu ayrıştırılarak bir rapor taslağı oluşturulur
- Her bölüm için arama motorlarından veya bilgi tabanlarından ilgili bilgiler bulunur ve özetlenir
- Son olarak LLM kullanılarak bölümler tutarlı bir raporda birleştirilir
- GPT-Researcher buna bir örnektir
- Bu sistemdeki tüm prompt'lar 'prompt engineering' ile dikkatle ayarlanır
- Değerlendirme, çıktının öznel olarak gözden geçirilmesine dayanır ve rapor kalitesi tutarsızdır
- Çalıştığında harikadır, ancak her zaman istikrarlı değildir
Eğitimsiz: Sonlu durum makinesi (FSM)
- Rapor kalitesini artırmak için mühendisler DAG yaklaşımına daha fazla karmaşıklık ekledi
- Tek geçişli süreç yerine Reflexion ve self-reflection gibi yapısal kalıplar eklenerek LLM'nin kendi çıktısını gözden geçirip iyileştirmesi sağlandı
- Bu, basit bir DAG'ı sonlu durum makinesine (FSM) dönüştürür ve LLM durum geçişlerini kısmen yönlendirir
- DAG yaklaşımında olduğu gibi, tüm prompt'lar elle yazılır ve değerlendirme özneldir
- Sistem elle ayarlandığı için rapor kalitesi hâlâ büyük ölçüde değişkenlik gösterir
Eğitimli: Uçtan uca
- Önceki yöntemlerin rastgele prompt engineering ve ölçülebilir değerlendirme metriklerinin eksikliği gibi dezavantajları, değişim ihtiyacını doğurdu
- Stanford'un STORM sistemi, bu sorunları DSPy ile sistemi uçtan uca optimize ederek çözüyor
- Sonuç olarak STORM, Wikipedia makaleleriyle boy ölçüşebilecek kalitede raporlar üretiyor
Eğitimli: Büyük ölçekli akıl yürütme modelleri
- LLM'lerin akıl yürütme kapasitesi arttıkça, büyük ölçekli akıl yürütme modelleri Deep Research için cazip bir seçenek haline geldi
- Örneğin OpenAI, Deep Research modelini şu şekilde eğitiyor
- Çıktıları değerlendirmek için LLM-as-a-judge ve değerlendirme rubric'leri kullanıyor
- Google'ın Gemini'si ve Perplexity'nin sohbet asistanı da 'Deep Research' özelliği sunuyor, ancak model ya da sistemi nasıl optimize ettiklerine veya anlamlı nicel değerlendirmelere dair bir belge yayımlamıyorlar
- Ancak Google'ın Deep Research ürün yöneticisi, bir podcast röportajında şöyle dedi: “Özel erişim izinlerimiz var. Neredeyse aynı model (Gemini 1.5). Elbette kendimize ait ek post-training çalışmaları yapıyoruz.”
- Bu, fine-tuning çalışmasının çok büyük ağırlık taşımadığını düşündürüyor
- Bu arada xAI'ın Grok'u rapor üretiminde başarılı, ancak görünüşe göre iki iterasyonun ötesinde arama yapmıyor
- Yani birkaç kez taslak bölümlerini, ardından her bölümü birkaç kez arıyor
Rekabet tablosu
- Deep Research özelliği sunan farklı servislerin yeteneklerini değerlendirmek için kavramsal bir harita geliştirildi
- Dikey eksen: araştırmanın derinliği (önceki sonuçlara dayanarak ek bilgi toplanan iterasyon döngülerinin sayısı)
- Yatay eksen: eğitim düzeyi (elle ayarlanmış sistemlerden makine öğrenmesi tekniklerinden yararlanan tamamen eğitimli sistemlere kadar)
- Temsilî eğitimli sistemler:
- OpenAI Deep Research: araştırma görevleri için optimize edilmiş, reinforcement learning tabanlı bir sistem
- DeepSeek: genel akıl yürütme ve araç kullanımı için eğitilmiş, araştırma ihtiyaçlarına uyarlanabilir
- Google Gemini: geniş kapsamlı biçimde eğitilmiş, ancak araştırmaya özel olmayan bir LLM
- Stanford STORM: tüm araştırma sürecini uçtan uca optimize eden bir sistem
- Bu çerçeve, her servisin iteratif araştırma derinliği ile eğitim yaklaşımını nasıl dengelediğini anlamayı sağlıyor
Sonuç
- Deep Research teknolojisi hızla gelişiyor ve birkaç ay önce etkisiz olan ya da hiç uygulanmamış teknikler bugün başarıyla kullanılabiliyor
- Ancak terimin belirsiz kullanımı kafa karışıklığını artırıyor
- Umarız bu yazı teknik farkları netleştirir ve pazarlama terimlerinin peşine takılmamaya yardımcı olur
2 yorum
> Bir iş arkadaşı, "AlphaGO Lee Sedol'u yendi ama Lee Sedol çok daha iyi bir otonom sürüş algoritmasına sahip" diye şaka yaptı
Ama Lee Sedol'dan yalnızca bir tane var ve kopyalanamıyor
Hacker News görüşleri
Han Xiao’nun önerdiği DeepSearch ve DeepResearch ayrımı oldukça ilgi çekici
Bir iş arkadaşım, "AlphaGO Lee Sedol’u yendi ama Lee Sedol çok daha iyi bir otonom sürüş algoritmasına sahip" diye şaka yapmıştı
OpenAI ve diğer şirketlerin sundukları arasındaki farkı iyi yakalıyor gibi görünüyor
Yapay zeka giderek daha çeşitli hale geliyor ve farklı ajanların ortaya çıkması muhtemel
Grok’un rapor üretmede iyi olduğu söyleniyor; yanıtları tablo biçiminde istemek karşılaştırmayı kolaylaştırıyor
DR, bilgi toplamak ve odaklı bir başlangıç noktasından gerçek araştırma yapmak için iyi bir yöntem
OpenAI Deep Research ile Perplexity’nin Deep Research’ünü karşılaştırınca, aralarında "dar ve derin" ile "sığ ve geniş" farkı var
Deep Search/Research ile çeşitli iş akışları denedim
STORM yüksek puan aldı ama GPT Researcher aynı şekilde değerlendirilmedi
İnternetteki en büyük bilgi düzenleme platformları bunlar ama bu ürünleri tanımlamak için başka bir kelime bulamıyorum