Gemini Deep Research Agent API kullanıma açıldı
(x.com/GoogleAIStudio)Google, Gemini Deep Research Agent’i API olarak kullanıma açtı. Deep Research, kullanıcının sorduğu soruya yanıt olarak yapay zekanın kendi arama planını oluşturduğu, birden fazla web sayfasını gezip karşılaştırdığı ve birleştirerek kaynak gösteren uzun soluklu raporları otomatik ürettiği bir özellik. Daha önce yalnızca Google AI Studio web arayüzünde kullanılabiliyordu; şimdi ise Interactions API adlı yeni asenkron arayüz sayesinde geliştiriciler bunu doğrudan kendi uygulamalarına entegre edebiliyor. Mevcut generate_content çağrılarından farklı olarak bu iş arka planda birkaç dakika boyunca çalıştığı için, istek gönderildikten sonra belirli aralıklarla tamamlanma durumunu kontrol eden (polling) ya da akış üzerinden ilerleme bilgisini alan bir yapı kullanılıyor.
Sunulan modeller
deep-research-preview-04-2026: hız ve verimliliğe odaklanıyor. İstemci arayüzüne gerçek zamanlı akış vermek için uygun.deep-research-max-preview-04-2026: mümkün olan en yüksek kapsamlılığı hedefliyor. Otomatik bağlam toplama ve sentez tarafında güçlü.
Temel özellik özeti
- İşbirlikçi planlama (Collaborative Planning) : Araştırma doğrudan başlatılmıyor; ajan önce bir plan taslağı sunuyor. Kullanıcı bunu inceleyip düzenledikten ve onayladıktan sonra asıl yürütme başlıyor.
- Grafik ve infografiklerin otomatik oluşturulması :
visualization="auto"seçeneği açıldığında ajan kendi başına grafikler ve görseller üretip bunları base64 kodlu görüntüler olarak döndürüyor. - MCP sunucusu entegrasyonu : Model Context Protocol’ü (harici araçları LLM’e bağlayan açık standart) desteklediği için finans verileri gibi dış servis araçları ajana eklenebiliyor.
- Genişletilebilir araç seti : Google Arama, URL içeriği okuma ve kod çalıştırma varsayılan olarak geliyor. Dosya arama (yüklenen belgeler üzerinde) ve MCP sunucuları isteğe bağlı eklenebiliyor.
- Çok modlu girdi : Yalnızca metin değil, görsel, PDF ve ses dosyaları da araştırma bağlamı olarak birlikte verilebiliyor.
- Gerçek zamanlı akış ve düşünce özetleri : Araştırmanın ilerleyişi gerçek zamanlı olarak akış halinde alınabiliyor;
thinking_summaries="auto"açıldığında ajanın ara akıl yürütme adımları da özet biçiminde görülebiliyor.
Başlıca kod örnekleri
En temel kullanım biçimi bu. background=True ile asenkron görev başlatılıyor ve her 10 saniyede bir tamamlanma durumu poll ediliyor.
import time
from google import genai
client = genai.Client()
interaction = client.interactions.create(
input="Research the history of Google TPUs.",
agent="deep-research-preview-04-2026",
background=True,
)
while True:
interaction = client.interactions.get(interaction.id)
if interaction.status == "completed":
print(interaction.outputs[-1].text)
break
elif interaction.status == "failed":
print(f"Research failed: {interaction.error}")
break
time.sleep(10)
Bu da işbirlikçi planlama akışı. Önce collaborative_planning=True ile yalnızca plan alınıyor, sonra geri bildirim veriliyor ve en sonda False değerine çevrilince gerçek araştırma başlıyor. Yalnızca "go ahead" gibi bir metin göndermek yeterli değil; bayrak değiştirilmezse rapor üretilmiyor.
# 1. aşama: plan isteği
plan = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research Google TPUs vs competitor hardware.",
agent_config={"type": "deep-research", "collaborative_planning": True},
background=True,
)
while (result := client.interactions.get(id=plan.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # plan çıktısı
# 2. aşama: planı düzeltme (previous_interaction_id ile konuşmayı sürdürme)
refined = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Add a section comparing power efficiency.",
agent_config={"type": "deep-research", "collaborative_planning": True},
previous_interaction_id=plan.id,
background=True,
)
while (result := client.interactions.get(id=refined.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # düzeltilmiş plan
# 3. aşama: onay sonrası çalıştırma (mutlaka collaborative_planning=False olmalı)
report = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Plan looks good!",
agent_config={"type": "deep-research", "collaborative_planning": False},
previous_interaction_id=refined.id,
background=True,
)
while (result := client.interactions.get(id=report.id)).status != "completed":
time.sleep(5)
print(result.outputs[-1].text) # nihai rapor
Bu örnek de grafik üretimi ve çok modlu girdi için. Görselleştirme seçeneğini açmak faydalı, ancak prompt içinde hangi grafiklerin istendiğini açıkça belirtmek daha iyi sonuç veriyor.
# Grafik içeren araştırma
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Analyze global semiconductor market trends. Include charts showing market share changes.",
agent_config={"type": "deep-research", "visualization": "auto"},
background=True,
)
# PDF makaleyi bağlam olarak veren çok modlu araştırma
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input=[
{"type": "text", "text": "What has been the impact of this research paper?"},
{"type": "document", "uri": "https://arxiv.org/pdf/1706.03762", "mime_type": "application/pdf"},
],
background=True,
)
Bu da bir MCP sunucusu bağlayarak ajana harici finans verisi sağlama örneği. allowed_tools ile ajanın çağırabileceği araçları sınırlamak da mümkün.
interaction = client.interactions.create(
agent="deep-research-preview-04-2026",
input="Research how recent geopolitical events influenced USD interest rates",
tools=[
{
"type": "mcp_server",
"name": "Finance Data Provider",
"url": "https://finance.example.com/mcp",
"headers": {"Authorization": "Bearer my-token"},
}
],
background=True,
)
Fark yaratan noktalar
- Bu yapı, yalnızca basit bir RAG (arama destekli üretim; harici belgeleri bulup LLM’e verme tekniği) ya da tek seferlik soru-cevap değil; planlama-aramA-sentez şeklindeki uzun soluklu araştırma akışını tek bir API ile otomatikleştiriyor. Özellikle işbirlikçi planlama, "ajan işi yürütür ama yönü insan belirler" yaklaşımını net biçimde gösteriyor.
- Açık web araması ile özel belge aramasını yalnızca araç ayarlarıyla birleştirebildiği için, şirket içi dokümanlara dayalı araştırma senaryolarında da kullanım potansiyeli sunuyor.
Ne anlama geliyor?
- Yapay zeka araştırma ajanlarının API seviyesine inmesiyle birlikte, ayrı bir ajan framework’ü kurmadan da uygulamalara doğrudan "deep research" özelliği entegre etmek mümkün hale geldi. Ancak asenkron polling temelli API yapısı, senkron LLM çağrılarına alışkın geliştiriciler için tasarım kalıplarında bir değişim gerektiriyor; ayrıca birkaç dakikaya varan yanıt gecikmesinin kullanıcı deneyimi tarafında nasıl ele alınacağı, gerçek dünyadaki kullanımda temel meselelerden biri olacak gibi görünüyor.
Henüz yorum yok.