ChatGPT'nin GPT-5 düşünmesi (Research Goblin) aramada çok güçlü

(simonwillison.net)

6 puan yazan GN⁺ 2025-09-08 | 1 yorum | WhatsApp'ta paylaş

GPT-5 tabanlı ChatGPT (namıdiğer Research Goblin), web aramasında çok yüksek düzeyde doğruluk ve kullanışlılık gösteriyor
Sıradan trivial sorulardan karmaşık bilgi araştırmalarına kadar geniş bir konu yelpazesinde güçlü arama ve akıl yürütme yetenekleri sergiliyor
Gerçek örneklerde kapsamlı arama süreci ve zincirleme akıl yürütme sayesinde güvenilir yanıtlar ve kaynaklar sunuyor
Mobil ortamda da üstün kullanılabilirlik ve kesintisiz iş akışı deneyimi sağlıyor
Tool calling ve chain-of-thought entegrasyonu sayesinde geliştirici açısından LLM tabanlı arama için yeni bir standart ortaya koyuyor

GPT-5 düşünmesi (Research Goblin) ve arama inovasyonu

Değişen arama paradigması

Eskiden “chatbot'u arama motoru gibi kullanmayın” tavsiyesi baskındı; ancak en yeni GPT-5 tabanlı ChatGPT ile bu kural bozuluyor
GPT-5 tabanlı model, Bing gibi arama motorlarıyla entegrasyonun ötesine geçerek pratikte internet araştırmasının yerini alabilecek veya onu aşabilecek bir seviyeye ulaşıyor
“Research Goblin” lakabını almasının nedeni, hangi soru ya da karmaşık görev verilirse verilsin alışılmadık derecede inatçı biçimde araştırıp en iyi yanıtı çıkarması

Gerçek arama örnekleri ve sonuçlar

İlginç yürüyen bantlar (Travelators)

Heathrow Havalimanı'ndaki kauçuk malzemeli yürüyen bandın ne zaman metalle değiştirildiği sorulduğunda, bunu 2014-2018 arası olarak tahmin edip ilgili ilginç bir 2024 haberini de buluyor

Bina tespiti

Tren camından görülen egzotik bir bina sorulduğunda, 1 dakika 4 saniye içinde bunun ‘The Blade (Reading)’ olduğunu doğru biçimde doğruluyor ve kaynak bağlantılarını da veriyor

Starbucks UK cake pop araştırması

Birleşik Krallık'taki Starbucks mağazalarında cake pop neden bulunmadığını derinlemesine araştırarak, ürünün 2023'te sunulduğunu ancak bazı mağazalarda (özellikle seyahat noktalarındaki mağazalarda) satılmadığını ortaya çıkarıyor
Besin değeri ve alerjen bilgilendirme PDF'leri, Reddit tartışmaları gibi kanıtları da bir araya getiriyor

Wikipedia ve Britannica ilişkisi

Wikipedia'nın ilk dönem verilerinde 1911 baskısı Britannica kaynaklarının bir kısmını kullandığı yönündeki çevrimiçi iddianın doğruluğunu ve bağlamını derinlemesine inceliyor; ilgili proje belgeleri ve açıklamaları da izleyip sunuyor

University of Cambridge'in resmî adı

Cambridge Üniversitesi'nin resmî hukuki adını (The Chancellor, Masters, and Scholars of the University of Cambridge) dayanak kaynaklarla birlikte sunuyor
Akıl yürütme sürecini şeffaf biçimde göstererek yanıtın güvenilirliğini de doğrulamayı mümkün kılıyor

Exeter Quay mağaraları ve restoranın geçmişi

Exeter Quay bölgesinde uçuruma oyulmuş restoranın iç yapısı ve geçmişini, çok aşamalı aramalar ve PDF analizleriyle inceleyerek bunun 1820-1830'larda kızıl kumtaşı falezlerine oyulduğunu ortaya koyuyor
İngilizce rapor/çizim belgelerini buluyor; ulaşılamadığında ise e-posta talep taslağı bile hazırlayan proaktif bir arama deseni gösteriyor

Aldi ve Lidl karşılaştırması

Aldi ve Lidl'in Birleşik Krallık'taki konumları, görselleri, pazar sıralamaları gibi başlıklarda; pazar payı ve tüketici değerlendirmeleri dahil sayısal verileri uzun uzun analiz ediyor
Kullanıcı isteğine göre “fanciness (üst segmentlik)” ölçütüne göre sıralamayı yeniden düzenleyip sunuyor

Yapay zeka laboratuvarlarının kitap taraması

Anthropic'in büyük miktarda kitabı tarayarak eğitim verisi oluşturması dışında, diğer yapay zeka araştırma laboratuvarlarının benzer uygulamalarına dair doğrulanmış bilgi bulunamadığını belirtiyor; ancak olasılıkları ayrıntılı biçimde araştırma kaydını paylaşıyor

GPT-5 aramasının pratik üstünlüğü

GPT-5 tabanlı ChatGPT aramasında, manuel araştırmaya kıyasla daha hızlı, daha sistematik ve daha geniş kapsamlı bilgi toplama ve değerlendirme mümkün
Özellikle mobil ortamda kullanılabilirlik ciddi biçimde iyileştiği için, gündelik merakları gidermek ya da rutin araştırma işlerini her yerde yapmak mümkün hale geliyor
OpenAI'ın Deep Research özelliğinin yerini alabilecek kadar hızlı ve zengin sonuç üretme yeteneğine sahip

LLM geliştirme açısından anlamı

Tool calling ve chain-of-thought tekniklerinin birleşimi sayesinde arama, zincirleme akıl yürütme ve ek araştırma tek bir “düşünme” adımı içinde doğal biçimde birbirine bağlanıyor
RAG (arama-üretim birleşimi) teknolojisi de çok adımlı esnek tool çağrıları ve gelişmiş arama entegrasyonu sayesinde çok daha güçlü şekilde çalıştırılabiliyor
Anthropic'in terminolojisinde buna interleaved thinking deniyor; OpenAI Responses API de buna benzer bir akışı destekliyor

Etkili arama kullanımı için ipuçları

Deneyimsel sezgi ile arama kalitesi artırılabiliyor (“go deep” gibi ipuçlarıyla daha kapsamlı araştırma teşvik edilebiliyor)
Net bir cevabı olmayan yoruma açık sorularda bile faydalı ve ilgi çekici sonuçlar üretiyor
“Goblin” benzetmesinde olduğu gibi Research Goblin, çalışkan ama tamamen güvenilir olmayan, insandan farklı bir arama yapay zekası olarak yüksek kullanım değeri taşıyor

1 yorum

GN⁺ 2025-09-08

Hacker News yorumu

Simon’un yazısına katılıyorum, ancak bence “araştırma”, kanıtların farklı biçimlerini karşılaştırmak anlamına geliyor. Örneğin Obamacare’in etkisi, hukuki kararların tahmini, animasyonun etkisinin analizi, açık kaynak kütüphanelerin kullanım yöntemleri gibi pek çok alana uygulanabilir. ChatGPT veya diğer LLM’ler, kanıtların değerlendirilmesi ya da kaynak önyargılarının anlaşılması konusunda zorlanıyor; özellikle çok fazla istatistik söz konusu olduğunda, akıl yürütme arttıkça halüsinasyonlar da artıyor. Modellerin kullanıcının bakış açısını desteklemek isteme eğilimi var; kullanıcı açıkça istemese bile olumlu yanıt vermeye çalışıyorlar. Ben her zaman ChatGPT’den kaynakları doğrudan değerlendirmesini, lehte ve aleyhte argümanları karşılaştırmasını isterim ve bazen modelin tepkisini görmek için karşı argüman da sunarım. Daha ayrıntılı deneyimler için bloga bakabilirsiniz
- Perplexity ile monitörüm için en iyi ayarları bulmaya çalıştım; bana kısa bir ayar listesi ve nedenlerini verdi. Ancak kaynakları kontrol ettiğimde resmi bilgi ya da dayanak yoktu; sadece Samsung forumlarında kullanıcıların tahmin yürüttüğü veya tartıştığı yazılar vardı. Kaynak güvenilirliğine göre bir confidence rating verilse güzel olurdu ama bunu uygulamanın gerçekten çok zor olacağını düşünüyorum
- ChatGPT ve LLM’ler sık sık yüzeysel “sağduyuyu” tekrar ediyor. Birkaç kez ek soru sorup bunun gerçekten dayanağı olup olmadığını, kaynağın ne olduğunu, alıntılanan bilgiyi vermesini istiyorum ve halüsinasyon olmadığını tekrar doğrulatıyorum. Oldukça sık biçimde ilk yanıtın tamamen yanlış olduğu ortaya çıkıyor. Çoğu insan muhtemelen bu ilk yanıtı olduğu gibi kabul eder
- Örneğin iyi araştırılmış bir satın alma kararı vermeye çalışırken, pazarlama odaklı görüşlerin çoğunluğu oluşturduğunu ve karşıt sinyallerin (Reddit’teki olumsuz yorumlar veya YouTube yorumları gibi) yeterince dengelenmediğini görüyorum; bu yüzden iş gerçekten zorlaşıyor
- GPT-5 (o3 modeli vb.), en eleştirel bakış açısına sahip LLM’lerden biri. Akademik ve teknik isteklerde, özel bir prompt olmadan bile bilgi kaynaklarını alıntılayabiliyor ve farklı sonuçları karşılaştırabiliyor. Grok 4’ün ilk sürümü analiz yapmadan sadece makaleleri özetliyordu, Claude Opus 4 ise JS kütüphaneleri listesi isteğinde kullanım oranı odaklı belgeler döndürerek asıl noktayı kaçırıyordu. GPT-5 elbette kusursuz değil ama ortalama bir insandan daha iyi
- LLM’lerde “araştırma” kelimesinin bir özellik setini ifade etmek için kullanılmasına dair ne düşündüğünüzü sormak istiyorum. Bunun gerçek araştırmayı yeterince temsil eden bir terim olup olmadığını ya da ABD seçim dönemlerinde sık duyulan “do your research” deyimine yakın bir şey olup olmadığını merak ediyorum
Google aramanın (özellikle AI özetleri kapatmak için udm=14 kullanıldığında) hâlâ oldukça iyi bir deneyim sunduğunu düşünüyorum. Örneğin Britannica ve Wikipedia ile ilgili sorularda hem Google’da hem Wikipedia’da 1-2 saniye içinde sonuç alabiliyordum ve yaklaşık 60 saniyede istediğim şeyi doğrudan hızlıca bulabiliyordum. Buna karşılık ChatGPT süreçten bağımsız olarak yaklaşık 3 dakika sürüyor ve sonuçları kendim doğrulayıp halüsinasyon olup olmadığını kontrol etmem gerekiyor. Sonuç olarak, LLM’in X işini yapabiliyor olması etkileyici ama kendim arayıp sonrasında derlemem çok daha verimli geliyor
- Son deneyimlerime dayanarak biraz farklı düşünüyorum. Google AI özetlerini kapatmazsanız deneyim kesinlikle kötüleşiyor. Örneğin bir GitHub reposu ararken Google gerçek sayfayı bulamadı ve sadece alakasız bağlantılar verdi. GPT daha uzun sürüyor ama araştırmanın kapsamına göre avantajları var. StarCraft2 birim hareketi gibi derin konularda GPT’den tek seferde özet/açıklama/kod kaynağı istemek kullanışlıydı ve hataları elemek benim için yeterince mümkündü. Gelecekte tüm internet gezintisinin LLM tabanlı yardımla sunulacağını düşünüyorum
- Google’da "Rubber bouncy at Heathrow removal" diye arattım, üç bağlantı sonucu çıktı ve ChatGPT kanıt sunarken biraz halüsinasyon yapmış gibi görünüyordu. Tersine görsel arama ya da Starbucks pop fiyatı araması gibi şeylerde de doğrudan kendim bulmak daha etkili geliyor. Yine de insanların ChatGPT’yi tercih etmesinin nedeni, web bilgisini tek seferde cevap olarak sunmasının rahatlığı. Bazen halüsinasyon olsa da insanlar bu maliyeti kabulleniyor gibi görünüyor. Eskiden Wikipedia yerine kütüphaneye daha fazla güvenilirdi; LLM’lerin evrimi de yeni bir paradigma değişimi olabilir diye düşünüyorum
- Benim önerim, Google deneyini yaparken yanıtlaması en zor örneklerle denemeniz olur
- Basit bir soruyu GPT-5 Auto modunda sordum; 2 saniye içinde yanıt vermeye başladı ve okunması kolay bir hızda iki doğru bağlantı sundu. Think modunda yaklaşık 2 dakika sürdü ama farklı kaynakları karşılaştırdı ve tüm özetlere dayanak ekledi. Bulması gerçekten zor yerel yönetim bilgileri veya karmaşık açık kaynak PR analizlerinde GPT’yi çok iyi kullanıyorum. Bir sürü öneriyi tek tek okuma zahmetini üstlenmesi gerçekten çok faydalı geliyor
- Eğer insanlar doğrudan web sitelerini ziyaret etmeyip sadece ajanlarla etkileşime girmeye başlarsa, web’in nasıl değişeceğini merak ediyorum. Önümüzde ilginç bir dönüşüm dönemi var
Reddit’in "Tip of My Tongue" alt başlığını eskiden aklımda kalan eski bilgileri bulmak için sık kullanırdım ama her şeyi çözemiyordu. Deep Research özelliği, çözemediğim dört konuyu bir saat içinde çözdü ve beşincisinde de kendi başıma ipucu bulmamı sağladı. Mantıksal akıl yürütmede eksikleri olsa da onlarca arama sonucunu hızlıca sindirebilmesi ve sadece gevşek açıklamalardan ilgili bilgiyi çekip çıkarabilmesi gerçekten çok güçlü. Artık Reddit’teki spam botlarla ya da kurallara uymayan kullanıcılarla uğraşmadan bu arama gücüne birkaç dakikada erişebiliyorum
- Bilgi aramada, mevcut belge bağlantılarıyla arama sonuçlarına dayalı üretilmiş içerik arasında fark var ve üretilmiş içerik gerçekten faydalı ve şaşırtıcı. Ama bu sonuçların sık sık yanlış olabileceğini de unutmuyorum. Eğer yanıtlara confidence seviyesi eklenebilirse, iş modeli açısından da anlamlı olabilir
Ben de ChatGPT’nin araştırmada çok iyi olduğunu düşünüyorum ama bazen yüzeysel ve potansiyel olarak yanlış cevaplar verdiği patolojik durumlar oluyor. Nesnel birincil kaynaklar internette mevcut olsa bile yanıldığı durumlar var; bu yüzden ilgili blogu paylaşıyorum
- Bunun senin anlattığın durumdan aslında farklı olduğunu düşünüyorum. Senin görüşün makalelerle çelişiyor ve bunu blogda toparlayıp ChatGPT’nin senin bakış açını benimsemesini ister gibi görünüyor. Nesnel değerlendirme konusunda sınırlar var gibi
- Son zamanlarda ChatGPT’nin istikrarsızlaştığını hissediyorum. Yanıtların yarısından fazlasında gerekçe uyduruyor, bağlamı unutuyor ya da dümdüz yanlış oluyor. Aistudio’da 300 bin token’ı aşınca bile Gemini/Aistudio bağlamı iyi korurken, ChatGPT büyük miktarda bilgiye karşı zayıf kalıyor gibi
- Ben de çok benzer deneyimler yaşadım. GPT5 Thinking’e geçince biraz daha iyi oluyor ama o3 veya o1’e kıyasla bir şeyleri kaçırma eğilimi var. Örneğin Bo-chan romanının kaplıca bölümünü GPT5’e sordum ve ince şekilde yanlış bir açıklama verdi. Gerçek romanda başkahraman kaplıcada yüzüyor ve sonra yasak tabelası yüzünden rezil oluyor; GPT5 ise sadece kuralların açıklamasına odaklanıyordu
- Yazını ilginç ve tartışmaya uygun buluyorum. Açıkçası GPT’nin daha iyi bir yanıt verebileceğini düşünüyorum ama araştırmayı nerede kesmek gerektiğine dair tartışma da anlamlı. Genelde daha az güvenilen kaynakları da tamamen dahil edersen tartışma hiç bitmez. Sonuçta kamuoyunda genel kabul gören sonuca kadar gitmek makul bir trade-off gibi görünüyor
Eski "heavy" modeller ansiklopedi düzeyinde bilgiyi içine gömülü taşıyordu; buna karşılık son "lighter" modeller web aramasına dayanıp sadece yüzeysel bilgi aktarıyor gibi geliyor. Çok sayıda çevrimdışı belgeyi hatırlayan modellerin güçlü yanını özlüyorum
- Ben tam tersini düşünüyorum. Modelin içsel bilgisi halüsinasyon olabilir; bu yüzden her zaman ayrıca doğrulama araştırması gerekir. Buna karşılık LLM arama ve özeti önceden yaparsa, sadece kaynakları kontrol etmek yeterli olur ve bu çok daha pratiktir. Kagi Assistant bu rolü iyi yerine getiriyor
- Uzun süre arama özelliğini kapalı kullanıyordum ama son zamanlarda özel komutlara web araması/iç bilgi kullanımı modu ekledim. xz girince web araması, xx girince sadece iç bilgi kullanıyor. Oturum içinde serbestçe geçiş yapılabilen bir ayar
- Aramasız modeller ağır, arama tabanlı modeller hafif ama güncel gerçek verilere bağımlı. Ben iki taraf arasında gidip geliyordum ama son dönemde kaynak temelli hafif modelleri daha çok tercih ediyorum
- Gerçek bilgi dışarıda depolanır. Bu yüzden üniversitelerde kütüphane önemli bir kurumdur. Ajanlar da sadece hafızayla yetinemez
- Ben de bir ölçüde öyle hissediyorum. Hafif web arama modelinin, her sayfada daha önce söylenenlerle yeni bilgileri ve sayfa bazında ileri sürülen kanıtlarla tutarsızlıkları ayıran bir görünüm sunması ilginç olabilir
Yazar, internette cevap bulmak için “akıl dışı derecede fazla iş” yaptırıyor ve bunun gibi hesaplama kaynağı israfını hevesle kabulleniyor gibi görünüyor; bu bana tuhaf geliyor. Bunun gerçekten hedef olup olmadığını ve sadece doğru cevabı bulmak için devasa kaynak harcanan bir “wild goose chase”in haklı olup olmadığını sorguluyorum
- Tarihsel olarak da hayatını boşa arayışlarla geçiren çok insan oldu. Newton, Einstein da böyleydi; dahiler bile istisna değil
ChatGPT gerçekten hayranlık verici ama lise öğretmenleri ya da üniversite hocaları bu araçlar yüzünden zorlanacak gibi. Örneğin “Yüzüklerin Efendisi’nin Gormenghast’tan etkilendiğine dair olabildiğince çok kanıt toplayıp derinlemesine araştırın” gibi bir ödev verilirse öğrenciler otomatik olarak deep research kullanacaktır paylaşılan örnek
- Bunu gerçekten doğrulayıp doğrulamadığını, tüm bağlantılara tıklayıp kaynakları kontrol edip etmediğini merak ediyorum. Ben de geçmişte ChatGPT’nin bir şeyi “çözdüğünü” övünerek anlatmıştım ama aslında Wikipedia bilgisiydi ve yanlıştı
- Okulda kopya çeken öğrencilerin çoğu tembeldir ve statüyü umursamaz; bu yüzden kaliteli ödevlerle ilgilenmezler. Zaman alan Thinking modunu kullanmaları için bir neden yok
- ChatGPT yanıtında steel-man gibi yeni türetilmiş bir terimin kullanılması eğlenceliydi
- Öğretmenlere yönelik atölyelerde Sokratik soru sorma yöntemini öğretip, çocukların Google/ChatGPT’den aldıkları bilgileri kendilerinin gerekçelendirmesine yardımcı olacak bir fikir aklıma geliyor. Bu yaklaşım, LLM araştırmasıyla büyütülmüş bilgiyi doğrudan ifade etmeyi ve kişinin mevcut bilgi seviyesini düzenlemesini içeriyor
Bu tür yanıtlar, Brave search’e yazınca birkaç saniyede çözülebilecek sorular olmasına rağmen LLM’ler şaşırtıcı derecede uzun sürebiliyor
- Brave’i seviyorum ama arama sonuçlarını pek beğenmedim. AI özellikleri fena değil ama istediğim gerçek sonuçlar neredeyse hiç çıkmıyor
- Bugünlerde SEO için optimize edilmiş düşük kaliteli siteler duvar gibi önüme çıkıyor; bu yüzden buna kolayca ikna olamıyorum
- Chat+Search kullanmanın avantajı; reklam, tıklama tuzakları, içerik çiftlikleri ve kötü amaçlı yazılım endişesi olmadan doğrudan cevaba ulaşabilmek
Bunun ChatGPT’nin “Web Search”, “Deep Research” ve “Agent Mode” özelliklerinden hangisi olduğunu karıştırıyorum. Özellik seti gerçekten ilginç
- Deep Search ya da Agent Mode değil. Ben “GPT-5 Thinking” seçiyorum ve sadece normal arama aracını etkinleştiriyorum
- Benim deneyimime göre sonuç, daha çok “Reddit’te arama yapıp üstüne yorum eklemek” gibi
- “ChatGPT 5 Pro”yu da unutmayın. Deep Research’ten biraz farklı
- Bence sadece varsayılan mod. Web arama seçeneğini özellikle açmasanız bile otomatik arama yapıyor. Neden ayrı bir seçenek olduğunu merak ediyorum
- Benim tahminim, en azından profil düzeyinde web araması etkinleştirilmiş ChatGPT 5 Thinking modu olduğu yönünde. Yakın tarihli bilgi veya araştırma isteği gelince ChatGPT’nin derin düşünüp araştırma yapma eğilimi oluyor
Dinlediğim bir podcast’in gelirini merak ediyordum. Phoenix’ten iki komedyen takipçileri olmadan başlamış ve şimdi Apple listelerinde üst sıralara çıkmış. Eskiden bunu araştırmaya çalıştığımda net bir cevap bulamıyordum; ama GPT-5 “gereğinden fazla” araştırma yapıp çeşitli kaynakları çapraz doğruladı ve güvenilebilir bir aralık sundu
- Peki o aralığın ne olduğunu merak ettim
- Son zamanlarda GPT de daha geveze yanıtlar veriyor gibi. Google Gemini bazen gereksiz bir tez döküyor, ChatGPT de bilgi vermekten çok uzun raporlar üretmeye yönelmiş durumda. Muhtemelen insanlar bu uzun rapor tarzı yanıtları daha güvenilir buluyor. Ayrıca ayrıntılı gerekçe veya sayılar verilse bile, bazı yanıtları doğrulamak kolayken bazılarını doğrulamak zordur. LLM’leri çok kullanırsam kendi araştırma becerilerimin köreleceğinden endişe ediyorum. MCP ile deney yaparken fark ettiğim bir başka şey de inanılmaz derecede fazla kaynak tüketmesi. Bu tür deep research özellikleri OpenAI tarafından zararına, ucuz şekilde sunuluyor gibi; ileride büyük fiyat artışları olursa bu bağımlılığın kendisi riskli hale gelebilir diye düşünüyorum

ChatGPT'nin GPT-5 düşünmesi (Research Goblin) aramada çok güçlü

GPT-5 düşünmesi (Research Goblin) ve arama inovasyonu

Değişen arama paradigması

Gerçek arama örnekleri ve sonuçlar

İlginç yürüyen bantlar (Travelators)

Bina tespiti

Starbucks UK cake pop araştırması

Wikipedia ve Britannica ilişkisi

University of Cambridge'in resmî adı

Exeter Quay mağaraları ve restoranın geçmişi

Aldi ve Lidl karşılaştırması

Yapay zeka laboratuvarlarının kitap taraması

GPT-5 aramasının pratik üstünlüğü

LLM geliştirme açısından anlamı

Etkili arama kullanımı için ipuçları

İlgili okumalar

1 yorum

Hacker News yorumu