ChatGPT'nin GPT-5 düşünmesi (Research Goblin) aramada çok güçlü
(simonwillison.net)- GPT-5 tabanlı ChatGPT (namıdiğer Research Goblin), web aramasında çok yüksek düzeyde doğruluk ve kullanışlılık gösteriyor
- Sıradan trivial sorulardan karmaşık bilgi araştırmalarına kadar geniş bir konu yelpazesinde güçlü arama ve akıl yürütme yetenekleri sergiliyor
- Gerçek örneklerde kapsamlı arama süreci ve zincirleme akıl yürütme sayesinde güvenilir yanıtlar ve kaynaklar sunuyor
- Mobil ortamda da üstün kullanılabilirlik ve kesintisiz iş akışı deneyimi sağlıyor
- Tool calling ve chain-of-thought entegrasyonu sayesinde geliştirici açısından LLM tabanlı arama için yeni bir standart ortaya koyuyor
GPT-5 düşünmesi (Research Goblin) ve arama inovasyonu
Değişen arama paradigması
- Eskiden “chatbot'u arama motoru gibi kullanmayın” tavsiyesi baskındı; ancak en yeni GPT-5 tabanlı ChatGPT ile bu kural bozuluyor
- GPT-5 tabanlı model, Bing gibi arama motorlarıyla entegrasyonun ötesine geçerek pratikte internet araştırmasının yerini alabilecek veya onu aşabilecek bir seviyeye ulaşıyor
- “Research Goblin” lakabını almasının nedeni, hangi soru ya da karmaşık görev verilirse verilsin alışılmadık derecede inatçı biçimde araştırıp en iyi yanıtı çıkarması
Gerçek arama örnekleri ve sonuçlar
İlginç yürüyen bantlar (Travelators)
- Heathrow Havalimanı'ndaki kauçuk malzemeli yürüyen bandın ne zaman metalle değiştirildiği sorulduğunda, bunu 2014-2018 arası olarak tahmin edip ilgili ilginç bir 2024 haberini de buluyor
Bina tespiti
- Tren camından görülen egzotik bir bina sorulduğunda, 1 dakika 4 saniye içinde bunun ‘The Blade (Reading)’ olduğunu doğru biçimde doğruluyor ve kaynak bağlantılarını da veriyor
Starbucks UK cake pop araştırması
- Birleşik Krallık'taki Starbucks mağazalarında cake pop neden bulunmadığını derinlemesine araştırarak, ürünün 2023'te sunulduğunu ancak bazı mağazalarda (özellikle seyahat noktalarındaki mağazalarda) satılmadığını ortaya çıkarıyor
- Besin değeri ve alerjen bilgilendirme PDF'leri, Reddit tartışmaları gibi kanıtları da bir araya getiriyor
Wikipedia ve Britannica ilişkisi
- Wikipedia'nın ilk dönem verilerinde 1911 baskısı Britannica kaynaklarının bir kısmını kullandığı yönündeki çevrimiçi iddianın doğruluğunu ve bağlamını derinlemesine inceliyor; ilgili proje belgeleri ve açıklamaları da izleyip sunuyor
University of Cambridge'in resmî adı
- Cambridge Üniversitesi'nin resmî hukuki adını (The Chancellor, Masters, and Scholars of the University of Cambridge) dayanak kaynaklarla birlikte sunuyor
- Akıl yürütme sürecini şeffaf biçimde göstererek yanıtın güvenilirliğini de doğrulamayı mümkün kılıyor
Exeter Quay mağaraları ve restoranın geçmişi
- Exeter Quay bölgesinde uçuruma oyulmuş restoranın iç yapısı ve geçmişini, çok aşamalı aramalar ve PDF analizleriyle inceleyerek bunun 1820-1830'larda kızıl kumtaşı falezlerine oyulduğunu ortaya koyuyor
- İngilizce rapor/çizim belgelerini buluyor; ulaşılamadığında ise e-posta talep taslağı bile hazırlayan proaktif bir arama deseni gösteriyor
Aldi ve Lidl karşılaştırması
- Aldi ve Lidl'in Birleşik Krallık'taki konumları, görselleri, pazar sıralamaları gibi başlıklarda; pazar payı ve tüketici değerlendirmeleri dahil sayısal verileri uzun uzun analiz ediyor
- Kullanıcı isteğine göre “fanciness (üst segmentlik)” ölçütüne göre sıralamayı yeniden düzenleyip sunuyor
Yapay zeka laboratuvarlarının kitap taraması
- Anthropic'in büyük miktarda kitabı tarayarak eğitim verisi oluşturması dışında, diğer yapay zeka araştırma laboratuvarlarının benzer uygulamalarına dair doğrulanmış bilgi bulunamadığını belirtiyor; ancak olasılıkları ayrıntılı biçimde araştırma kaydını paylaşıyor
GPT-5 aramasının pratik üstünlüğü
- GPT-5 tabanlı ChatGPT aramasında, manuel araştırmaya kıyasla daha hızlı, daha sistematik ve daha geniş kapsamlı bilgi toplama ve değerlendirme mümkün
- Özellikle mobil ortamda kullanılabilirlik ciddi biçimde iyileştiği için, gündelik merakları gidermek ya da rutin araştırma işlerini her yerde yapmak mümkün hale geliyor
- OpenAI'ın Deep Research özelliğinin yerini alabilecek kadar hızlı ve zengin sonuç üretme yeteneğine sahip
LLM geliştirme açısından anlamı
- Tool calling ve chain-of-thought tekniklerinin birleşimi sayesinde arama, zincirleme akıl yürütme ve ek araştırma tek bir “düşünme” adımı içinde doğal biçimde birbirine bağlanıyor
- RAG (arama-üretim birleşimi) teknolojisi de çok adımlı esnek tool çağrıları ve gelişmiş arama entegrasyonu sayesinde çok daha güçlü şekilde çalıştırılabiliyor
- Anthropic'in terminolojisinde buna interleaved thinking deniyor; OpenAI Responses API de buna benzer bir akışı destekliyor
Etkili arama kullanımı için ipuçları
- Deneyimsel sezgi ile arama kalitesi artırılabiliyor (“go deep” gibi ipuçlarıyla daha kapsamlı araştırma teşvik edilebiliyor)
- Net bir cevabı olmayan yoruma açık sorularda bile faydalı ve ilgi çekici sonuçlar üretiyor
- “Goblin” benzetmesinde olduğu gibi Research Goblin, çalışkan ama tamamen güvenilir olmayan, insandan farklı bir arama yapay zekası olarak yüksek kullanım değeri taşıyor
1 yorum
Hacker News yorumu
Simon’un yazısına katılıyorum, ancak bence “araştırma”, kanıtların farklı biçimlerini karşılaştırmak anlamına geliyor. Örneğin Obamacare’in etkisi, hukuki kararların tahmini, animasyonun etkisinin analizi, açık kaynak kütüphanelerin kullanım yöntemleri gibi pek çok alana uygulanabilir. ChatGPT veya diğer LLM’ler, kanıtların değerlendirilmesi ya da kaynak önyargılarının anlaşılması konusunda zorlanıyor; özellikle çok fazla istatistik söz konusu olduğunda, akıl yürütme arttıkça halüsinasyonlar da artıyor. Modellerin kullanıcının bakış açısını desteklemek isteme eğilimi var; kullanıcı açıkça istemese bile olumlu yanıt vermeye çalışıyorlar. Ben her zaman ChatGPT’den kaynakları doğrudan değerlendirmesini, lehte ve aleyhte argümanları karşılaştırmasını isterim ve bazen modelin tepkisini görmek için karşı argüman da sunarım. Daha ayrıntılı deneyimler için bloga bakabilirsiniz
Perplexity ile monitörüm için en iyi ayarları bulmaya çalıştım; bana kısa bir ayar listesi ve nedenlerini verdi. Ancak kaynakları kontrol ettiğimde resmi bilgi ya da dayanak yoktu; sadece Samsung forumlarında kullanıcıların tahmin yürüttüğü veya tartıştığı yazılar vardı. Kaynak güvenilirliğine göre bir confidence rating verilse güzel olurdu ama bunu uygulamanın gerçekten çok zor olacağını düşünüyorum
ChatGPT ve LLM’ler sık sık yüzeysel “sağduyuyu” tekrar ediyor. Birkaç kez ek soru sorup bunun gerçekten dayanağı olup olmadığını, kaynağın ne olduğunu, alıntılanan bilgiyi vermesini istiyorum ve halüsinasyon olmadığını tekrar doğrulatıyorum. Oldukça sık biçimde ilk yanıtın tamamen yanlış olduğu ortaya çıkıyor. Çoğu insan muhtemelen bu ilk yanıtı olduğu gibi kabul eder
Örneğin iyi araştırılmış bir satın alma kararı vermeye çalışırken, pazarlama odaklı görüşlerin çoğunluğu oluşturduğunu ve karşıt sinyallerin (Reddit’teki olumsuz yorumlar veya YouTube yorumları gibi) yeterince dengelenmediğini görüyorum; bu yüzden iş gerçekten zorlaşıyor
GPT-5 (o3 modeli vb.), en eleştirel bakış açısına sahip LLM’lerden biri. Akademik ve teknik isteklerde, özel bir prompt olmadan bile bilgi kaynaklarını alıntılayabiliyor ve farklı sonuçları karşılaştırabiliyor. Grok 4’ün ilk sürümü analiz yapmadan sadece makaleleri özetliyordu, Claude Opus 4 ise JS kütüphaneleri listesi isteğinde kullanım oranı odaklı belgeler döndürerek asıl noktayı kaçırıyordu. GPT-5 elbette kusursuz değil ama ortalama bir insandan daha iyi
LLM’lerde “araştırma” kelimesinin bir özellik setini ifade etmek için kullanılmasına dair ne düşündüğünüzü sormak istiyorum. Bunun gerçek araştırmayı yeterince temsil eden bir terim olup olmadığını ya da ABD seçim dönemlerinde sık duyulan “do your research” deyimine yakın bir şey olup olmadığını merak ediyorum
Google aramanın (özellikle AI özetleri kapatmak için
udm=14kullanıldığında) hâlâ oldukça iyi bir deneyim sunduğunu düşünüyorum. Örneğin Britannica ve Wikipedia ile ilgili sorularda hem Google’da hem Wikipedia’da 1-2 saniye içinde sonuç alabiliyordum ve yaklaşık 60 saniyede istediğim şeyi doğrudan hızlıca bulabiliyordum. Buna karşılık ChatGPT süreçten bağımsız olarak yaklaşık 3 dakika sürüyor ve sonuçları kendim doğrulayıp halüsinasyon olup olmadığını kontrol etmem gerekiyor. Sonuç olarak, LLM’in X işini yapabiliyor olması etkileyici ama kendim arayıp sonrasında derlemem çok daha verimli geliyorSon deneyimlerime dayanarak biraz farklı düşünüyorum. Google AI özetlerini kapatmazsanız deneyim kesinlikle kötüleşiyor. Örneğin bir GitHub reposu ararken Google gerçek sayfayı bulamadı ve sadece alakasız bağlantılar verdi. GPT daha uzun sürüyor ama araştırmanın kapsamına göre avantajları var. StarCraft2 birim hareketi gibi derin konularda GPT’den tek seferde özet/açıklama/kod kaynağı istemek kullanışlıydı ve hataları elemek benim için yeterince mümkündü. Gelecekte tüm internet gezintisinin LLM tabanlı yardımla sunulacağını düşünüyorum
Google’da "Rubber bouncy at Heathrow removal" diye arattım, üç bağlantı sonucu çıktı ve ChatGPT kanıt sunarken biraz halüsinasyon yapmış gibi görünüyordu. Tersine görsel arama ya da Starbucks pop fiyatı araması gibi şeylerde de doğrudan kendim bulmak daha etkili geliyor. Yine de insanların ChatGPT’yi tercih etmesinin nedeni, web bilgisini tek seferde cevap olarak sunmasının rahatlığı. Bazen halüsinasyon olsa da insanlar bu maliyeti kabulleniyor gibi görünüyor. Eskiden Wikipedia yerine kütüphaneye daha fazla güvenilirdi; LLM’lerin evrimi de yeni bir paradigma değişimi olabilir diye düşünüyorum
Benim önerim, Google deneyini yaparken yanıtlaması en zor örneklerle denemeniz olur
Basit bir soruyu GPT-5 Auto modunda sordum; 2 saniye içinde yanıt vermeye başladı ve okunması kolay bir hızda iki doğru bağlantı sundu. Think modunda yaklaşık 2 dakika sürdü ama farklı kaynakları karşılaştırdı ve tüm özetlere dayanak ekledi. Bulması gerçekten zor yerel yönetim bilgileri veya karmaşık açık kaynak PR analizlerinde GPT’yi çok iyi kullanıyorum. Bir sürü öneriyi tek tek okuma zahmetini üstlenmesi gerçekten çok faydalı geliyor
Eğer insanlar doğrudan web sitelerini ziyaret etmeyip sadece ajanlarla etkileşime girmeye başlarsa, web’in nasıl değişeceğini merak ediyorum. Önümüzde ilginç bir dönüşüm dönemi var
Reddit’in "Tip of My Tongue" alt başlığını eskiden aklımda kalan eski bilgileri bulmak için sık kullanırdım ama her şeyi çözemiyordu. Deep Research özelliği, çözemediğim dört konuyu bir saat içinde çözdü ve beşincisinde de kendi başıma ipucu bulmamı sağladı. Mantıksal akıl yürütmede eksikleri olsa da onlarca arama sonucunu hızlıca sindirebilmesi ve sadece gevşek açıklamalardan ilgili bilgiyi çekip çıkarabilmesi gerçekten çok güçlü. Artık Reddit’teki spam botlarla ya da kurallara uymayan kullanıcılarla uğraşmadan bu arama gücüne birkaç dakikada erişebiliyorum
Ben de ChatGPT’nin araştırmada çok iyi olduğunu düşünüyorum ama bazen yüzeysel ve potansiyel olarak yanlış cevaplar verdiği patolojik durumlar oluyor. Nesnel birincil kaynaklar internette mevcut olsa bile yanıldığı durumlar var; bu yüzden ilgili blogu paylaşıyorum
Bunun senin anlattığın durumdan aslında farklı olduğunu düşünüyorum. Senin görüşün makalelerle çelişiyor ve bunu blogda toparlayıp ChatGPT’nin senin bakış açını benimsemesini ister gibi görünüyor. Nesnel değerlendirme konusunda sınırlar var gibi
Son zamanlarda ChatGPT’nin istikrarsızlaştığını hissediyorum. Yanıtların yarısından fazlasında gerekçe uyduruyor, bağlamı unutuyor ya da dümdüz yanlış oluyor. Aistudio’da 300 bin token’ı aşınca bile Gemini/Aistudio bağlamı iyi korurken, ChatGPT büyük miktarda bilgiye karşı zayıf kalıyor gibi
Ben de çok benzer deneyimler yaşadım. GPT5 Thinking’e geçince biraz daha iyi oluyor ama o3 veya o1’e kıyasla bir şeyleri kaçırma eğilimi var. Örneğin Bo-chan romanının kaplıca bölümünü GPT5’e sordum ve ince şekilde yanlış bir açıklama verdi. Gerçek romanda başkahraman kaplıcada yüzüyor ve sonra yasak tabelası yüzünden rezil oluyor; GPT5 ise sadece kuralların açıklamasına odaklanıyordu
Yazını ilginç ve tartışmaya uygun buluyorum. Açıkçası GPT’nin daha iyi bir yanıt verebileceğini düşünüyorum ama araştırmayı nerede kesmek gerektiğine dair tartışma da anlamlı. Genelde daha az güvenilen kaynakları da tamamen dahil edersen tartışma hiç bitmez. Sonuçta kamuoyunda genel kabul gören sonuca kadar gitmek makul bir trade-off gibi görünüyor
Eski "heavy" modeller ansiklopedi düzeyinde bilgiyi içine gömülü taşıyordu; buna karşılık son "lighter" modeller web aramasına dayanıp sadece yüzeysel bilgi aktarıyor gibi geliyor. Çok sayıda çevrimdışı belgeyi hatırlayan modellerin güçlü yanını özlüyorum
Ben tam tersini düşünüyorum. Modelin içsel bilgisi halüsinasyon olabilir; bu yüzden her zaman ayrıca doğrulama araştırması gerekir. Buna karşılık LLM arama ve özeti önceden yaparsa, sadece kaynakları kontrol etmek yeterli olur ve bu çok daha pratiktir. Kagi Assistant bu rolü iyi yerine getiriyor
Uzun süre arama özelliğini kapalı kullanıyordum ama son zamanlarda özel komutlara web araması/iç bilgi kullanımı modu ekledim.
xzgirince web araması,xxgirince sadece iç bilgi kullanıyor. Oturum içinde serbestçe geçiş yapılabilen bir ayarAramasız modeller ağır, arama tabanlı modeller hafif ama güncel gerçek verilere bağımlı. Ben iki taraf arasında gidip geliyordum ama son dönemde kaynak temelli hafif modelleri daha çok tercih ediyorum
Gerçek bilgi dışarıda depolanır. Bu yüzden üniversitelerde kütüphane önemli bir kurumdur. Ajanlar da sadece hafızayla yetinemez
Ben de bir ölçüde öyle hissediyorum. Hafif web arama modelinin, her sayfada daha önce söylenenlerle yeni bilgileri ve sayfa bazında ileri sürülen kanıtlarla tutarsızlıkları ayıran bir görünüm sunması ilginç olabilir
Yazar, internette cevap bulmak için “akıl dışı derecede fazla iş” yaptırıyor ve bunun gibi hesaplama kaynağı israfını hevesle kabulleniyor gibi görünüyor; bu bana tuhaf geliyor. Bunun gerçekten hedef olup olmadığını ve sadece doğru cevabı bulmak için devasa kaynak harcanan bir “wild goose chase”in haklı olup olmadığını sorguluyorum
ChatGPT gerçekten hayranlık verici ama lise öğretmenleri ya da üniversite hocaları bu araçlar yüzünden zorlanacak gibi. Örneğin “Yüzüklerin Efendisi’nin Gormenghast’tan etkilendiğine dair olabildiğince çok kanıt toplayıp derinlemesine araştırın” gibi bir ödev verilirse öğrenciler otomatik olarak deep research kullanacaktır paylaşılan örnek
Bunu gerçekten doğrulayıp doğrulamadığını, tüm bağlantılara tıklayıp kaynakları kontrol edip etmediğini merak ediyorum. Ben de geçmişte ChatGPT’nin bir şeyi “çözdüğünü” övünerek anlatmıştım ama aslında Wikipedia bilgisiydi ve yanlıştı
Okulda kopya çeken öğrencilerin çoğu tembeldir ve statüyü umursamaz; bu yüzden kaliteli ödevlerle ilgilenmezler. Zaman alan Thinking modunu kullanmaları için bir neden yok
ChatGPT yanıtında
steel-mangibi yeni türetilmiş bir terimin kullanılması eğlenceliydiÖğretmenlere yönelik atölyelerde Sokratik soru sorma yöntemini öğretip, çocukların Google/ChatGPT’den aldıkları bilgileri kendilerinin gerekçelendirmesine yardımcı olacak bir fikir aklıma geliyor. Bu yaklaşım, LLM araştırmasıyla büyütülmüş bilgiyi doğrudan ifade etmeyi ve kişinin mevcut bilgi seviyesini düzenlemesini içeriyor
Bu tür yanıtlar, Brave search’e yazınca birkaç saniyede çözülebilecek sorular olmasına rağmen LLM’ler şaşırtıcı derecede uzun sürebiliyor
Brave’i seviyorum ama arama sonuçlarını pek beğenmedim. AI özellikleri fena değil ama istediğim gerçek sonuçlar neredeyse hiç çıkmıyor
Bugünlerde SEO için optimize edilmiş düşük kaliteli siteler duvar gibi önüme çıkıyor; bu yüzden buna kolayca ikna olamıyorum
Chat+Search kullanmanın avantajı; reklam, tıklama tuzakları, içerik çiftlikleri ve kötü amaçlı yazılım endişesi olmadan doğrudan cevaba ulaşabilmek
Bunun ChatGPT’nin “Web Search”, “Deep Research” ve “Agent Mode” özelliklerinden hangisi olduğunu karıştırıyorum. Özellik seti gerçekten ilginç
Deep Search ya da Agent Mode değil. Ben “GPT-5 Thinking” seçiyorum ve sadece normal arama aracını etkinleştiriyorum
Benim deneyimime göre sonuç, daha çok “Reddit’te arama yapıp üstüne yorum eklemek” gibi
“ChatGPT 5 Pro”yu da unutmayın. Deep Research’ten biraz farklı
Bence sadece varsayılan mod. Web arama seçeneğini özellikle açmasanız bile otomatik arama yapıyor. Neden ayrı bir seçenek olduğunu merak ediyorum
Benim tahminim, en azından profil düzeyinde web araması etkinleştirilmiş ChatGPT 5 Thinking modu olduğu yönünde. Yakın tarihli bilgi veya araştırma isteği gelince ChatGPT’nin derin düşünüp araştırma yapma eğilimi oluyor
Dinlediğim bir podcast’in gelirini merak ediyordum. Phoenix’ten iki komedyen takipçileri olmadan başlamış ve şimdi Apple listelerinde üst sıralara çıkmış. Eskiden bunu araştırmaya çalıştığımda net bir cevap bulamıyordum; ama GPT-5 “gereğinden fazla” araştırma yapıp çeşitli kaynakları çapraz doğruladı ve güvenilebilir bir aralık sundu
Peki o aralığın ne olduğunu merak ettim
Son zamanlarda GPT de daha geveze yanıtlar veriyor gibi. Google Gemini bazen gereksiz bir tez döküyor, ChatGPT de bilgi vermekten çok uzun raporlar üretmeye yönelmiş durumda. Muhtemelen insanlar bu uzun rapor tarzı yanıtları daha güvenilir buluyor. Ayrıca ayrıntılı gerekçe veya sayılar verilse bile, bazı yanıtları doğrulamak kolayken bazılarını doğrulamak zordur. LLM’leri çok kullanırsam kendi araştırma becerilerimin köreleceğinden endişe ediyorum. MCP ile deney yaparken fark ettiğim bir başka şey de inanılmaz derecede fazla kaynak tüketmesi. Bu tür deep research özellikleri OpenAI tarafından zararına, ucuz şekilde sunuluyor gibi; ileride büyük fiyat artışları olursa bu bağımlılığın kendisi riskli hale gelebilir diye düşünüyorum