OpenAI Deep Research'ün Sorunları

(ben-evans.com)

23 puan yazan xguru 2025-02-20 | Henüz yorum yok. | WhatsApp'ta paylaş

> "OpenAI'nin Deep Research'ü tam bana göre yapılmış, ama ben onu kullanamıyorum. Harika bir demo gibi görünüyor ama sonunda yine kaçınılmaz olarak sorun çıkıyor. Üstelik o sorunun ortaya çıkış biçimi de oldukça ilginç." - Benedict Evans

Benim esas olarak yaptığım iş araştırma ve analiz
- İstediğim veriyi bulup düzenliyor, ardından grafikler oluşturuyor ve buradan içgörüler çıkararak bunları metin ve grafiklerle ifade ediyorum
- Sonra da bu çıktılar üzerinden insanlarla konuşuyorum
OpenAI'nin Deep Research'ü, bu 'araştırma işini' otomatikleştiren bir çözüm gibi görünüyor
- Ben de bu aracın gerçekten uygun olup olmadığını merak ederek test etmek istedim
- Tam o sırada Deep Research'ün sunduğu örnek raporun konusu 'akıllı telefon pazarı'ydı ve bu benim çok iyi bildiğim bir alandı
Örnek raporda sunulan tablo ilk bakışta harika görünüyordu
- Ama önce 'bu veri nereden geliyor?' sorusunu sormak gerekiyor
- Deep Research kaynak olarak 'Statista' ve 'Statcounter'ı gösterdi, ancak iki kaynağın da sorunları var
  - Statcounter trafik tabanlı istatistikler sunduğu için, cihaz kullanımındaki sapmalar nedeniyle bazı platformları olduğundan fazla ya da az yansıtma eğilimine sahip
  - Statista ise SEO optimizasyonunu kullanarak başka kaynakları yeniden paketliyor; asıl kaynak ayrıca başka yerde bulunuyor
    - Bu, "kaynağım Google arama sonuçları" demekten çok da farklı değil
Örnek olarak Japonya pazarındaki iOS/Android payı sayılarına bakıldığında, Deep Research "iOS %69, Android %31" sonucunu veriyor
- Oysa Statcounter'ın kendisi bile son 1 yıl içinde %69 gibi bir sayı hiç yayımlamadı
- Statista'nın arkasındaki gerçek kaynak Kantar Worldpanel ve Kantar'ın sunduğu sayılar neredeyse tam tersini gösteriyor (yaklaşık Android %63, iOS %36)
- Öte yandan Japon devlet kurumu verileri(bağlantı, sayfa 25) "yaklaşık %53 Android, %47 iOS" diyor
- Dahası, Kantar verileri aydan aya 20 puana kadar oynayabildiği için, bunu 'gerçek donanım kurulu tabanı oranı' olarak görmek zor
Bu farkların hepsini kontrol etmek için sonunda tablodaki tüm sayıların yeniden doğrulanması gerekiyor
- Bu durumda aracı kullanma nedeni olan 'zaman tasarrufu' büyük ölçüde ortadan kalkıyor
- Sonuç olarak Deep Research'ün tabloya koyduğu verilere körü körüne güvenmek zorlaşıyor
Buradaki asıl sorun, 'LLM'in bir veritabanı olmaması'
- LLM'ler olasılıksal yapıları sayesinde sorunun niyetini anlamada güçlü, ancak belli bir kaynaktan kesin sayılar çekmek gibi "deterministik" işlerde zayıf
- Deep Research'ün, "hangi anlamdaki pazar payını istediğinizi" doğru anlaması ve güvenilir bir kaynaktan doğru sayıları getirmesi gerekirdi, ama bunu yapamadı
Bu da 'LLM'in bilgisayarların zorlandığı konuda (bağlamı anlama) iyi, bilgisayarların iyi olduğu konuda (doğru bilgi çıkarımı) kötü olması' durumunu gösteriyor
- OpenAI, kullanıcı niyetini çıkarma işiyle doğru bilgi toplama işini aynı anda yapmaya çalışıyor, ancak şu an için burada bir uyumsuzluk var
- Üstelik örnek raporun kendisi bile OpenAI'nin tanıtım amaçlı sunduğu bir materyal olmasına rağmen hata içeriyor
Bazıları 'modeller giderek gelişiyor, o yüzden düzelecek' diyebilir
- Ancak tablo %85 doğru olsa bile, kalan %15 yanlışsa genel güvenilirlik hâlâ düşük kalır
- "Tam otomatik araştırma" için %100'e çok yaklaşmak gerekir; ama bunun gerçekten ulaşılabilir bir nokta olup olmadığı konusunda şüpheliyim
Buna rağmen bu teknolojinin tamamen işe yaramaz olduğu anlamına gelmiyor
- Konuya zaten hâkimseniz, 20 sayfalık bir raporu hızla üretip hataları kendiniz düzelterek zaman kazanabilirsiniz
- Ben LLM'e 'sonsuz stajyer' diyorum; bu da stajyerin getirdiği taslağın düzeltme gerektirmesine benziyor
- Steve Jobs'un bilgisayarı zihnin bisikleti olarak tanımlayan sözünü anımsarsak, bunu insan yeteneklerini destekleyen bir araç olarak kullanmak mantıklı olabilir
Yine de temelde iki sorun var
- Modelin yanlış yapabileceğini varsayan ürünler mi inşa edilmeli, yoksa modelin kendisinin güvenilir hâle geleceği mi varsayılmalı, bu belirsiz
- OpenAI gibi şirketler, devasa sermaye dışında, özel bir giriş engeline ya da belirgin bir ürün yetkinliğine (kodlama ve pazarlama alanları dışında) henüz sahip görünmüyor
  - Deep Research gibi girişimlerin sadece "metin kutusu + API" olmanın ötesinde gerçek bir 'ürün' olabilmesi için, hata yönetimini ve kullanım bağlamını çözmesi gerekiyor
  - Perplexity gibi rakipler de ortaya çıkıyor; sonuçta LLM'i soyutlayan API'ler üzerine kurulu başka yazılımların hata oranını yönettiği bir senaryo daha olası görünüyor
Sonuç olarak Deep Research ilgi çekici bir deneme, ancak henüz güvenilirliği garanti etmek zor ve sektörün hangi yöne evrileceği de net değil

OpenAI Deep Research'ün Sorunları

İlgili okumalar

Henüz yorum yok.