OpenAI Deep Research'ün Sorunları
(ben-evans.com)> "OpenAI'nin Deep Research'ü tam bana göre yapılmış, ama ben onu kullanamıyorum. Harika bir demo gibi görünüyor ama sonunda yine kaçınılmaz olarak sorun çıkıyor. Üstelik o sorunun ortaya çıkış biçimi de oldukça ilginç." - Benedict Evans
- Benim esas olarak yaptığım iş araştırma ve analiz
- İstediğim veriyi bulup düzenliyor, ardından grafikler oluşturuyor ve buradan içgörüler çıkararak bunları metin ve grafiklerle ifade ediyorum
- Sonra da bu çıktılar üzerinden insanlarla konuşuyorum
- OpenAI'nin Deep Research'ü, bu 'araştırma işini' otomatikleştiren bir çözüm gibi görünüyor
- Ben de bu aracın gerçekten uygun olup olmadığını merak ederek test etmek istedim
- Tam o sırada Deep Research'ün sunduğu örnek raporun konusu 'akıllı telefon pazarı'ydı ve bu benim çok iyi bildiğim bir alandı
- Örnek raporda sunulan tablo ilk bakışta harika görünüyordu
- Ama önce 'bu veri nereden geliyor?' sorusunu sormak gerekiyor
- Deep Research kaynak olarak 'Statista' ve 'Statcounter'ı gösterdi, ancak iki kaynağın da sorunları var
- Statcounter trafik tabanlı istatistikler sunduğu için, cihaz kullanımındaki sapmalar nedeniyle bazı platformları olduğundan fazla ya da az yansıtma eğilimine sahip
- Statista ise SEO optimizasyonunu kullanarak başka kaynakları yeniden paketliyor; asıl kaynak ayrıca başka yerde bulunuyor
- Bu, "kaynağım Google arama sonuçları" demekten çok da farklı değil
- Örnek olarak Japonya pazarındaki iOS/Android payı sayılarına bakıldığında, Deep Research "iOS %69, Android %31" sonucunu veriyor
- Oysa Statcounter'ın kendisi bile son 1 yıl içinde %69 gibi bir sayı hiç yayımlamadı
- Statista'nın arkasındaki gerçek kaynak Kantar Worldpanel ve Kantar'ın sunduğu sayılar neredeyse tam tersini gösteriyor (yaklaşık Android %63, iOS %36)
- Öte yandan Japon devlet kurumu verileri(bağlantı, sayfa 25) "yaklaşık %53 Android, %47 iOS" diyor
- Dahası, Kantar verileri aydan aya 20 puana kadar oynayabildiği için, bunu 'gerçek donanım kurulu tabanı oranı' olarak görmek zor
- Bu farkların hepsini kontrol etmek için sonunda tablodaki tüm sayıların yeniden doğrulanması gerekiyor
- Bu durumda aracı kullanma nedeni olan 'zaman tasarrufu' büyük ölçüde ortadan kalkıyor
- Sonuç olarak Deep Research'ün tabloya koyduğu verilere körü körüne güvenmek zorlaşıyor
- Buradaki asıl sorun, 'LLM'in bir veritabanı olmaması'
- LLM'ler olasılıksal yapıları sayesinde sorunun niyetini anlamada güçlü, ancak belli bir kaynaktan kesin sayılar çekmek gibi "deterministik" işlerde zayıf
- Deep Research'ün, "hangi anlamdaki pazar payını istediğinizi" doğru anlaması ve güvenilir bir kaynaktan doğru sayıları getirmesi gerekirdi, ama bunu yapamadı
- Bu da 'LLM'in bilgisayarların zorlandığı konuda (bağlamı anlama) iyi, bilgisayarların iyi olduğu konuda (doğru bilgi çıkarımı) kötü olması' durumunu gösteriyor
- OpenAI, kullanıcı niyetini çıkarma işiyle doğru bilgi toplama işini aynı anda yapmaya çalışıyor, ancak şu an için burada bir uyumsuzluk var
- Üstelik örnek raporun kendisi bile OpenAI'nin tanıtım amaçlı sunduğu bir materyal olmasına rağmen hata içeriyor
- Bazıları 'modeller giderek gelişiyor, o yüzden düzelecek' diyebilir
- Ancak tablo %85 doğru olsa bile, kalan %15 yanlışsa genel güvenilirlik hâlâ düşük kalır
- "Tam otomatik araştırma" için %100'e çok yaklaşmak gerekir; ama bunun gerçekten ulaşılabilir bir nokta olup olmadığı konusunda şüpheliyim
- Buna rağmen bu teknolojinin tamamen işe yaramaz olduğu anlamına gelmiyor
- Konuya zaten hâkimseniz, 20 sayfalık bir raporu hızla üretip hataları kendiniz düzelterek zaman kazanabilirsiniz
- Ben LLM'e 'sonsuz stajyer' diyorum; bu da stajyerin getirdiği taslağın düzeltme gerektirmesine benziyor
- Steve Jobs'un bilgisayarı zihnin bisikleti olarak tanımlayan sözünü anımsarsak, bunu insan yeteneklerini destekleyen bir araç olarak kullanmak mantıklı olabilir
- Yine de temelde iki sorun var
- Modelin yanlış yapabileceğini varsayan ürünler mi inşa edilmeli, yoksa modelin kendisinin güvenilir hâle geleceği mi varsayılmalı, bu belirsiz
- OpenAI gibi şirketler, devasa sermaye dışında, özel bir giriş engeline ya da belirgin bir ürün yetkinliğine (kodlama ve pazarlama alanları dışında) henüz sahip görünmüyor
- Deep Research gibi girişimlerin sadece "metin kutusu + API" olmanın ötesinde gerçek bir 'ürün' olabilmesi için, hata yönetimini ve kullanım bağlamını çözmesi gerekiyor
- Perplexity gibi rakipler de ortaya çıkıyor; sonuçta LLM'i soyutlayan API'ler üzerine kurulu başka yazılımların hata oranını yönettiği bir senaryo daha olası görünüyor
- Sonuç olarak Deep Research ilgi çekici bir deneme, ancak henüz güvenilirliği garanti etmek zor ve sektörün hangi yöne evrileceği de net değil
Henüz yorum yok.