23 puan yazan xguru 2025-02-20 | Henüz yorum yok. | WhatsApp'ta paylaş

> "OpenAI'nin Deep Research'ü tam bana göre yapılmış, ama ben onu kullanamıyorum. Harika bir demo gibi görünüyor ama sonunda yine kaçınılmaz olarak sorun çıkıyor. Üstelik o sorunun ortaya çıkış biçimi de oldukça ilginç." - Benedict Evans

  • Benim esas olarak yaptığım iş araştırma ve analiz
    • İstediğim veriyi bulup düzenliyor, ardından grafikler oluşturuyor ve buradan içgörüler çıkararak bunları metin ve grafiklerle ifade ediyorum
    • Sonra da bu çıktılar üzerinden insanlarla konuşuyorum
  • OpenAI'nin Deep Research'ü, bu 'araştırma işini' otomatikleştiren bir çözüm gibi görünüyor
    • Ben de bu aracın gerçekten uygun olup olmadığını merak ederek test etmek istedim
    • Tam o sırada Deep Research'ün sunduğu örnek raporun konusu 'akıllı telefon pazarı'ydı ve bu benim çok iyi bildiğim bir alandı
  • Örnek raporda sunulan tablo ilk bakışta harika görünüyordu
    • Ama önce 'bu veri nereden geliyor?' sorusunu sormak gerekiyor
    • Deep Research kaynak olarak 'Statista' ve 'Statcounter'ı gösterdi, ancak iki kaynağın da sorunları var
      • Statcounter trafik tabanlı istatistikler sunduğu için, cihaz kullanımındaki sapmalar nedeniyle bazı platformları olduğundan fazla ya da az yansıtma eğilimine sahip
      • Statista ise SEO optimizasyonunu kullanarak başka kaynakları yeniden paketliyor; asıl kaynak ayrıca başka yerde bulunuyor
        • Bu, "kaynağım Google arama sonuçları" demekten çok da farklı değil
  • Örnek olarak Japonya pazarındaki iOS/Android payı sayılarına bakıldığında, Deep Research "iOS %69, Android %31" sonucunu veriyor
    • Oysa Statcounter'ın kendisi bile son 1 yıl içinde %69 gibi bir sayı hiç yayımlamadı
    • Statista'nın arkasındaki gerçek kaynak Kantar Worldpanel ve Kantar'ın sunduğu sayılar neredeyse tam tersini gösteriyor (yaklaşık Android %63, iOS %36)
    • Öte yandan Japon devlet kurumu verileri(bağlantı, sayfa 25) "yaklaşık %53 Android, %47 iOS" diyor
    • Dahası, Kantar verileri aydan aya 20 puana kadar oynayabildiği için, bunu 'gerçek donanım kurulu tabanı oranı' olarak görmek zor
  • Bu farkların hepsini kontrol etmek için sonunda tablodaki tüm sayıların yeniden doğrulanması gerekiyor
    • Bu durumda aracı kullanma nedeni olan 'zaman tasarrufu' büyük ölçüde ortadan kalkıyor
    • Sonuç olarak Deep Research'ün tabloya koyduğu verilere körü körüne güvenmek zorlaşıyor
  • Buradaki asıl sorun, 'LLM'in bir veritabanı olmaması'
    • LLM'ler olasılıksal yapıları sayesinde sorunun niyetini anlamada güçlü, ancak belli bir kaynaktan kesin sayılar çekmek gibi "deterministik" işlerde zayıf
    • Deep Research'ün, "hangi anlamdaki pazar payını istediğinizi" doğru anlaması ve güvenilir bir kaynaktan doğru sayıları getirmesi gerekirdi, ama bunu yapamadı
  • Bu da 'LLM'in bilgisayarların zorlandığı konuda (bağlamı anlama) iyi, bilgisayarların iyi olduğu konuda (doğru bilgi çıkarımı) kötü olması' durumunu gösteriyor
    • OpenAI, kullanıcı niyetini çıkarma işiyle doğru bilgi toplama işini aynı anda yapmaya çalışıyor, ancak şu an için burada bir uyumsuzluk var
    • Üstelik örnek raporun kendisi bile OpenAI'nin tanıtım amaçlı sunduğu bir materyal olmasına rağmen hata içeriyor
  • Bazıları 'modeller giderek gelişiyor, o yüzden düzelecek' diyebilir
    • Ancak tablo %85 doğru olsa bile, kalan %15 yanlışsa genel güvenilirlik hâlâ düşük kalır
    • "Tam otomatik araştırma" için %100'e çok yaklaşmak gerekir; ama bunun gerçekten ulaşılabilir bir nokta olup olmadığı konusunda şüpheliyim
  • Buna rağmen bu teknolojinin tamamen işe yaramaz olduğu anlamına gelmiyor
    • Konuya zaten hâkimseniz, 20 sayfalık bir raporu hızla üretip hataları kendiniz düzelterek zaman kazanabilirsiniz
    • Ben LLM'e 'sonsuz stajyer' diyorum; bu da stajyerin getirdiği taslağın düzeltme gerektirmesine benziyor
    • Steve Jobs'un bilgisayarı zihnin bisikleti olarak tanımlayan sözünü anımsarsak, bunu insan yeteneklerini destekleyen bir araç olarak kullanmak mantıklı olabilir
  • Yine de temelde iki sorun var
    • Modelin yanlış yapabileceğini varsayan ürünler mi inşa edilmeli, yoksa modelin kendisinin güvenilir hâle geleceği mi varsayılmalı, bu belirsiz
    • OpenAI gibi şirketler, devasa sermaye dışında, özel bir giriş engeline ya da belirgin bir ürün yetkinliğine (kodlama ve pazarlama alanları dışında) henüz sahip görünmüyor
      • Deep Research gibi girişimlerin sadece "metin kutusu + API" olmanın ötesinde gerçek bir 'ürün' olabilmesi için, hata yönetimini ve kullanım bağlamını çözmesi gerekiyor
      • Perplexity gibi rakipler de ortaya çıkıyor; sonuçta LLM'i soyutlayan API'ler üzerine kurulu başka yazılımların hata oranını yönettiği bir senaryo daha olası görünüyor
  • Sonuç olarak Deep Research ilgi çekici bir deneme, ancak henüz güvenilirliği garanti etmek zor ve sektörün hangi yöne evrileceği de net değil

Henüz yorum yok.

Henüz yorum yok.