6 puan yazan GN⁺ 2025-01-24 | 1 yorum | WhatsApp'ta paylaş
  • OpenAI'nin yeni sunduğu Operator, web'de bağımsız olarak gezinebilen ve görevleri yerine getirebilen bir yapay zeka ajanıdır
    • Kendi tarayıcısını kullanarak web sayfalarını görür ve yazma, tıklama, kaydırma yoluyla etkileşim kurar
  • Hâlâ araştırma önizlemesi aşamasında olduğundan bazı kısıtları vardır ve kullanıcı geri bildirimleriyle geliştirilecektir
  • Bağımsız olarak görev yürütebilen bir yapay zeka olarak, kullanıcının talimat verdiği işleri yerine getiren ilk ajanlardan biridir
  • Tekrarlayan tarayıcı görevlerini (ör. form doldurma, market siparişi verme, meme oluşturma vb.) üstlenerek zamandan tasarruf sağlamayı amaçlar
  • Öncelikle ABD'de yaşayan Pro kullanıcılarına sunuluyor; ileride Plus, Team, Enterprise sürümlerine genişlemesi ve ChatGPT içine entegre edilmesi mümkün olabilir

Operator nasıl çalışır

  • Yeni bir model olan Computer-Using Agent (CUA) temel alınmıştır
  • GPT-4o'nun görsel yetenekleriyle pekiştirmeli öğrenme tabanlı gelişmiş akıl yürütmeyi birleştirerek GUI (düğmeler, menüler, metin alanları vb.) etkileşimini mümkün kılar
  • Ekran görüntüleri üzerinden tarayıcı ekranını “görür”, fare ve klavyeyle işlem yaparak görevleri yerine getirebilir
  • İşlem sırasında hata veya engellerle karşılaşırsa kendi kendini düzelten akıl yürütmeyi kullanır ya da gerekirse kontrolü kullanıcıya devreden işbirlikçi bir yaklaşım benimser
  • WebArena, WebVoyager gibi tarayıcı kullanım kıyaslamalarında yüksek performans gösteriyor; ayrıntılar araştırma blogunda görülebilir

Nasıl kullanılır

  • İstenen işi kısaca açıklamanız yeterlidir; Operator ilgili görevi otomatik olarak yürütür
  • Kullanıcı dilediği anda tarayıcı kontrolünü doğrudan geri alabilir
  • Oturum açma, ödeme bilgisi girme, CAPTCHA çözme gibi hassas adımlarda Operator doğrudan işlem yapmaz; bunların kullanıcı tarafından tamamlanması gerekir
  • Site bazında veya tüm siteler için yapılacak ayarlarla kullanıcı tercihleri yansıtılabilir
  • Sık kullanılan istemleri kaydederek sık yapılan işleri (ör. Instacart'ta yeniden market siparişi verme gibi) hızlıca çalıştırmak mümkündür
  • Birden fazla sekme gibi aynı anda birden çok işi yürütebilir; farklı görevler ayrı konuşma oturumlarıyla paralel sürdürülebilir

Ekosistem ve kullanıcılar

  • Operator, yapay zekayı yalnızca bir araç olmaktan çıkarıp dijital ekosistemin etkin bir katılımcısına dönüştürüyor
  • DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber gibi şirketlerle işbirliği yaparak gerçek kullanıcı ihtiyaçlarını ve sektör standartlarını yansıtıyor
  • Kamu tarafında da iş verimliliği ve erişilebilirliği artırmak için uygulama olasılığı değerlendiriliyor; örneğin City of Stockton ile belediye idari hizmetlerinde kullanım yolları araştırılıyor
  • Instacart Chief Product Officer'ı Daniel Danker, Operator üzerinden kolay sipariş sürecine ilişkin olumlu değerlendirmede bulundu

Güvenlik ve gizlilik

  • Operator, güvenliği en yüksek öncelik olarak ele alıyor ve üç katmanlı güvenlik önlemleri sunuyor
    • Kullanıcı odaklı kontrol: Hassas bilgilerin (oturum açma, ödeme vb.) girilmesi gerektiğinde Operator takeover isteyerek bilgilerin kullanıcı tarafından doğrudan girilmesini sağlar
    • Kritik işlem öncesi onay: Sipariş gönderme, e-posta yollama gibi önemli işlemlerden önce kullanıcı onayı ister
    • Görev kısıtlaması: Bankacılık işlemleri veya işe alımla ilgili kararlar gibi hassasiyeti yüksek görevlerde Operator'un reddetmesi için eğitim verilmiştir
    • Hassas sitelere erişimde Watch modu üzerinden kullanıcı, Operator'un davranışını doğrudan izleyebilir
  • Veri gizliliği yönetim özellikleri sunulur
    • Improve the model for everyone devre dışı bırakılırsa Operator verileri de model eğitiminde kullanılmaz
    • Ayarlar içindeki Privacy bölümünden tarama verilerini silme, tüm sitelerden çıkış yapma, konuşma geçmişini silme gibi işlemler kolayca yapılabilir
  • Operator'u kötü amaçlı web sitelerinden korumak için savunma mekanizmaları da uygulanmıştır
    • Gizli prompt'ları, zararlı kodları ve phishing girişimlerini tespit edip yok sayacak şekilde tasarlanmıştır
    • Özel bir izleme modeli şüpheli davranışları gerçek zamanlı olarak denetler ve gerekirse görevi durdurur
    • Otomasyon ve insan incelemesiyle yeni tehditler tespit edildiğinde güvenlik önlemleri hızla güncellenir
  • Teknolojinin zararlı amaçlarla kötüye kullanılmasını önlemek için Operator belirli istekleri reddeder; politika ihlallerinin tekrarlanması durumunda uyarı veya erişim engeli uygulanabilir
  • Hâlâ araştırma önizlemesi aşamasında olduğundan kusursuz değildir ve gerçek kullanım geri bildirimleriyle sürekli iyileştirilecektir

Sınırlamalar

  • Operator şu anda erken aşamadadır ve slayt gösterisi hazırlama ya da takvim yönetimi gibi karmaşık arayüz görevlerinde zorlanabilir
  • Kullanıcı geri bildirimleri, doğruluk, kararlılık ve güvenliği iyileştirmek için önemli bir kaynak olarak kullanılacaktır

Gelecek planları

  • CUA için bir API sunulması planlanıyor; böylece geliştiriciler kendi ajanlarını oluşturabilecekleri bir temel elde edecek
  • Uzun süreli işler ve karmaşık iş akışlarını işleme yeteneği güçlendirilerek Operator'un işlevleri daha da geliştirilecek
  • Pro kullanıcılarının ötesinde Plus, Team, Enterprise gibi katmanlara kademeli olarak genişletilecek ve uzun vadede özelliğin ChatGPT'ye entegre edilerek gerçek zamanlı ve eşzamansız görev yürütmeyi desteklemesi planlanıyor

1 yorum

 
GN⁺ 2025-01-24
Hacker News görüşleri
  • Birçok kişi, OpenAI gibi şirketlerin kişisel asistan sunmak için para harcamadığını; bunun yerine ileride iş gücü maliyetlerini azaltmak için yapay zekayı eğittiğini düşünüyor

    • Yapay zeka kişisel asistan olarak gerçekten kullanışlı hale geldiğinde, bu özellik muhtemelen ortalama bir insanın karşılayamayacağı bir fiyatla sunulacak
  • OpenAI Operator’un çıkışıyla ilgili görüşler karışık

    • Mevcut yetenekler, maliyet ve olası aşırı ölçeklenmeye dair şüpheci bakış açıları var; ancak görev otomasyonu ve zaman içinde iyileşme ihtimaline dair olumlu görüşler de mevcut
    • Etik sorunlar, gizlilik ve sektör üzerindeki etkiler de tartışılıyor
    • Genel olarak, zorluklar ve olası gelişmeler kabul edilirken temkinli bir iyimserlik hakim
  • Operator, birkaç ay önceki Claude Computer Use demosuna benziyor; VM çalıştırmayı gerektiren bir mimariye sahip ve hataya açık olma eğilimi var

    • Claude’un Computer Use uygulaması, duyurudan sonra yapay zeka ajanı sektöründe büyük bir etki yaratmadı
  • Operator’un güvenlik riskleri ve azaltma yöntemlerine ilişkin slaytta "kullanıcı yanlış hizalanmış" ifadesi yer alıyor

    • OpenAI’nin kullanıcıyı hangi durumlarda "yanlış hizalanmış" saydığına dair daha fazla örnek görmek isteyenler var
  • Meme yapmak gibi işler için 50 milyar dolar harcanmasına eleştirel yaklaşan görüşler var

    • Dünyayı gelecek nesiller için daha yaşanabilir bir yer haline getirmeye yatırım yapılmamasından duyulan üzüntü dile getiriliyor
  • CogAgent: Çin’den gelen açık kaynaklı bir alternatif

    • Makale, kod ve modele ilişkin bağlantılar sağlanıyor
  • Gelecekte ürünler ve modeller yeterince gelişirse, ChatGPT ile konuşarak akşam yemeği rezervasyonu, uçuş rezervasyonu, market alışverişi gibi web’deki sıkıcı işleri halletmenin mümkün olacağı beklentisi var

    • Bu tür özellikler büyük bir heyecanla bekleniyor
  • Instacart veya Doordash gibi şirketlerin, LLM’ler için pazarlama optimizasyonu üzerinden yeni bir UI yönü açabileceği düşünülüyor

    • Örneğin, besleyici yumurta bulunması istendiğinde, ajan besin değerleri etiketine bakarak karar verebilir
  • Bir "ajanın" fare ve klavye kullanıp piksellere bakarak çalışması kulağa garip geliyor

    • Uygulama ve servislerin, kullanıcı adına gerçekleştirebilecekleri önceden onaylı eylem kümelerini ortaya koyan bir standart hayal ediliyor
    • Kullanıcı izinlerinin eklenip geri alınabildiği bir "app store" kavramı öneriliyor
  • Ajanlar için Open APIs kullanımının gerekli olduğuna güçlü biçimde inanılıyor

    • OpenAPI’nin, ajanlar için açık bir dünya ve interneti mümkün kılan mükemmel bir spesifikasyon standardı olduğu savunuluyor
    • OpenAI, GPT’yi ilk çıkardığında Open APIs temeline dayanıyordu, ancak giderek bundan uzaklaşıyor
    • Bunun pazarı kontrol etme niyeti gibi göründüğü ve açık standartlara dayanmak istemediği düşünülüyor
    • Bu durumun son derece üzücü olduğu ifade ediliyor