- OpenAI'nin yeni sunduğu Operator, web'de bağımsız olarak gezinebilen ve görevleri yerine getirebilen bir yapay zeka ajanıdır
- Kendi tarayıcısını kullanarak web sayfalarını görür ve yazma, tıklama, kaydırma yoluyla etkileşim kurar
- Hâlâ araştırma önizlemesi aşamasında olduğundan bazı kısıtları vardır ve kullanıcı geri bildirimleriyle geliştirilecektir
- Bağımsız olarak görev yürütebilen bir yapay zeka olarak, kullanıcının talimat verdiği işleri yerine getiren ilk ajanlardan biridir
- Tekrarlayan tarayıcı görevlerini (ör. form doldurma, market siparişi verme, meme oluşturma vb.) üstlenerek zamandan tasarruf sağlamayı amaçlar
- Öncelikle ABD'de yaşayan Pro kullanıcılarına sunuluyor; ileride Plus, Team, Enterprise sürümlerine genişlemesi ve ChatGPT içine entegre edilmesi mümkün olabilir
Operator nasıl çalışır
- Yeni bir model olan Computer-Using Agent (CUA) temel alınmıştır
- GPT-4o'nun görsel yetenekleriyle pekiştirmeli öğrenme tabanlı gelişmiş akıl yürütmeyi birleştirerek GUI (düğmeler, menüler, metin alanları vb.) etkileşimini mümkün kılar
- Ekran görüntüleri üzerinden tarayıcı ekranını “görür”, fare ve klavyeyle işlem yaparak görevleri yerine getirebilir
- İşlem sırasında hata veya engellerle karşılaşırsa kendi kendini düzelten akıl yürütmeyi kullanır ya da gerekirse kontrolü kullanıcıya devreden işbirlikçi bir yaklaşım benimser
- WebArena, WebVoyager gibi tarayıcı kullanım kıyaslamalarında yüksek performans gösteriyor; ayrıntılar araştırma blogunda görülebilir
Nasıl kullanılır
- İstenen işi kısaca açıklamanız yeterlidir; Operator ilgili görevi otomatik olarak yürütür
- Kullanıcı dilediği anda tarayıcı kontrolünü doğrudan geri alabilir
- Oturum açma, ödeme bilgisi girme, CAPTCHA çözme gibi hassas adımlarda Operator doğrudan işlem yapmaz; bunların kullanıcı tarafından tamamlanması gerekir
- Site bazında veya tüm siteler için yapılacak ayarlarla kullanıcı tercihleri yansıtılabilir
- Sık kullanılan istemleri kaydederek sık yapılan işleri (ör. Instacart'ta yeniden market siparişi verme gibi) hızlıca çalıştırmak mümkündür
- Birden fazla sekme gibi aynı anda birden çok işi yürütebilir; farklı görevler ayrı konuşma oturumlarıyla paralel sürdürülebilir
Ekosistem ve kullanıcılar
- Operator, yapay zekayı yalnızca bir araç olmaktan çıkarıp dijital ekosistemin etkin bir katılımcısına dönüştürüyor
- DoorDash, Instacart, OpenTable, Priceline, StubHub, Thumbtack, Uber gibi şirketlerle işbirliği yaparak gerçek kullanıcı ihtiyaçlarını ve sektör standartlarını yansıtıyor
- Kamu tarafında da iş verimliliği ve erişilebilirliği artırmak için uygulama olasılığı değerlendiriliyor; örneğin City of Stockton ile belediye idari hizmetlerinde kullanım yolları araştırılıyor
- Instacart Chief Product Officer'ı Daniel Danker, Operator üzerinden kolay sipariş sürecine ilişkin olumlu değerlendirmede bulundu
Güvenlik ve gizlilik
- Operator, güvenliği en yüksek öncelik olarak ele alıyor ve üç katmanlı güvenlik önlemleri sunuyor
- Kullanıcı odaklı kontrol: Hassas bilgilerin (oturum açma, ödeme vb.) girilmesi gerektiğinde Operator
takeover isteyerek bilgilerin kullanıcı tarafından doğrudan girilmesini sağlar
- Kritik işlem öncesi onay: Sipariş gönderme, e-posta yollama gibi önemli işlemlerden önce kullanıcı onayı ister
- Görev kısıtlaması: Bankacılık işlemleri veya işe alımla ilgili kararlar gibi hassasiyeti yüksek görevlerde Operator'un reddetmesi için eğitim verilmiştir
- Hassas sitelere erişimde Watch modu üzerinden kullanıcı, Operator'un davranışını doğrudan izleyebilir
- Veri gizliliği yönetim özellikleri sunulur
Improve the model for everyone devre dışı bırakılırsa Operator verileri de model eğitiminde kullanılmaz
- Ayarlar içindeki Privacy bölümünden tarama verilerini silme, tüm sitelerden çıkış yapma, konuşma geçmişini silme gibi işlemler kolayca yapılabilir
- Operator'u kötü amaçlı web sitelerinden korumak için savunma mekanizmaları da uygulanmıştır
- Gizli prompt'ları, zararlı kodları ve phishing girişimlerini tespit edip yok sayacak şekilde tasarlanmıştır
- Özel bir izleme modeli şüpheli davranışları gerçek zamanlı olarak denetler ve gerekirse görevi durdurur
- Otomasyon ve insan incelemesiyle yeni tehditler tespit edildiğinde güvenlik önlemleri hızla güncellenir
- Teknolojinin zararlı amaçlarla kötüye kullanılmasını önlemek için Operator belirli istekleri reddeder; politika ihlallerinin tekrarlanması durumunda uyarı veya erişim engeli uygulanabilir
- Hâlâ araştırma önizlemesi aşamasında olduğundan kusursuz değildir ve gerçek kullanım geri bildirimleriyle sürekli iyileştirilecektir
Sınırlamalar
- Operator şu anda erken aşamadadır ve slayt gösterisi hazırlama ya da takvim yönetimi gibi karmaşık arayüz görevlerinde zorlanabilir
- Kullanıcı geri bildirimleri, doğruluk, kararlılık ve güvenliği iyileştirmek için önemli bir kaynak olarak kullanılacaktır
Gelecek planları
- CUA için bir API sunulması planlanıyor; böylece geliştiriciler kendi ajanlarını oluşturabilecekleri bir temel elde edecek
- Uzun süreli işler ve karmaşık iş akışlarını işleme yeteneği güçlendirilerek Operator'un işlevleri daha da geliştirilecek
- Pro kullanıcılarının ötesinde Plus, Team, Enterprise gibi katmanlara kademeli olarak genişletilecek ve uzun vadede özelliğin ChatGPT'ye entegre edilerek gerçek zamanlı ve eşzamansız görev yürütmeyi desteklemesi planlanıyor
1 yorum
Hacker News görüşleri
Birçok kişi, OpenAI gibi şirketlerin kişisel asistan sunmak için para harcamadığını; bunun yerine ileride iş gücü maliyetlerini azaltmak için yapay zekayı eğittiğini düşünüyor
OpenAI Operator’un çıkışıyla ilgili görüşler karışık
Operator, birkaç ay önceki Claude Computer Use demosuna benziyor; VM çalıştırmayı gerektiren bir mimariye sahip ve hataya açık olma eğilimi var
Operator’un güvenlik riskleri ve azaltma yöntemlerine ilişkin slaytta "kullanıcı yanlış hizalanmış" ifadesi yer alıyor
Meme yapmak gibi işler için 50 milyar dolar harcanmasına eleştirel yaklaşan görüşler var
CogAgent: Çin’den gelen açık kaynaklı bir alternatif
Gelecekte ürünler ve modeller yeterince gelişirse, ChatGPT ile konuşarak akşam yemeği rezervasyonu, uçuş rezervasyonu, market alışverişi gibi web’deki sıkıcı işleri halletmenin mümkün olacağı beklentisi var
Instacart veya Doordash gibi şirketlerin, LLM’ler için pazarlama optimizasyonu üzerinden yeni bir UI yönü açabileceği düşünülüyor
Bir "ajanın" fare ve klavye kullanıp piksellere bakarak çalışması kulağa garip geliyor
Ajanlar için Open APIs kullanımının gerekli olduğuna güçlü biçimde inanılıyor