- ChatGPT ajanı, kendi sanal bilgisayarını kullanarak kullanıcının karmaşık görevlerini baştan sona yerine getirir
- Operator'ın web sitesiyle etkileşim yeteneği ile derin araştırmanın bilgi analiz performansını birleştiren yeni bir ajansal sistem kurarak tıklama, giriş ve kod çalıştırma gibi işlemleri esnek biçimde yürütür
- Kullanıcılar, ajana form gönderme, rezervasyon, dosya oluşturma gibi işleri kendi adına yapmasını söyleyebilir ve diledikleri anda sürece müdahale edebilir
- SpreadsheetBench, DSBench, BrowseComp gibi çeşitli gerçek dünya benchmark'larında mevcut modellere kıyasla üstün performans gösterdi
- Pro, Plus ve Team kullanıcıları bugünden itibaren kullanabilir; kullanıcı verisi kontrolü ve güvenlik özellikleri de titizlikle tasarlandı
ChatGPT ajanı, araştırma ile eylemi birleştiriyor
Ajan özelliğinin kullanıma sunulması
- ChatGPT'nin, kendi sanal bilgisayarı üzerinden kullanıcı adına karmaşık görevleri yerine getirebilmesi için yetenekleri genişletildi
- ChatGPT ajanı, Operator'ün (uzak tarayıcı tabanlı etkileşim) ve derin araştırmanın (çok adımlı web akıl yürütme aracı) analiz yeteneklerini tek bir ajan modelinde birleştiriyor
- Operator, web üzerindeki işlemlerde (kaydırma, tıklama, form doldurma) güçlüydü; ancak derin analiz veya rapor yazımında sınırlamaları vardı
- Buna karşılık derin araştırma, analiz ve özetlemede uzmanlaşmıştı; ancak gerçek zamanlı site etkileşimi ya da kimlik doğrulaması gerektiren içeriklere erişemiyordu
- Bu iki aracın birbirini tamamlayan güçlü yönleri bir araya getirilerek tıklama, filtreleme ve veri toplama işlerinde tek bir ortamda yüksek verimlilik sağlanıyor
- Sohbet arayüzü içinde konuşma ile istekler arasında esnek geçiş yapılabiliyor
- Örnekler:
- “Üç rakibi analiz et ve bir slayt gösterisi hazırla”
- “Son haberlere göre bir sonraki toplantımı özetle”
Nasıl çalışıyor ve etkileşim modeli
- ChatGPT ajanı; GUI tabanlı görsel tarayıcı, metin tabanlı tarayıcı ve doğrudan API bağlantısı gibi çeşitli web erişim araçlarıyla geliyor
- Sistem, görev yürütülürken tarayıcı, API ve metin tabanlı akıl yürütme gibi araçları duruma göre birleştirerek en uygun yolu dinamik olarak seçiyor
- Web sitelerinde tıklama, filtreleme, giriş yönlendirmesi, kod çalıştırma, sonuç özetleme ve slayt oluşturma gibi uçtan uca görevleri yerine getiriyor
- Kullanıcı, görev sırasında istediği an müdahale edebilir ve tarayıcı kontrolünü doğrudan devralabilir
- İstediği anda ek yönerge verme, görevin yönünü değiştirme, durdurma ve o ana kadarki sonucu isteme gibi müdahaleler mümkün
- Devam eden görevler istenildiği anda durdurulup yeniden başlatılabilir; bağlam paylaşımı sayesinde tutarlılık korunur
- Belirsizlik olduğunda ChatGPT, proaktif şekilde ek bilgi ister
- Kullanıcı giriş doğrulama süreci sayesinde kurumsal veya kişisel verilere de güvenli şekilde erişilebilir
Güçlü performans ve kullanım örnekleri
- Saygın benchmark'larda mevcut modellere kıyasla üstün skorlar elde etti
- Humanity’s Last Exam: uzman düzeyindeki sorularda 43.1 puan
- DSBench: veri bilimi görevlerinde önceki modellere karşı ezici üstünlük
- SpreadsheetBench:
.xlsx elektronik tablolarını doğrudan düzenlemede %45.5, GPT‑4o (%13.38) ve Excel Copilot'u (%20) açık farkla geride bıraktı
- WebArena: gerçek web etkileşimi görevlerinde de önceki Operator modelini geçti
- BrowseComp: bulunması zor web bilgilerini toplama becerisinde 68.9 puanla en iyi sonucu aldı
- Yatırım bankacılığı analisti görevleri ve karmaşık veri analizlerinde de önceki araçlara göre daha doğru ve kapsamlı sonuçlar üretiyor
- Gerçek iş akışlarında ve günlük otomasyonda yüksek kullanım değeri sunuyor
- İş tarafında:
- otomatik sunum oluşturma
- toplantı takvimi düzenleme
- finansal verilere dayalı elektronik tablo güncelleme
- Günlük yaşamda:
- seyahat planlama ve rezervasyon
- etkinlik planlama ve uzman danışmanlık bağlantısı kurma
Etkinleştirme, kullanım şekli ve sınırlamalar
- 'Ajan modu' seçildikten sonra, herhangi bir görevi Türkçe/İngilizce anlatarak otomatik yürütmeyi başlatmak mümkün
- Süreç boyunca ekran anlatımı sunuluyor; gerekirse manuel kontrol sağlanabiliyor
- Tekrarlayan işlerin otomatik planlanması ve aylık görev sayısı sınırı gibi esnek bir kredi sistemi sunuluyor
- Mevcut Operator/derin araştırma kullanıcıları, 30 günden kısa bir geçiş sürecinin ardından ajan deneyimine entegre edilecek
- Slayt gösterisi oluşturma gibi bazı yeni özellikler beta aşamasında; çıktı kalitesi ve tamamlanmışlık düzeyi ileride iyileştirilecek
Güvenlik, gizlilik ve kötüye kullanımın önlenmesi
- Gerçek dünyada değişiklik yaratan işlemlerden önce mutlaka kullanıcının açık onayı ve eylem izni isteniyor
- Yakın gözetim gerektiren hassas görevlerde adım adım onay gerekiyor; yüksek riskli işlemler ve hukuki etkileşimler reddediliyor
- Prompt injection gibi üçüncü taraf kötü niyetli saldırılara karşı algılama ve savunma sistemi tasarlandı; durum net değilse risk açıklanıyor, seçenekler sunuluyor ve son kullanıcı onayından sonra işlem yapılıyor
- Kötüye kullanımı önlemek için mevcut ChatGPT güvenlik politikaları daha derin şekilde uygulanıyor; OpenAI kullanım şartları ve politikaları zorunlu olarak geçerli
- Gizliliği güçlendirmek amacıyla uzak tarayıcı verileri kendi sunucularında saklanmıyor
- Kullanıcının tarama verileri ve oturum kontrolü tamamen kullanıcıya ait; anında silme veya çıkış yapma mümkün
- Doğrudan kontrol modunda ChatGPT kişisel giriş bilgilerini göremez
Ajanın dağıtımı, politikalar ve kullanım bilgileri
- Pro, Plus ve Team aboneleri hemen kullanabilir; kurumsal/eğitim kullanıcılarına ise Temmuz içinde sunulması planlanıyor
- Pro için neredeyse sınırsız kullanım, diğer planlar için ise aylık 50 kullanım + ek kredi sistemi uygulanıyor
- Her kullanıcının iş akışları ve bağlayıcıları entegre edilerek salt okunur bilgi özeti, takvim analizi gibi pek çok alanda kullanılabiliyor
- Operator araştırma önizlemesi 30 gün sonra sona erecek; derin araştırma ise gerektiğinde ayrı olarak etkinleştirilebilecek
- ChatGPT ajanı sürekli geliştiriliyor; derin ve esnek iş akışı zekâsı ile çıktı kalitesinin kademeli olarak artması bekleniyor
Slayt gösterisi özelliği ve gelecek yönelim
- Slayt gösterisi oluşturma şu anda beta aşamasında; mevcut belgeler dahil edilmezse kalite ve biçim açısından eksiklikler olabilir
- Metin, grafik ve görsel gibi öğeler, kolayca düzenlenebilen vektörler hâlinde yapılandırılarak daha iyi yapı ve esneklik sağlanıyor
- Yükleme özelliği elektronik tablolarda kullanılabiliyor, ancak slayt gösterileri için daha sonra sunulacak
- İleride daha çeşitli işlevler, biçimler ve rafine çıktı desteğiyle otomasyon yeteneğinin artması bekleniyor
Diğer performans karşılaştırmaları ve ölçütler
| Model |
Hücre bazlı |
Sayfa bazlı |
Toplam puan |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPT ajanı |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| İnsan |
75.56% |
65.00% |
71.33% |
- Performans benchmark tablosuna göre, ChatGPT ajanı
.xlsx ortamı işleme ve LibreOffice değerlendirmesinde insan seviyesine ulaşmasa da yapay zeka modelleri arasında açık ara önde
- Değerlendirme ortamlarındaki farklar nedeniyle bazı sayısal sapmalar olabilir; ancak toplam 912 elektronik tablo değerlendirme sorusunda genel yetkinliğini kanıtlıyor
1 yorum
Hacker News yorumu
"Elektronik tablo" örnek videosunun eğlenceli olduğunu düşünüyorum. Genelde karmaşık ve veri yoğun bir rapor hazırlamanın 4-8 saat sürdüğü söyleniyor; artık ajana isteği verip yürüyüşe çıkıp döndüğünüzde veriyi hazır alabileceğiniz anlatılıyor. Sonucun %98’i doğru yansıtılmış ve yalnızca birkaç şeyi kopyala/yapıştır yapmak yeterli deniyor. Bunun zamanın %90-95’ini tasarruf ettirdiğini düşünüyorum. Ama o %2’lik hatayı bulmanın gerçekten zaman alabileceğini hissediyorum. Özellikle karmaşık işler ya da paranın söz konusu olduğu işlerde "neredeyse doğru" olmak büyük bir baş ağrısına dönüşebilir. O %2’lik ince hatalar çok adımlı sürecin içinde saklıysa gerçekten sorun olur diye düşünüyorum
Güvenlik tehdidi gerçekten ürkütücü geliyor. Örneğin e-posta ve takvime erişim izni verirseniz tüm sırlarınızı öğrenebilir. Yazıda da prompt injection riskinin kabul edildiği görülüyor. Kötü niyetli bir web sayfası görünmeyen öğelere ya da metadata’ya prompt gizlerse ve ajan bunu fark etmezse, kişisel veriler saldırgana sızabilir. Kötü amaçlı bir web sitesinin sırlarımı çekip alabileceğini düşünüyorum. Merak ettiğim bir şey şu: Yazıda önemli eylemlerden önce mutlaka kullanıcı onayı alındığı söyleniyor, ama yapay zekanın "önemli eylem"i nasıl belirlediğini anlamıyorum. Kullanıcı onayı olmadan yanlışlıkla ödeme yapması gibi bir şey yaşanmaz mı diye endişeleniyorum
Agentic misalignment ile ilgili araştırma
Güvenilen bir iş arkadaşının bir anda şirket politikasına ters hareket eden iç tehdit benzeri bir yapıda çalışabileceği analiz ediliyor
Sanırım doğrudan ajan işi kurduğum için, %90’dan %99’a gitmenin LLM alanında son derece zor bir last-mile problemi olduğu çok net görünüyor. Ne kadar genel amaçlıysa, başarısızlık ya da hayal kırıklığı da o kadar büyük oluyor. Gerçekte demoda kolay görünen kısımlar optimize ediliyor, rahatsız edici gerçekler ise gizleniyor gibi geliyor. Ama bu, ajanların değersiz olduğu anlamına gelmiyor; sadece potansiyel etkiyle abartılmış beklentiyi ayırt ederek bakmak gerektiğini düşünüyorum
Ama "ajan"ın sadece bir pazarlama terimi olduğunu ve LLM kadar genel amaçlı kullanılabilecek temelden yoksun olduğunu düşünüyorum. Bu konuda veri de neredeyse yok
Mevcut CLI ajanlarında oturumu sürdürememe sorunu büyüktü; bu kez bu kısmın iyi çözüldüğü görünüyor. Eskiden yerel terminalde claude code çalıştırınca gereken bağlamı kolayca ekleyebiliyordunuz ama dizüstü bilgisayarı kapatıp bağlantı kesildiğinde her şey duruyordu.
Geçici çözüm olarak MacOS’ta Amphetamine ile cihazın kapağı kapalıyken bile sürecin çalışmasını sürdürdüm ama ısınma ve pil israfı sorunu vardı. Bir başka yöntem de bir cloud instance’a repo kopyalayıp tmux üzerinden bağlanarak claude çalıştırmaktı. Yine de UX açısından bağlamı yüklemenin zorluğu hep kalıyordu. Sandbox sayesinde belli ölçüde güvenlik de beklenebilir, ayrıca belirli hesap yetkileriyle çalıştırma yöntemi de var.
OpenAI’nin geliştirici olmayanların da kullanabileceği bir Agent UX’i üzerine düşündüğünü görmek ilginç
OpenAI operator’ı uzun süre kullandım ama son zamanlarda LinkedIn ve Amazon’da engelleniyor. Bu iki site, iş başvurusu ve alışveriş gibi temel kullanım alanlarıydı. Operator nispeten dikkat çekmeden kullanılıyordu ama Agent tanındıkça daha fazla sitenin engelleyeceğini düşünüyorum. Sonunda proxy yapılandırması desteği gerekecek gibi görünüyor
agenttutor.com
AI 2027 ekibinin öngörüsünde: 2025’in ortasında “tökezleyen ajanlar” ortaya çıkıyor. İlk yapay zeka ajanı kamuya açılıyor.
Bilgisayarı sizin yerinize kullanan kişisel asistan tipi ajan reklamları çoğalıyor. "DoorDash’ten burrito sipariş et", "bütçe elektronik tablomda bu ayın toplamını söyle" gibi prompt kullanımı vurgulanıyor. Önceki operator’den daha gelişmiş olsa da geniş kitlelere yayılmasının zor olacağı öngörülüyor
Hâlâ istediğim basit özellik, yani proje içi belge düzenleme özelliği sunulmuyor. Ben proje bazında çok sayıda belge işi yapıyorum (makale, araştırma, senaryo vb.). Cümle cümle ChatGPT yardımı alarak çalışmayı sürdürmek istiyorum. Hatta yürüyüşteyken "az önce üzerinde çalıştığım belgede nereye kadar gelmiştik? Son iki paragrafı oku... buradan itibaren biraz daha uzun yazacağım" gibi ses-belge etkileşimini hayal ediyorum. Kodlama desteği göz kamaştırıcı hızla ilerlerken yazının hâlâ büyük ölçüde kopyala-yapıştır düzeyinde kalması üzücü
LLM’ye VPS vermeye yönelik denemeler çok oldu ama OpenAI’nin bu uygulamasında UI gerçekten çok güçlü görünüyor. Metin overlay’leri, okunması kolay fare hareketleri ve özelleştirilmiş UI sayesinde kullanıcı yapılan işi ve nedenini tek bakışta anlayabiliyor. OpenAI UI ekibinin ürün düşüncesi gerçekten çok iyi. LLM kullanımına yeni bir görsel katman eklemeleri ilginç ve bunun bazı kısımlarını kişisel projelerimde örnek almak istiyorum.
İşlev olarak Claude+XFCE’den büyük bir fark hissetmiyorum ama görsel olgunluk açısından OpenAI’yi daha kullanışlı buluyorum. Buna karşılık önceki uygulamalar okunabilirlikte çok zorlayıcıydı
Bugünkü seviyedeki ajanların gerçek hayatımda gerçekten işe yarar hale geldiğini hayal etmek zor. Eşimle bir date night planlamak için takvimi kontrol etmek, sevdiğimiz restoranları önermek, çocuk bakıcısı ayarlamak gibi pek çok işi doğru yapmak ve dolayısıyla güven vermek gerekiyor. Bu teknolojinin giderek gelişmesi heyecan verici ama şimdilik sadece demolarda ikna edici göründüğünü düşünüyorum. Gerçek kullanım için çok büyük sistem entegrasyonları lazım ve Apple ya da Microsoft gibi bu tür entegrasyon gücüne sahip şirketler olursa gerçekten faydalı ajanlar çıkabilir diye umuyorum
Kızımın doğum günü partisini planlamak gibi bir görevin, matematikte zor bir problemi çözmekten önce çözülecek bir şey olduğunu sanmıyorum
Bana göre ajanların "tek seferde tam icra" modeli UX açısından ters. İnsanları bir sürü uygulama arasında dolaştırmak yerine, basit ve asenkron biçimde gereken parçaları sohbet eder gibi gidip gelerek halletmek, bunun hayata gerçekten karışmasının anahtarı
Gerçekten etkileyici olan şey, gerçek hesap bilgilerine ve hassas verilere erişim izni verildiğinde doğan risklerin güçlü biçimde vurgulanmasıydı