3 puan yazan GN⁺ 2025-07-18 | 1 yorum | WhatsApp'ta paylaş
  • ChatGPT ajanı, kendi sanal bilgisayarını kullanarak kullanıcının karmaşık görevlerini baştan sona yerine getirir
  • Operator'ın web sitesiyle etkileşim yeteneği ile derin araştırmanın bilgi analiz performansını birleştiren yeni bir ajansal sistem kurarak tıklama, giriş ve kod çalıştırma gibi işlemleri esnek biçimde yürütür
  • Kullanıcılar, ajana form gönderme, rezervasyon, dosya oluşturma gibi işleri kendi adına yapmasını söyleyebilir ve diledikleri anda sürece müdahale edebilir
  • SpreadsheetBench, DSBench, BrowseComp gibi çeşitli gerçek dünya benchmark'larında mevcut modellere kıyasla üstün performans gösterdi
  • Pro, Plus ve Team kullanıcıları bugünden itibaren kullanabilir; kullanıcı verisi kontrolü ve güvenlik özellikleri de titizlikle tasarlandı

ChatGPT ajanı, araştırma ile eylemi birleştiriyor

Ajan özelliğinin kullanıma sunulması

  • ChatGPT'nin, kendi sanal bilgisayarı üzerinden kullanıcı adına karmaşık görevleri yerine getirebilmesi için yetenekleri genişletildi
  • ChatGPT ajanı, Operator'ün (uzak tarayıcı tabanlı etkileşim) ve derin araştırmanın (çok adımlı web akıl yürütme aracı) analiz yeteneklerini tek bir ajan modelinde birleştiriyor
    • Operator, web üzerindeki işlemlerde (kaydırma, tıklama, form doldurma) güçlüydü; ancak derin analiz veya rapor yazımında sınırlamaları vardı
    • Buna karşılık derin araştırma, analiz ve özetlemede uzmanlaşmıştı; ancak gerçek zamanlı site etkileşimi ya da kimlik doğrulaması gerektiren içeriklere erişemiyordu
  • Bu iki aracın birbirini tamamlayan güçlü yönleri bir araya getirilerek tıklama, filtreleme ve veri toplama işlerinde tek bir ortamda yüksek verimlilik sağlanıyor
  • Sohbet arayüzü içinde konuşma ile istekler arasında esnek geçiş yapılabiliyor
  • Örnekler:
    • “Üç rakibi analiz et ve bir slayt gösterisi hazırla”
    • “Son haberlere göre bir sonraki toplantımı özetle”

Nasıl çalışıyor ve etkileşim modeli

  • ChatGPT ajanı; GUI tabanlı görsel tarayıcı, metin tabanlı tarayıcı ve doğrudan API bağlantısı gibi çeşitli web erişim araçlarıyla geliyor
  • Sistem, görev yürütülürken tarayıcı, API ve metin tabanlı akıl yürütme gibi araçları duruma göre birleştirerek en uygun yolu dinamik olarak seçiyor
  • Web sitelerinde tıklama, filtreleme, giriş yönlendirmesi, kod çalıştırma, sonuç özetleme ve slayt oluşturma gibi uçtan uca görevleri yerine getiriyor
  • Kullanıcı, görev sırasında istediği an müdahale edebilir ve tarayıcı kontrolünü doğrudan devralabilir
    • İstediği anda ek yönerge verme, görevin yönünü değiştirme, durdurma ve o ana kadarki sonucu isteme gibi müdahaleler mümkün
    • Devam eden görevler istenildiği anda durdurulup yeniden başlatılabilir; bağlam paylaşımı sayesinde tutarlılık korunur
    • Belirsizlik olduğunda ChatGPT, proaktif şekilde ek bilgi ister
  • Kullanıcı giriş doğrulama süreci sayesinde kurumsal veya kişisel verilere de güvenli şekilde erişilebilir

Güçlü performans ve kullanım örnekleri

  • Saygın benchmark'larda mevcut modellere kıyasla üstün skorlar elde etti
    • Humanity’s Last Exam: uzman düzeyindeki sorularda 43.1 puan
    • DSBench: veri bilimi görevlerinde önceki modellere karşı ezici üstünlük
    • SpreadsheetBench:
      • .xlsx elektronik tablolarını doğrudan düzenlemede %45.5, GPT‑4o (%13.38) ve Excel Copilot'u (%20) açık farkla geride bıraktı
    • WebArena: gerçek web etkileşimi görevlerinde de önceki Operator modelini geçti
    • BrowseComp: bulunması zor web bilgilerini toplama becerisinde 68.9 puanla en iyi sonucu aldı
  • Yatırım bankacılığı analisti görevleri ve karmaşık veri analizlerinde de önceki araçlara göre daha doğru ve kapsamlı sonuçlar üretiyor
  • Gerçek iş akışlarında ve günlük otomasyonda yüksek kullanım değeri sunuyor
    • İş tarafında:
      • otomatik sunum oluşturma
      • toplantı takvimi düzenleme
      • finansal verilere dayalı elektronik tablo güncelleme
    • Günlük yaşamda:
      • seyahat planlama ve rezervasyon
      • etkinlik planlama ve uzman danışmanlık bağlantısı kurma

Etkinleştirme, kullanım şekli ve sınırlamalar

  • 'Ajan modu' seçildikten sonra, herhangi bir görevi Türkçe/İngilizce anlatarak otomatik yürütmeyi başlatmak mümkün
  • Süreç boyunca ekran anlatımı sunuluyor; gerekirse manuel kontrol sağlanabiliyor
  • Tekrarlayan işlerin otomatik planlanması ve aylık görev sayısı sınırı gibi esnek bir kredi sistemi sunuluyor
  • Mevcut Operator/derin araştırma kullanıcıları, 30 günden kısa bir geçiş sürecinin ardından ajan deneyimine entegre edilecek
  • Slayt gösterisi oluşturma gibi bazı yeni özellikler beta aşamasında; çıktı kalitesi ve tamamlanmışlık düzeyi ileride iyileştirilecek

Güvenlik, gizlilik ve kötüye kullanımın önlenmesi

  • Gerçek dünyada değişiklik yaratan işlemlerden önce mutlaka kullanıcının açık onayı ve eylem izni isteniyor
  • Yakın gözetim gerektiren hassas görevlerde adım adım onay gerekiyor; yüksek riskli işlemler ve hukuki etkileşimler reddediliyor
  • Prompt injection gibi üçüncü taraf kötü niyetli saldırılara karşı algılama ve savunma sistemi tasarlandı; durum net değilse risk açıklanıyor, seçenekler sunuluyor ve son kullanıcı onayından sonra işlem yapılıyor
  • Kötüye kullanımı önlemek için mevcut ChatGPT güvenlik politikaları daha derin şekilde uygulanıyor; OpenAI kullanım şartları ve politikaları zorunlu olarak geçerli
  • Gizliliği güçlendirmek amacıyla uzak tarayıcı verileri kendi sunucularında saklanmıyor
  • Kullanıcının tarama verileri ve oturum kontrolü tamamen kullanıcıya ait; anında silme veya çıkış yapma mümkün
  • Doğrudan kontrol modunda ChatGPT kişisel giriş bilgilerini göremez

Ajanın dağıtımı, politikalar ve kullanım bilgileri

  • Pro, Plus ve Team aboneleri hemen kullanabilir; kurumsal/eğitim kullanıcılarına ise Temmuz içinde sunulması planlanıyor
  • Pro için neredeyse sınırsız kullanım, diğer planlar için ise aylık 50 kullanım + ek kredi sistemi uygulanıyor
  • Her kullanıcının iş akışları ve bağlayıcıları entegre edilerek salt okunur bilgi özeti, takvim analizi gibi pek çok alanda kullanılabiliyor
  • Operator araştırma önizlemesi 30 gün sonra sona erecek; derin araştırma ise gerektiğinde ayrı olarak etkinleştirilebilecek
  • ChatGPT ajanı sürekli geliştiriliyor; derin ve esnek iş akışı zekâsı ile çıktı kalitesinin kademeli olarak artması bekleniyor

Slayt gösterisi özelliği ve gelecek yönelim

  • Slayt gösterisi oluşturma şu anda beta aşamasında; mevcut belgeler dahil edilmezse kalite ve biçim açısından eksiklikler olabilir
  • Metin, grafik ve görsel gibi öğeler, kolayca düzenlenebilen vektörler hâlinde yapılandırılarak daha iyi yapı ve esneklik sağlanıyor
  • Yükleme özelliği elektronik tablolarda kullanılabiliyor, ancak slayt gösterileri için daha sonra sunulacak
  • İleride daha çeşitli işlevler, biçimler ve rafine çıktı desteğiyle otomasyon yeteneğinin artması bekleniyor

Diğer performans karşılaştırmaları ve ölçütler

Model Hücre bazlı Sayfa bazlı Toplam puan
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPT ajanı 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
İnsan 75.56% 65.00% 71.33%
  • Performans benchmark tablosuna göre, ChatGPT ajanı .xlsx ortamı işleme ve LibreOffice değerlendirmesinde insan seviyesine ulaşmasa da yapay zeka modelleri arasında açık ara önde
  • Değerlendirme ortamlarındaki farklar nedeniyle bazı sayısal sapmalar olabilir; ancak toplam 912 elektronik tablo değerlendirme sorusunda genel yetkinliğini kanıtlıyor

1 yorum

 
GN⁺ 2025-07-18
Hacker News yorumu
  • "Elektronik tablo" örnek videosunun eğlenceli olduğunu düşünüyorum. Genelde karmaşık ve veri yoğun bir rapor hazırlamanın 4-8 saat sürdüğü söyleniyor; artık ajana isteği verip yürüyüşe çıkıp döndüğünüzde veriyi hazır alabileceğiniz anlatılıyor. Sonucun %98’i doğru yansıtılmış ve yalnızca birkaç şeyi kopyala/yapıştır yapmak yeterli deniyor. Bunun zamanın %90-95’ini tasarruf ettirdiğini düşünüyorum. Ama o %2’lik hatayı bulmanın gerçekten zaman alabileceğini hissediyorum. Özellikle karmaşık işler ya da paranın söz konusu olduğu işlerde "neredeyse doğru" olmak büyük bir baş ağrısına dönüşebilir. O %2’lik ince hatalar çok adımlı sürecin içinde saklıysa gerçekten sorun olur diye düşünüyorum

    • Bence bu tam da yapay zekaya yönelik aşırı beklenti tuzağına düşmenin bir örneği. Veri toplama ve doğrulamayı otomatikleştirmek iyi bir kullanım alanı. Ama mesele, yapay zekanın tüm işi devralması yönünde aşırı düşünülüyor. %98 doğru denildiğinde, elektronik tablo deneyimi olan herkesin temkinli olması gerekir. Çünkü hangi %2’nin yanlış olduğunu, her şeyi bizzat gözden geçirmeden bilmek zor. Kodda da aynı durum geçerli; yapay zeka yardımını uygun şekilde kullanıp kendi incelemesini yapan kişinin sonucu daha iyi oluyor. Buna karşılık, yalnızca prompt’u tekrar tekrar deneyip testleri geçirttikten sonra hemen PR açmak bence ciddi sorunlara yol açıyor
    • Yapay zeka dünyasında o %2’yi önemsiz görmek neredeyse toplu hipnoz gibi geliyor. Örneğin "düğmeye basmak: 1 dolar, hangi düğmeye basılacağını bilmek: 9.999 dolar" benzetmesindeki gibi, o %2’lik düzeltme gerçekte muazzam değere sahip olabilir diye düşünüyorum. Onu bulmak da kalan %98 kadar zaman alıyor
    • Bence bu tür durumlarda Pareto ilkesi işliyor. Komşu alanlardan biri olan otonom araçlarda da son %20’lik tamamlama aşaması yıllardır aşılamıyor. Bir dönem otonom sürüş her tartışmanın merkezindeydi; şimdi ise neredeyse kimsenin bundan söz etmemesi ilginç geliyor
    • Bu, LLM’leri hassasiyet gerektiren işlerde kullandığınızda yaşanan aynı sorun. Çok adımlı veri pipeline’ları gibi işlerde, dışarıdan kusursuz görünse de gerçek veriyi doğrulayınca bir şeyler kayıyor. Sonunda da aşırı uzun kodun içine dalıp küçük ama önemli birkaç sorunu bulmak, en baştan kendiniz yazmak kadar zaman ve emek gerektiriyor
  • Güvenlik tehdidi gerçekten ürkütücü geliyor. Örneğin e-posta ve takvime erişim izni verirseniz tüm sırlarınızı öğrenebilir. Yazıda da prompt injection riskinin kabul edildiği görülüyor. Kötü niyetli bir web sayfası görünmeyen öğelere ya da metadata’ya prompt gizlerse ve ajan bunu fark etmezse, kişisel veriler saldırgana sızabilir. Kötü amaçlı bir web sitesinin sırlarımı çekip alabileceğini düşünüyorum. Merak ettiğim bir şey şu: Yazıda önemli eylemlerden önce mutlaka kullanıcı onayı alındığı söyleniyor, ama yapay zekanın "önemli eylem"i nasıl belirlediğini anlamıyorum. Kullanıcı onayı olmadan yanlışlıkla ödeme yapması gibi bir şey yaşanmaz mı diye endişeleniyorum

    • Takvim davetiyesi üzerinden prompt injection saldırısının neredeyse kesin çıkacağını düşünüyorum. Takvim davetleri zaten bol miktarda otomatik üretilmiş cümle içeriyor ve kimse bunların tamamını okumuyor; dolayısıyla saldırı kodu sıkıştırmak çok kolay. Böylece kurbanın takvimi ve diğer kişisel verileri de topluca ele geçirilebilir
    • BT’de zaten özel-genel ayrımıyla bilgi işlem dünyasını bölen çok kişi var; bence bundan sonra bunların arasında bir ara katman gerekecek. Örneğin hassas olmayan anonimleştirilmiş takvim, sorun yaratmayacak günlükler, araştırma notları gibi orta riskli veri sınıfları düşünülmeli. Ben ChatGPT’yi tıbbi ya da hassas danışmanlık türü şeyler için kullanmıyorum. Bunu kullanan çok kişi olduğunu duyuyorum ama hâlâ içimde bir tedirginlik var
    • Neredeyse herkes başkasının takvimine de davet gönderebilir (tabii herkes her daveti kabul etmez). Bu tür ajanlar yaygınlaşırsa, hacker’lar açıkça istedikleri prompt’ları içeren phishing davetiyeleri dağıtmaya başlayacaktır
    • Verilerime erişim izni verip aynı anda "korkuyorum" demeyi pek hayal edemiyorum. En fazla kaygılanırsınız, ama korku başka bir seviye
    • Anthropic’in ölçümünde GPT-4.1’in simüle edilmiş şantaj oranı %0,8’di
      Agentic misalignment ile ilgili araştırma
      Güvenilen bir iş arkadaşının bir anda şirket politikasına ters hareket eden iç tehdit benzeri bir yapıda çalışabileceği analiz ediliyor
  • Sanırım doğrudan ajan işi kurduğum için, %90’dan %99’a gitmenin LLM alanında son derece zor bir last-mile problemi olduğu çok net görünüyor. Ne kadar genel amaçlıysa, başarısızlık ya da hayal kırıklığı da o kadar büyük oluyor. Gerçekte demoda kolay görünen kısımlar optimize ediliyor, rahatsız edici gerçekler ise gizleniyor gibi geliyor. Ama bu, ajanların değersiz olduğu anlamına gelmiyor; sadece potansiyel etkiyle abartılmış beklentiyi ayırt ederek bakmak gerektiğini düşünüyorum

    • Son dönemdeki yapay zeka "inovasyonları" sağlam bilimsel başarılar ve araştırmalardan çıktı
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        Ama "ajan"ın sadece bir pazarlama terimi olduğunu ve LLM kadar genel amaçlı kullanılabilecek temelden yoksun olduğunu düşünüyorum. Bu konuda veri de neredeyse yok
    • Bunun outsourcing ile aynı sorunu doğurduğunu hissediyorum. %90’ı hızla bitiyor ama kalan %10 gerçekten zor ve öncesindeki %90’ın nasıl yapıldığına bağlı
    • Bence birçok şirket demoda sadece happy path’i gösterip gerçek dünyayı gizliyor. Bugünlerde neredeyse tüm yapay zeka şirketleri böyle davranıyor
    • Bugünlerde RL ile yeterince gerçek kullanım verisi toplayıp eğitirseniz doğruluğu artırabileceğinizi düşünüyorum. Yalnızca prompt’larla bir sınır var; belirli görevleri öğretir gibi yaklaşırsanız çok daha iyi hale geliyor. Bir diğer umut verici yöntem de paralel üretim sonrası çoğunluk oyu ya da LLM’in hakemlik yapması. Ama sonuçta Silikon Vadisi’nde hype çok güçlü işliyor. Hype şirket büyümesini sürüklüyor, bu yüzden bu atmosferin yakın zamanda değişeceğini sanmıyorum
    • Demonun tamamlanmışlık seviyesi de yüksek değildi. Hatta Sam Altman’ın yer aldığı canlı sohbet videosunda bile beyzbol sahası tur planlayıcısı rastgele çizgiler çizip doğu kıyısını tamamen yok sayarak Meksika Körfezi’ne dalıyordu; tam bir karmaşaydı. Önceden kaydedilmiş videoyu canlı diye oynatmalarına rağmen kalite ancak buydu
  • Mevcut CLI ajanlarında oturumu sürdürememe sorunu büyüktü; bu kez bu kısmın iyi çözüldüğü görünüyor. Eskiden yerel terminalde claude code çalıştırınca gereken bağlamı kolayca ekleyebiliyordunuz ama dizüstü bilgisayarı kapatıp bağlantı kesildiğinde her şey duruyordu.
    Geçici çözüm olarak MacOS’ta Amphetamine ile cihazın kapağı kapalıyken bile sürecin çalışmasını sürdürdüm ama ısınma ve pil israfı sorunu vardı. Bir başka yöntem de bir cloud instance’a repo kopyalayıp tmux üzerinden bağlanarak claude çalıştırmaktı. Yine de UX açısından bağlamı yüklemenin zorluğu hep kalıyordu. Sandbox sayesinde belli ölçüde güvenlik de beklenebilir, ayrıca belirli hesap yetkileriyle çalıştırma yöntemi de var.
    OpenAI’nin geliştirici olmayanların da kullanabileceği bir Agent UX’i üzerine düşündüğünü görmek ilginç

    • Lightning.ai ücretsiz, sadece CPU içeren geliştirme kutuları veriyor; Claude code’u orada çalıştırıyorum
    • Araya girip müdahale etmeden birkaç dakikadan uzun süren görevler çalıştırıyorum
    • En iyisi, kopmayan bir sunucuda geliştirme işi yapmak
  • OpenAI operator’ı uzun süre kullandım ama son zamanlarda LinkedIn ve Amazon’da engelleniyor. Bu iki site, iş başvurusu ve alışveriş gibi temel kullanım alanlarıydı. Operator nispeten dikkat çekmeden kullanılıyordu ama Agent tanındıkça daha fazla sitenin engelleyeceğini düşünüyorum. Sonunda proxy yapılandırması desteği gerekecek gibi görünüyor

    • Bence asıl kilit sorun bu. Bunun yerelde doğrudan çalıştırılacağını ya da en azından proxy yapılandırmanın bir yolunun sunulacağını sanmıştım ama buna dair hiçbir şey söylenmedi. Deepseek R1 distill deneyiminde de ara sonuçları ya da birikimi paylaşırken ihtiyatlı davranılması muhtemelen etkili oldu. İlk operator döneminde bile veri merkezi IP erişimini engelleyen çok site vardı; biraz manuel proxy hack’i ekleyerek zar zor test ettik ama sonunda kısıtlar daha da arttı ve performans iyileşmedi. Şimdi neredeyse işe yaramaz hale geldiğini hissediyorum. Sonuçta eastdakota gibi yerlerle ortaklık kurulmadıkça sunucudan doğrudan web’de gezinme girişimlerinin çok anlamlı olmayacağını düşünüyorum. Genel "bilgisayar kullanımı"nın çoğunda yerel dosya/yazılım çok daha kullanışlı ve ironik biçimde uzak ajanların yaptığı iş de sonuçta CLI tabanlı oluyor
    • Bu Silikon Vadisi tarzı bir strateji: ürünü önce pazara at, sonra yan etkilerini topla. Yakında OpenAI’nin LinkedIn ve Amazon’la ortaklık kurmasını bekliyorum. Hatta LinkedIn, OpenAI üzerinden erişim için yeni bir ücretli katman ekleyebilir diye düşünüyorum
    • İnsanlar gerçekten Agent ya da operator ile fiziksel ürün sipariş etmeye başlarsa, Amazon gibi sitelerin engeli sürdürmesi için bir neden kalmayacağını düşünüyorum
    • Benzer bir araç geliştirdim; residential proxy üzerinde masaüstü çalıştırınca çoğu engel aşılabiliyor.
      agenttutor.com
    • agents’in robots.txt’ye uyma alışkanlığı yakında sona erecek gibi görünüyor. Kullanıcılar tarayıcı eklentisi ya da tam tarayıcı kurup bunu kendi çerezleri ve IP’leriyle çalıştırma yönüne gidecek gibi
  • AI 2027 ekibinin öngörüsünde: 2025’in ortasında “tökezleyen ajanlar” ortaya çıkıyor. İlk yapay zeka ajanı kamuya açılıyor.
    Bilgisayarı sizin yerinize kullanan kişisel asistan tipi ajan reklamları çoğalıyor. "DoorDash’ten burrito sipariş et", "bütçe elektronik tablomda bu ayın toplamını söyle" gibi prompt kullanımı vurgulanıyor. Önceki operator’den daha gelişmiş olsa da geniş kitlelere yayılmasının zor olacağı öngörülüyor

    • Yalnızca 4 ay sonrasını tahmin etmek çok da etkileyici değil
    • AI 2027’nin asıl noktası, teknolojik büyümenin üstel hızlanacağı tahmini. "Ajan"ın mevcut OpenAI teknolojilerinin yeni bir frontend içinde sunulması olduğunu düşünüyorum. 2026’nın başına gelmeden bunu sağlıklı değerlendirmek zor olacak gibi
    • Rapor yazıldığı sırada büyük şirketlerin agent ürünleri geliştirdiği zaten açıkça bilinen bir şeydi. Devrim niteliğinde bir öngörüden çok sağduyulu bir çıkarım gibi
  • Hâlâ istediğim basit özellik, yani proje içi belge düzenleme özelliği sunulmuyor. Ben proje bazında çok sayıda belge işi yapıyorum (makale, araştırma, senaryo vb.). Cümle cümle ChatGPT yardımı alarak çalışmayı sürdürmek istiyorum. Hatta yürüyüşteyken "az önce üzerinde çalıştığım belgede nereye kadar gelmiştik? Son iki paragrafı oku... buradan itibaren biraz daha uzun yazacağım" gibi ses-belge etkileşimini hayal ediyorum. Kodlama desteği göz kamaştırıcı hızla ilerlerken yazının hâlâ büyük ölçüde kopyala-yapıştır düzeyinde kalması üzücü

    • Sürekli panoya kopyalamak gerçekten çoğu zaman yorucu oluyor. Bu yüzden ChatGPT’yi açmak bile zahmetli geliyor ve kullanmaya üşeniyorum. NLE ya da eklenti ve timecode iş akışına alışınca, çalışma akışının bölünmesi daha da rahatsız edici oluyor
    • Aider, ücretsiz modellerle bile aslında uzun süredir buna benzer şeyleri yapabiliyordu. Ama büyük servislerde bu, ücretli olsa bile sunulmuyor. Bazen bunu sunan bir servis kurmayı düşünüyorum ama yakında büyük şirketlerden biri yapar diye boşuna uğraşmaktan vazgeçiyorum
  • LLM’ye VPS vermeye yönelik denemeler çok oldu ama OpenAI’nin bu uygulamasında UI gerçekten çok güçlü görünüyor. Metin overlay’leri, okunması kolay fare hareketleri ve özelleştirilmiş UI sayesinde kullanıcı yapılan işi ve nedenini tek bakışta anlayabiliyor. OpenAI UI ekibinin ürün düşüncesi gerçekten çok iyi. LLM kullanımına yeni bir görsel katman eklemeleri ilginç ve bunun bazı kısımlarını kişisel projelerimde örnek almak istiyorum.
    İşlev olarak Claude+XFCE’den büyük bir fark hissetmiyorum ama görsel olgunluk açısından OpenAI’yi daha kullanışlı buluyorum. Buna karşılık önceki uygulamalar okunabilirlikte çok zorlayıcıydı

  • Bugünkü seviyedeki ajanların gerçek hayatımda gerçekten işe yarar hale geldiğini hayal etmek zor. Eşimle bir date night planlamak için takvimi kontrol etmek, sevdiğimiz restoranları önermek, çocuk bakıcısı ayarlamak gibi pek çok işi doğru yapmak ve dolayısıyla güven vermek gerekiyor. Bu teknolojinin giderek gelişmesi heyecan verici ama şimdilik sadece demolarda ikna edici göründüğünü düşünüyorum. Gerçek kullanım için çok büyük sistem entegrasyonları lazım ve Apple ya da Microsoft gibi bu tür entegrasyon gücüne sahip şirketler olursa gerçekten faydalı ajanlar çıkabilir diye umuyorum

    • Muhtemelen "eyleme karar vermenin temel dersi" şu: Hayattaki zor görevler aslında bilgi işlemden çok değerler ve insan ilişkilerinin karmaşıklığı yüzünden zor. Örneğin restoran rezervasyonu yapmak kolay, ama o gün hangi restoranın seçileceği gerçekten zor bir mesele. LLM, geçmişteki ilk buluşma mekanını hatırlıyor mu, eşimin son suşide gıda zehirlenmesi yaşadığını biliyor mu gibi aşırı kişisel ayrıntıları yakalayamıyor. Hatta insan concierge’ler için bile bu zor.
      Kızımın doğum günü partisini planlamak gibi bir görevin, matematikte zor bir problemi çözmekten önce çözülecek bir şey olduğunu sanmıyorum
    • Bu tür ajanların avantajı, zaten çok meşgul insanların kişisel asistan kullanmasına benzer ama çok daha ucuz olması. Bir asistanın "şu bakıcı ya da şu restoran nasıl, rezervasyon yapayım mı?" diye konuşması gibi, tek bir arayüz üzerinden doğal şekilde istekte bulunmak zihinsel olarak çok daha az yük bindiriyor. "Evet, rezerve et" demeniz yeterli oluyor.
      Bana göre ajanların "tek seferde tam icra" modeli UX açısından ters. İnsanları bir sürü uygulama arasında dolaştırmak yerine, basit ve asenkron biçimde gereken parçaları sohbet eder gibi gidip gelerek halletmek, bunun hayata gerçekten karışmasının anahtarı
    • Aslında agents dediğimiz şey çekirdek sohbet modeli + sistem prompt’u + yanıt ayrıştırma ve eylem yürütme + sonucu bir sonraki prompt’a koyma + modele eylem listesini anlatmadan ibaret. Temel bir devrim değil ve kendiniz yapmak da kolay. Bence asıl mesele wrapper ve sistem talimatlarının tasarımı. Örneğin takvim, konum geçmişi ve çocuk bakıcısı rezervasyonunu birleştiren rehberli bir sohbet kurulursa otomasyon mümkün olur
    • Gerçekten ideal "kişisel ajan" tam olarak böyle bir şey olurdu diye düşünüyorum. Apple’ın geçen yıl WWDC’de vaat ettiği şey tam da buydu, o yüzden hayal kırıklığı da büyüktü. Pixel 9 Pro’da Gemini’yi denesem bile bu düzeyde entegrasyona daha çok uzak. Her şeyden önemlisi, güven hâlâ büyük bir engel. LLM’ler yanlış cevapları fazla özgüvenle verdiği için, benim yerime mesaj göndermesi ya da takvime kimi ekleyeceğini yanlış anlaması düşüncesi kaygı veriyor; bu yüzden bunların tümünü tamamen otonom şekilde bırakmak istemiyorum
    • Özellikle seyahat alanında bilgi toplama ve karşılaştırma için yararlı ama benim şu anki konumum, saat, hava durumu, rezervasyon/ödeme gibi gerçek zamanlı kişiselleştirilmiş diyaloglarda hâlâ rahatsız edici derecede yetersiz. Gelecekte gerçekten kişisel (veya grup odaklı) seyahat asistanına dönüşürse harika olur
  • Gerçekten etkileyici olan şey, gerçek hesap bilgilerine ve hassas verilere erişim izni verildiğinde doğan risklerin güçlü biçimde vurgulanmasıydı

    • Bu yorumun ancak bu kadar aşağıda çıkması bile şaşırtıcı. Sanırım ABD dışında yaşayan biri olarak bakış açım farklı