- Google, Gemini 2.5 Pro tabanlı Computer Use modelini tanıttı; geliştiricilerin kullanıcı arayüzünü doğrudan kontrol eden ajanlar oluşturmasını destekliyor
- Web ve mobil kontrol benchmark'larında rakip modellerden daha hızlı ve daha doğru performans gösteriyor; Google AI Studio ve Vertex AI üzerinden önizleme olarak kullanılabiliyor
- Model, ekran görüntüsü, kullanıcı isteği ve eylem geçmişini girdi olarak alıp tıklama, yazı girişi ve kaydırma gibi UI kontrol komutlarını otomatik üretiyor
- Güvenliği sağlamak için Per-step Safety Service ve kullanıcı onay süreci içeriyor; böylece kötüye kullanımın ve güvenlik tehditlerinin önüne geçiliyor
- Şimdiden Project Mariner, Firebase Testing Agent, AI Mode in Search gibi alanlarda uygulanarak üretim düzeyinde otomasyon ve test verimliliği iyileştirmelerini kanıtladı
Genel Bakış
- Google DeepMind, Gemini 2.5 Computer Use modelini kullanıma sundu
- Gemini 2.5 Pro'nun görsel anlama ve akıl yürütme yeteneklerini temel alan, web ve mobil UI'yi doğrudan kontrol edebilen bir ajan modeli
- Mevcut API tabanlı otomasyonun ötesine geçerek form doldurma, kaydırma, giriş yapma gibi grafik arayüz etkileşimlerini gerçekleştiriyor
- Google AI Studio ve Vertex AI üzerinden önizleme olarak sunuluyor
Nasıl çalışıyor
- Yeni
computer_use aracı üzerinden tekrarlayan döngü yapısıyla çalışıyor
- Girdi: kullanıcı isteği, mevcut UI'nin ekran görüntüsü, son eylem geçmişi
- Çıktı: tıklama, yazı girişi, sürükleme gibi UI eylem fonksiyonu çağrıları
- Bazı yüksek riskli işlemler (ör. ödeme) için kullanıcı onay süreci gerekiyor
- Her eylemden sonra yeni ekran görüntüsü ve URL modele yeniden iletilerek bir sonraki adım yürütülüyor
- Ağırlıklı olarak web tarayıcısı ortamına optimize edilmiş olsa da mobil UI kontrolünde de yüksek performans gösteriyor
Performans
- Browserbase ve Google'ın kendi değerlendirmelerinde sektör lideri doğruluk ve gecikme süresi değerleri kaydedildi
- Online-Mind2Web gibi benchmark'larda rakip modellere kıyasla %50'den fazla daha hızlı tepki veriyor
- Karmaşık ekran içi bağlamı anlama doğruluğu da iyileştirilerek %18 performans artışı bildirildi
- UI kontrol görevleri sırasında başarısızlık durumlarını otomatik olarak toparlama özelliği de içeriyor; bu da test otomasyonu için yararlı
Güvenlik tasarımı
- Ajanın kötüye kullanımını önlemek için modele yerleşik güvenlik özellikleri eklendi
- Per-step Safety Service: modelin önerdiği eylemleri yürütmeden önce doğrular
- System Instructions: belirli görevler (güvenlik, sağlık, CAPTCHA vb.) için kullanıcı onayı veya reddi kuralları tanımlanabiliyor
- Geliştirici rehberinde ek güvenlik önerileri sunuluyor; gerçek hizmette kullanmadan önce kapsamlı test yapılması tavsiye ediliyor
İlk kullanım örnekleri
- Google iç ekipleri bunu UI test otomasyonu için kullanmaya başladı; hata oranı %25 azaldı
- Project Mariner, Firebase Testing Agent, AI Mode in Search gibi gerçek üretim ortamlarında hâlihazırda kullanılıyor
- Dış erken kullanıcı değerlendirmelerinde de veri ayrıştırma güvenilirliğinde artış ve çalışma hızında iyileşme etkisi bildirildi
- Örnek: Autotab, karmaşık bağlam işleme doğruluğunu %18 artırdı
- Google ödeme platformu, başarısız testlerin %60'ını otomatik olarak toparladı
Başlarken
- Model genel önizleme olarak sunuluyor ve şu kanallardan erişilebiliyor
- Geliştiriciler, GitHub referansı ve dokümantasyon üzerinden Playwright veya bulut VM ortamında ajan döngüsü kurabiliyor
- Geri bildirimler Developer Forum üzerinden toplanıyor
2 yorum
Hacker News görüşleri
Eskiden trafik ışığı olan iki şeritli bir yolda beklerken, ana yolda araç yoksa bilgisayarlı görü kamerası sistemiyle ışığı daha hızlı değiştirebileceğimi düşünmüştüm
Ama o zamanlar bilgisayarlı görü yeterince olgun değildi; onun yerine manyetik sensörlerle araç algılanabildiğini öğrenmiştim
Çok daha basit donanım ve yazılımla kolayca çözülebilecek bir problemdi ve benim düşündüğüm yöntem fazla karmaşık ve pahalı bir çözümdü
Bilgisayar kullanımı söz konusu olduğunda da ML/AI'nin yapılandırılmış veriler için optimize edilmesi gerektiğine inanıyordum
Ama dünya daha karmaşık hale geldi ve bilgisayarlar da hızlandı; artık AI'nın ekrana bakıp fareyi hareket ettirerek tıklaması daha gerçekçi bir durum
Artık bilgisayarlı görü kameraları yaygın olarak kullanılıyor
Manyetik sensörler bisikletlileri iyi algılamadığı için bugünlerde kameralar daha çok tercih ediliyor
Şehir trafik yetkilileri açısından kameralar sıkışıklık izleme aracı olarak da kullanılabildiğinden giderek daha popüler hale geliyor
Bizim bölgede geceleri trafik ışıklarına basit bir ışık sensörü eklenmiş; yaklaşırken uzun farları açınca ışık değişiyor
Aksi halde ana yola bütün gece yeşil yanacak şekilde tasarlanmıştı
Araç kavşağa geldiğinde ışık sadece uzun far sinyaliyle ya da manyetik akıyla değişiyordu
Sık sık bisiklete binerim; dışarıdayken podcast dinlerken "Hey Google, 30 saniye geri sar" deyip bir şeyi yeniden duymak ya da reklam atlamak çok kullanışlı oluyor
İçeride ise çoğunlukla TV programlarını veya YouTube videolarını cast ederek izliyorum
Bazen YouTube videosunu değiştirmek istiyorum ama sesli komutlarla YouTube zar zor çalışıyor ve sonuçlar pek iyi değil
Diğer servislerde ise sesli komut neredeyse hiç mümkün değil
İdeal bir dünyada Google bunun gibi entegrasyonlar için harika bir API sunar ve tüm uygulamalar bunu iyi şekilde desteklerdi
Eğer o süreci atlayıp yine de harika sonuçlar alınabiliyorsa, bu benim için çok değerli bir deneyim olur
Belki sadece bana özgü bir senaryodur ama gerçekten heyecan verici buluyorum
Bilgisayar kullanımı, AI'nın işgücü piyasası üzerindeki etkisini öngörürken en önemli benchmark
ML/AI'nin bilgisayar üzerindeki çeşitli görevleri verimli biçimde yerine getirmesi için daha iyi birçok yöntem var
Ancak bu yöntemlerin her biri her görev için ayrı ayrı tasarlanmak zorunda
Asıl daha ölçeklenebilir yön, genelleştirilmiş yaklaşım
Bilginize, bu tür trafik kameraları zaten yaygın biçimde kullanılıyor
https://www.milesight.com/company/blog/types-of-traffic-cameras
Uzun süre, tekrar eden manuel işleri otomatikleştirmek için "dünyadaki her şeyi veritabanı nesnesine dönüştürelim" yaklaşımına odaklandım
Bilgisayarların en az insan müdahalesiyle sayısız işi yapabileceğini düşünüyordum
Makine öğrenmesine de çok emek verdim
Ama aslında ekran tamponu gibi yarı yapılandırılmış insan dünyası verilerini olduğu gibi kullanıp, bilgisayarı fare ve klavye ile insanlar gibi çalıştırabileceği aklıma gelmemişti
Elbette bu fikri tamamen destekliyorum
10 yıl içinde bilgisayarın Chrome'u açıp görüntülü görüşmede konuşarak işleri hallettiği ve karşı tarafın bunun bilgisayar olduğunu hiç fark etmediği bir döneme gelebileceğimizi düşünüyorum
AI'nın 'teorik olarak daha iyi' yöntemlerden daha başarılı olmasının nedeni, temelde 'sosyal' bir problemi çözmesi
Bilişim ekosistemi işbirlikçi olmaktan çok rekabetçi ve savunmacı bir ortam
Sıkıcı manuel işlerin çoğunu otomatikleştirmeyi engelleyecek şekilde tasarlanmış bu yapı, internette para kazanmanın özünde yer alıyor
Çünkü kullanıcılar otomasyon sayesinde satın alma yönlendirmelerini veya reklam gösterimlerini atlayabilirse gelir düşer
Robotikte de benzer bir tartışma vardı
"Neden özellikle robotları insan biçiminde yapalım, daha verimli biçimler mümkün değil mi?" diye çok soruluyordu
Ama sonuçta bir aracın yaygın biçimde benimsenmesi için, verimsiz olsa bile insan merkezli ortama uyacak şekilde tasarlanması gerekiyor
Performans odaklı uygulamalarda özel tasarım ve optimizasyon şart, ama kitlesel yayılım için insana uyumlu yaklaşım gerekiyor
Sabah flört uygulamalarını düşünürken son nokta aklıma geldi
Eğer "benim chatgpt" beni yeterince iyi temsil edebilirse, flört uygulamalarında karşı tarafın chatgpt'siyle bir tür ön görüşme yaparak eşleşme sağlamak mümkün olabilir diye düşünüyorum
Yakın zamanda bir kurumsal keynote'ta "dijital ikiz" kavramından söz edildiğini duydum; sanırım bu da ona denk geliyor
Bu konuda hüküm vermek için henüz erken ama nereye kadar gideceğini merak ediyorum
Bilgisayarın doğrudan Chrome'u açıp görüntülü arama yaparak insan gibi görevleri yerine getirmesi ve karşı tarafın bunun bilgisayar olduğunu anlamaması gerçekten iyi bir sonuç mu, merak ediyorum
Teknik olarak inanılmaz ve etkileyici bir başarı olurdu ama bunda rahatsız edici bir yan var
Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) ile Gemini CLI içinde tarayıcı otomasyonunu başarıyla yaptım
Bu yüzden bu modelin daha iyi performans göstereceğini düşünüyorum
MCP ile hangi otomasyon işlerini başarıyla yaptığını merak ediyorum
Bu yaklaşımın bilgisayar kullanımı için gereken modelle hiçbir ilgisi yok
Sadece MCP sunucusundaki Google'ın sağladığı ön tanımlı araçları kullanıyor; herhangi bir yazılıma uygulanabilen genel amaçlı bir model değil
UX'ten daha hızlı gerçek kullanım örnekleri olan varsa duymak isterim
Bunu nasıl kullanmam gerektiğine dair pek fikrim yok
Bu kadar yatırım yapılıyor olmasına bakınca benim kaçırdığım bir şeyler olduğu kesin gibi geliyor
Teknoloji ve yeteneklerin kendisi etkileyici ama somut kullanım örneklerini merak ediyorum
Tarayıcı botuna bugünün Wordle'ını çözmesini söylersen, harf renklerindeki geri bildirimi (yeşil, sarı, gri) göremediği için doğru cevabı bulamıyor
Kelimeyi girebiliyor ama geri bildirimi yorumlayamıyor deniyor
Gemini, https://www.google.com/recaptcha/api2/demo üzerinde captcha'yı başarıyla geçti
Gönderiyi düzeltiyorum: Aslında yanlış görmüşüm; Google CAPTCHA çözümü Gemini tarafından değil, Browserbase tarafından yapılmış
Ayrıntılar burada anlatılıyor
Otomasyon Browserbase üzerinde çalışıyor ve Browserbase'in bir captcha solver'ı var
Bunun otomatik mi yoksa insan destekli mi olduğu net değil
Muhtemelen deneme Google'ın kendi ağındaki bir IP'den yapıldığı için geçti
(Sadece Browserbase demosunu denedim)
Teoride mümkün olduğunu bilmekle, kısa bir komut verince gerçekten siteye giriş yapıp kaydırma yaparak yorum bıraktığını kendi gözünle görmek tamamen farklı bir deneyim
Ben de bugünkü Wordle'da ikinci denemede aynı hatayı yapıp berabere kaldım
Görev sırasında onunla konuşamamak biraz hayal kırıklığı yarattı
Bu tür özelliklerin özellikle kurumsal sistemlerde governance için hook/callback gibi özelliklere mutlaka ihtiyacı var
UI tabanlı sistemlerde hook/ajan olay işleme çok daha zor
İlgili bağlantılar için claude code hook belgeleri, google adk callback belgeleri bakılabilir
Claude Code'un ne kadar sık hook'ları görmezden gelip hesaplamayı tamamladığını ve sonuçları kullanmadığını düşününce, 'governance' kavramının neredeyse imkansız olduğunu düşünüyorum
LLM'ler insanların sandığından daha öngörülemez ve kontrol edilmeleri çok daha zor
Test başarısızlığı nedeniyle "ilerlemeyin" diye açıkça işaretlenmiş olsa bile devam ettiğini gördüm
Sonuçta gerçekten engellenebilen tek şey, teoride gerçekten tehlikeli olan bir 'claude-killing' hook gibi görünüyor
Browserbase'de identity ürününden sorumluyum
Son zamanlarda tüm web'e RBAC (rol tabanlı erişim kontrolü) getiren bir yaklaşım üzerine düşünüyorum
Callback'lerin buna yardımcı olup olmayacağını merak ediyorum
"OS düzeyi kontrol henüz optimize değil" sözünü görünce AGI'nin henüz gelmediğini düşündüm
Eğer bu seviyede bir OS kontrolü mümkün olursa ve LLM kullanım maliyeti de makul olursa, AGI'ye yakın bir şeyin başlangıcını görebiliriz diye düşünüyorum
İlginç olan şu ki, çoğu insan da bilgisayarı düzgün kullanamıyor
'Zeka' kavramını tanımlamanın gerçekten imkansız olduğu hissine kapılıyorum
Neden tüm OS üzerinde kontrolün AGI'ye doğru atılmış bir adım olacağını düşündüğünü merak ediyorum
İronik biçimde çoğu teknoloji şirketi, kullanıcıyı gereksiz bilgilerden geçirmek zorlayarak para kazanıyor
Örneğin internette reklamsız ve özgürce gezebilseydin ya da Twitter'da gereksiz algoritmalar olmadan sadece görmek istediğin içerikleri görebilseydin, kim bunu kullanmak istemezdi ki?