Gemini 2.5 Computer Use modeli tanıtıldı - Arayüzü doğrudan kontrol eden ajanlar için yapay zeka

(blog.google)

4 puan yazan GN⁺ 2025-10-08 | 2 yorum | WhatsApp'ta paylaş

Google, Gemini 2.5 Pro tabanlı Computer Use modelini tanıttı; geliştiricilerin kullanıcı arayüzünü doğrudan kontrol eden ajanlar oluşturmasını destekliyor
Web ve mobil kontrol benchmark'larında rakip modellerden daha hızlı ve daha doğru performans gösteriyor; Google AI Studio ve Vertex AI üzerinden önizleme olarak kullanılabiliyor
Model, ekran görüntüsü, kullanıcı isteği ve eylem geçmişini girdi olarak alıp tıklama, yazı girişi ve kaydırma gibi UI kontrol komutlarını otomatik üretiyor
Güvenliği sağlamak için Per-step Safety Service ve kullanıcı onay süreci içeriyor; böylece kötüye kullanımın ve güvenlik tehditlerinin önüne geçiliyor
Şimdiden Project Mariner, Firebase Testing Agent, AI Mode in Search gibi alanlarda uygulanarak üretim düzeyinde otomasyon ve test verimliliği iyileştirmelerini kanıtladı

Genel Bakış

Google DeepMind, Gemini 2.5 Computer Use modelini kullanıma sundu
- Gemini 2.5 Pro'nun görsel anlama ve akıl yürütme yeteneklerini temel alan, web ve mobil UI'yi doğrudan kontrol edebilen bir ajan modeli
- Mevcut API tabanlı otomasyonun ötesine geçerek form doldurma, kaydırma, giriş yapma gibi grafik arayüz etkileşimlerini gerçekleştiriyor
- Google AI Studio ve Vertex AI üzerinden önizleme olarak sunuluyor

Nasıl çalışıyor

Yeni computer_use aracı üzerinden tekrarlayan döngü yapısıyla çalışıyor
- Girdi: kullanıcı isteği, mevcut UI'nin ekran görüntüsü, son eylem geçmişi
- Çıktı: tıklama, yazı girişi, sürükleme gibi UI eylem fonksiyonu çağrıları
- Bazı yüksek riskli işlemler (ör. ödeme) için kullanıcı onay süreci gerekiyor
Her eylemden sonra yeni ekran görüntüsü ve URL modele yeniden iletilerek bir sonraki adım yürütülüyor
Ağırlıklı olarak web tarayıcısı ortamına optimize edilmiş olsa da mobil UI kontrolünde de yüksek performans gösteriyor

Performans

Browserbase ve Google'ın kendi değerlendirmelerinde sektör lideri doğruluk ve gecikme süresi değerleri kaydedildi
- Online-Mind2Web gibi benchmark'larda rakip modellere kıyasla %50'den fazla daha hızlı tepki veriyor
- Karmaşık ekran içi bağlamı anlama doğruluğu da iyileştirilerek %18 performans artışı bildirildi
UI kontrol görevleri sırasında başarısızlık durumlarını otomatik olarak toparlama özelliği de içeriyor; bu da test otomasyonu için yararlı

Güvenlik tasarımı

Ajanın kötüye kullanımını önlemek için modele yerleşik güvenlik özellikleri eklendi
- Per-step Safety Service: modelin önerdiği eylemleri yürütmeden önce doğrular
- System Instructions: belirli görevler (güvenlik, sağlık, CAPTCHA vb.) için kullanıcı onayı veya reddi kuralları tanımlanabiliyor
Geliştirici rehberinde ek güvenlik önerileri sunuluyor; gerçek hizmette kullanmadan önce kapsamlı test yapılması tavsiye ediliyor

İlk kullanım örnekleri

Google iç ekipleri bunu UI test otomasyonu için kullanmaya başladı; hata oranı %25 azaldı
Project Mariner, Firebase Testing Agent, AI Mode in Search gibi gerçek üretim ortamlarında hâlihazırda kullanılıyor
Dış erken kullanıcı değerlendirmelerinde de veri ayrıştırma güvenilirliğinde artış ve çalışma hızında iyileşme etkisi bildirildi
- Örnek: Autotab, karmaşık bağlam işleme doğruluğunu %18 artırdı
- Google ödeme platformu, başarısız testlerin %60'ını otomatik olarak toparladı

Başlarken

Model genel önizleme olarak sunuluyor ve şu kanallardan erişilebiliyor
- Google AI Studio
- Vertex AI
- Browserbase demo ortamı üzerinden gerçek zamanlı test yapılabiliyor
Geliştiriciler, GitHub referansı ve dokümantasyon üzerinden Playwright veya bulut VM ortamında ajan döngüsü kurabiliyor
Geri bildirimler Developer Forum üzerinden toplanıyor

2 yorum

GN⁺ 2025-10-08

Hacker News görüşleri

Eskiden trafik ışığı olan iki şeritli bir yolda beklerken, ana yolda araç yoksa bilgisayarlı görü kamerası sistemiyle ışığı daha hızlı değiştirebileceğimi düşünmüştüm
Ama o zamanlar bilgisayarlı görü yeterince olgun değildi; onun yerine manyetik sensörlerle araç algılanabildiğini öğrenmiştim
Çok daha basit donanım ve yazılımla kolayca çözülebilecek bir problemdi ve benim düşündüğüm yöntem fazla karmaşık ve pahalı bir çözümdü
Bilgisayar kullanımı söz konusu olduğunda da ML/AI'nin yapılandırılmış veriler için optimize edilmesi gerektiğine inanıyordum
Ama dünya daha karmaşık hale geldi ve bilgisayarlar da hızlandı; artık AI'nın ekrana bakıp fareyi hareket ettirerek tıklaması daha gerçekçi bir durum
- Artık bilgisayarlı görü kameraları yaygın olarak kullanılıyor
  Manyetik sensörler bisikletlileri iyi algılamadığı için bugünlerde kameralar daha çok tercih ediliyor
  Şehir trafik yetkilileri açısından kameralar sıkışıklık izleme aracı olarak da kullanılabildiğinden giderek daha popüler hale geliyor
- Bizim bölgede geceleri trafik ışıklarına basit bir ışık sensörü eklenmiş; yaklaşırken uzun farları açınca ışık değişiyor
  Aksi halde ana yola bütün gece yeşil yanacak şekilde tasarlanmıştı
  Araç kavşağa geldiğinde ışık sadece uzun far sinyaliyle ya da manyetik akıyla değişiyordu
- Sık sık bisiklete binerim; dışarıdayken podcast dinlerken "Hey Google, 30 saniye geri sar" deyip bir şeyi yeniden duymak ya da reklam atlamak çok kullanışlı oluyor
  İçeride ise çoğunlukla TV programlarını veya YouTube videolarını cast ederek izliyorum
  Bazen YouTube videosunu değiştirmek istiyorum ama sesli komutlarla YouTube zar zor çalışıyor ve sonuçlar pek iyi değil
  Diğer servislerde ise sesli komut neredeyse hiç mümkün değil
  İdeal bir dünyada Google bunun gibi entegrasyonlar için harika bir API sunar ve tüm uygulamalar bunu iyi şekilde desteklerdi
  Eğer o süreci atlayıp yine de harika sonuçlar alınabiliyorsa, bu benim için çok değerli bir deneyim olur
  Belki sadece bana özgü bir senaryodur ama gerçekten heyecan verici buluyorum
- Bilgisayar kullanımı, AI'nın işgücü piyasası üzerindeki etkisini öngörürken en önemli benchmark
  ML/AI'nin bilgisayar üzerindeki çeşitli görevleri verimli biçimde yerine getirmesi için daha iyi birçok yöntem var
  Ancak bu yöntemlerin her biri her görev için ayrı ayrı tasarlanmak zorunda
  Asıl daha ölçeklenebilir yön, genelleştirilmiş yaklaşım
- Bilginize, bu tür trafik kameraları zaten yaygın biçimde kullanılıyor
  https://www.milesight.com/company/blog/types-of-traffic-cameras
Uzun süre, tekrar eden manuel işleri otomatikleştirmek için "dünyadaki her şeyi veritabanı nesnesine dönüştürelim" yaklaşımına odaklandım
Bilgisayarların en az insan müdahalesiyle sayısız işi yapabileceğini düşünüyordum
Makine öğrenmesine de çok emek verdim
Ama aslında ekran tamponu gibi yarı yapılandırılmış insan dünyası verilerini olduğu gibi kullanıp, bilgisayarı fare ve klavye ile insanlar gibi çalıştırabileceği aklıma gelmemişti
Elbette bu fikri tamamen destekliyorum
10 yıl içinde bilgisayarın Chrome'u açıp görüntülü görüşmede konuşarak işleri hallettiği ve karşı tarafın bunun bilgisayar olduğunu hiç fark etmediği bir döneme gelebileceğimizi düşünüyorum
- AI'nın 'teorik olarak daha iyi' yöntemlerden daha başarılı olmasının nedeni, temelde 'sosyal' bir problemi çözmesi
  Bilişim ekosistemi işbirlikçi olmaktan çok rekabetçi ve savunmacı bir ortam
  Sıkıcı manuel işlerin çoğunu otomatikleştirmeyi engelleyecek şekilde tasarlanmış bu yapı, internette para kazanmanın özünde yer alıyor
  Çünkü kullanıcılar otomasyon sayesinde satın alma yönlendirmelerini veya reklam gösterimlerini atlayabilirse gelir düşer
- Robotikte de benzer bir tartışma vardı
  "Neden özellikle robotları insan biçiminde yapalım, daha verimli biçimler mümkün değil mi?" diye çok soruluyordu
  Ama sonuçta bir aracın yaygın biçimde benimsenmesi için, verimsiz olsa bile insan merkezli ortama uyacak şekilde tasarlanması gerekiyor
  Performans odaklı uygulamalarda özel tasarım ve optimizasyon şart, ama kitlesel yayılım için insana uyumlu yaklaşım gerekiyor
- Sabah flört uygulamalarını düşünürken son nokta aklıma geldi
  Eğer "benim chatgpt" beni yeterince iyi temsil edebilirse, flört uygulamalarında karşı tarafın chatgpt'siyle bir tür ön görüşme yaparak eşleşme sağlamak mümkün olabilir diye düşünüyorum
  Yakın zamanda bir kurumsal keynote'ta "dijital ikiz" kavramından söz edildiğini duydum; sanırım bu da ona denk geliyor
  Bu konuda hüküm vermek için henüz erken ama nereye kadar gideceğini merak ediyorum
- Bilgisayarın doğrudan Chrome'u açıp görüntülü arama yaparak insan gibi görevleri yerine getirmesi ve karşı tarafın bunun bilgisayar olduğunu anlamaması gerçekten iyi bir sonuç mu, merak ediyorum
  Teknik olarak inanılmaz ve etkileyici bir başarı olurdu ama bunda rahatsız edici bir yan var
Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) ile Gemini CLI içinde tarayıcı otomasyonunu başarıyla yaptım
Bu yüzden bu modelin daha iyi performans göstereceğini düşünüyorum
- MCP ile hangi otomasyon işlerini başarıyla yaptığını merak ediyorum
- Bu yaklaşımın bilgisayar kullanımı için gereken modelle hiçbir ilgisi yok
  Sadece MCP sunucusundaki Google'ın sağladığı ön tanımlı araçları kullanıyor; herhangi bir yazılıma uygulanabilen genel amaçlı bir model değil
UX'ten daha hızlı gerçek kullanım örnekleri olan varsa duymak isterim
Bunu nasıl kullanmam gerektiğine dair pek fikrim yok
Bu kadar yatırım yapılıyor olmasına bakınca benim kaçırdığım bir şeyler olduğu kesin gibi geliyor
Teknoloji ve yeteneklerin kendisi etkileyici ama somut kullanım örneklerini merak ediyorum
Tarayıcı botuna bugünün Wordle'ını çözmesini söylersen, harf renklerindeki geri bildirimi (yeşil, sarı, gri) göremediği için doğru cevabı bulamıyor
Kelimeyi girebiliyor ama geri bildirimi yorumlayamıyor deniyor
- Acaba siyah beyaz ekranla mı internette geziyor diye merak ettim
Gemini, https://www.google.com/recaptcha/api2/demo üzerinde captcha'yı başarıyla geçti
- Gönderiyi düzeltiyorum: Aslında yanlış görmüşüm; Google CAPTCHA çözümü Gemini tarafından değil, Browserbase tarafından yapılmış
  Ayrıntılar burada anlatılıyor
- Otomasyon Browserbase üzerinde çalışıyor ve Browserbase'in bir captcha solver'ı var
  Bunun otomatik mi yoksa insan destekli mi olduğu net değil
- Muhtemelen deneme Google'ın kendi ağındaki bir IP'den yapıldığı için geçti
(Sadece Browserbase demosunu denedim)
Teoride mümkün olduğunu bilmekle, kısa bir komut verince gerçekten siteye giriş yapıp kaydırma yaparak yorum bıraktığını kendi gözünle görmek tamamen farklı bir deneyim
Ben de bugünkü Wordle'da ikinci denemede aynı hatayı yapıp berabere kaldım
Görev sırasında onunla konuşamamak biraz hayal kırıklığı yarattı
Bu tür özelliklerin özellikle kurumsal sistemlerde governance için hook/callback gibi özelliklere mutlaka ihtiyacı var
UI tabanlı sistemlerde hook/ajan olay işleme çok daha zor
İlgili bağlantılar için claude code hook belgeleri, google adk callback belgeleri bakılabilir
- Claude Code'un ne kadar sık hook'ları görmezden gelip hesaplamayı tamamladığını ve sonuçları kullanmadığını düşününce, 'governance' kavramının neredeyse imkansız olduğunu düşünüyorum
  LLM'ler insanların sandığından daha öngörülemez ve kontrol edilmeleri çok daha zor
  Test başarısızlığı nedeniyle "ilerlemeyin" diye açıkça işaretlenmiş olsa bile devam ettiğini gördüm
  Sonuçta gerçekten engellenebilen tek şey, teoride gerçekten tehlikeli olan bir 'claude-killing' hook gibi görünüyor
- Browserbase'de identity ürününden sorumluyum
  Son zamanlarda tüm web'e RBAC (rol tabanlı erişim kontrolü) getiren bir yaklaşım üzerine düşünüyorum
  Callback'lerin buna yardımcı olup olmayacağını merak ediyorum
"OS düzeyi kontrol henüz optimize değil" sözünü görünce AGI'nin henüz gelmediğini düşündüm
Eğer bu seviyede bir OS kontrolü mümkün olursa ve LLM kullanım maliyeti de makul olursa, AGI'ye yakın bir şeyin başlangıcını görebiliriz diye düşünüyorum
- İlginç olan şu ki, çoğu insan da bilgisayarı düzgün kullanamıyor
  'Zeka' kavramını tanımlamanın gerçekten imkansız olduğu hissine kapılıyorum
- Neden tüm OS üzerinde kontrolün AGI'ye doğru atılmış bir adım olacağını düşündüğünü merak ediyorum
İronik biçimde çoğu teknoloji şirketi, kullanıcıyı gereksiz bilgilerden geçirmek zorlayarak para kazanıyor
Örneğin internette reklamsız ve özgürce gezebilseydin ya da Twitter'da gereksiz algoritmalar olmadan sadece görmek istediğin içerikleri görebilseydin, kim bunu kullanmak istemezdi ki?

2025-10-09

[Bu yorum gizlendi.]

Gemini 2.5 Computer Use modeli tanıtıldı - Arayüzü doğrudan kontrol eden ajanlar için yapay zeka

Genel Bakış

Nasıl çalışıyor

Performans

Güvenlik tasarımı

İlk kullanım örnekleri

Başlarken

İlgili okumalar

2 yorum

Hacker News görüşleri