4 puan yazan GN⁺ 2025-10-08 | 2 yorum | WhatsApp'ta paylaş
  • Google, Gemini 2.5 Pro tabanlı Computer Use modelini tanıttı; geliştiricilerin kullanıcı arayüzünü doğrudan kontrol eden ajanlar oluşturmasını destekliyor
  • Web ve mobil kontrol benchmark'larında rakip modellerden daha hızlı ve daha doğru performans gösteriyor; Google AI Studio ve Vertex AI üzerinden önizleme olarak kullanılabiliyor
  • Model, ekran görüntüsü, kullanıcı isteği ve eylem geçmişini girdi olarak alıp tıklama, yazı girişi ve kaydırma gibi UI kontrol komutlarını otomatik üretiyor
  • Güvenliği sağlamak için Per-step Safety Service ve kullanıcı onay süreci içeriyor; böylece kötüye kullanımın ve güvenlik tehditlerinin önüne geçiliyor
  • Şimdiden Project Mariner, Firebase Testing Agent, AI Mode in Search gibi alanlarda uygulanarak üretim düzeyinde otomasyon ve test verimliliği iyileştirmelerini kanıtladı

Genel Bakış

  • Google DeepMind, Gemini 2.5 Computer Use modelini kullanıma sundu
    • Gemini 2.5 Pro'nun görsel anlama ve akıl yürütme yeteneklerini temel alan, web ve mobil UI'yi doğrudan kontrol edebilen bir ajan modeli
    • Mevcut API tabanlı otomasyonun ötesine geçerek form doldurma, kaydırma, giriş yapma gibi grafik arayüz etkileşimlerini gerçekleştiriyor
    • Google AI Studio ve Vertex AI üzerinden önizleme olarak sunuluyor

Nasıl çalışıyor

  • Yeni computer_use aracı üzerinden tekrarlayan döngü yapısıyla çalışıyor
    • Girdi: kullanıcı isteği, mevcut UI'nin ekran görüntüsü, son eylem geçmişi
    • Çıktı: tıklama, yazı girişi, sürükleme gibi UI eylem fonksiyonu çağrıları
    • Bazı yüksek riskli işlemler (ör. ödeme) için kullanıcı onay süreci gerekiyor
  • Her eylemden sonra yeni ekran görüntüsü ve URL modele yeniden iletilerek bir sonraki adım yürütülüyor
  • Ağırlıklı olarak web tarayıcısı ortamına optimize edilmiş olsa da mobil UI kontrolünde de yüksek performans gösteriyor

Performans

  • Browserbase ve Google'ın kendi değerlendirmelerinde sektör lideri doğruluk ve gecikme süresi değerleri kaydedildi
    • Online-Mind2Web gibi benchmark'larda rakip modellere kıyasla %50'den fazla daha hızlı tepki veriyor
    • Karmaşık ekran içi bağlamı anlama doğruluğu da iyileştirilerek %18 performans artışı bildirildi
  • UI kontrol görevleri sırasında başarısızlık durumlarını otomatik olarak toparlama özelliği de içeriyor; bu da test otomasyonu için yararlı

Güvenlik tasarımı

  • Ajanın kötüye kullanımını önlemek için modele yerleşik güvenlik özellikleri eklendi
    • Per-step Safety Service: modelin önerdiği eylemleri yürütmeden önce doğrular
    • System Instructions: belirli görevler (güvenlik, sağlık, CAPTCHA vb.) için kullanıcı onayı veya reddi kuralları tanımlanabiliyor
  • Geliştirici rehberinde ek güvenlik önerileri sunuluyor; gerçek hizmette kullanmadan önce kapsamlı test yapılması tavsiye ediliyor

İlk kullanım örnekleri

  • Google iç ekipleri bunu UI test otomasyonu için kullanmaya başladı; hata oranı %25 azaldı
  • Project Mariner, Firebase Testing Agent, AI Mode in Search gibi gerçek üretim ortamlarında hâlihazırda kullanılıyor
  • Dış erken kullanıcı değerlendirmelerinde de veri ayrıştırma güvenilirliğinde artış ve çalışma hızında iyileşme etkisi bildirildi
    • Örnek: Autotab, karmaşık bağlam işleme doğruluğunu %18 artırdı
    • Google ödeme platformu, başarısız testlerin %60'ını otomatik olarak toparladı

Başlarken

2 yorum

 
GN⁺ 2025-10-08
Hacker News görüşleri
  • Eskiden trafik ışığı olan iki şeritli bir yolda beklerken, ana yolda araç yoksa bilgisayarlı görü kamerası sistemiyle ışığı daha hızlı değiştirebileceğimi düşünmüştüm
    Ama o zamanlar bilgisayarlı görü yeterince olgun değildi; onun yerine manyetik sensörlerle araç algılanabildiğini öğrenmiştim
    Çok daha basit donanım ve yazılımla kolayca çözülebilecek bir problemdi ve benim düşündüğüm yöntem fazla karmaşık ve pahalı bir çözümdü
    Bilgisayar kullanımı söz konusu olduğunda da ML/AI'nin yapılandırılmış veriler için optimize edilmesi gerektiğine inanıyordum
    Ama dünya daha karmaşık hale geldi ve bilgisayarlar da hızlandı; artık AI'nın ekrana bakıp fareyi hareket ettirerek tıklaması daha gerçekçi bir durum

    • Artık bilgisayarlı görü kameraları yaygın olarak kullanılıyor
      Manyetik sensörler bisikletlileri iyi algılamadığı için bugünlerde kameralar daha çok tercih ediliyor
      Şehir trafik yetkilileri açısından kameralar sıkışıklık izleme aracı olarak da kullanılabildiğinden giderek daha popüler hale geliyor

    • Bizim bölgede geceleri trafik ışıklarına basit bir ışık sensörü eklenmiş; yaklaşırken uzun farları açınca ışık değişiyor
      Aksi halde ana yola bütün gece yeşil yanacak şekilde tasarlanmıştı
      Araç kavşağa geldiğinde ışık sadece uzun far sinyaliyle ya da manyetik akıyla değişiyordu

    • Sık sık bisiklete binerim; dışarıdayken podcast dinlerken "Hey Google, 30 saniye geri sar" deyip bir şeyi yeniden duymak ya da reklam atlamak çok kullanışlı oluyor
      İçeride ise çoğunlukla TV programlarını veya YouTube videolarını cast ederek izliyorum
      Bazen YouTube videosunu değiştirmek istiyorum ama sesli komutlarla YouTube zar zor çalışıyor ve sonuçlar pek iyi değil
      Diğer servislerde ise sesli komut neredeyse hiç mümkün değil
      İdeal bir dünyada Google bunun gibi entegrasyonlar için harika bir API sunar ve tüm uygulamalar bunu iyi şekilde desteklerdi
      Eğer o süreci atlayıp yine de harika sonuçlar alınabiliyorsa, bu benim için çok değerli bir deneyim olur
      Belki sadece bana özgü bir senaryodur ama gerçekten heyecan verici buluyorum

    • Bilgisayar kullanımı, AI'nın işgücü piyasası üzerindeki etkisini öngörürken en önemli benchmark
      ML/AI'nin bilgisayar üzerindeki çeşitli görevleri verimli biçimde yerine getirmesi için daha iyi birçok yöntem var
      Ancak bu yöntemlerin her biri her görev için ayrı ayrı tasarlanmak zorunda
      Asıl daha ölçeklenebilir yön, genelleştirilmiş yaklaşım

    • Bilginize, bu tür trafik kameraları zaten yaygın biçimde kullanılıyor
      https://www.milesight.com/company/blog/types-of-traffic-cameras

  • Uzun süre, tekrar eden manuel işleri otomatikleştirmek için "dünyadaki her şeyi veritabanı nesnesine dönüştürelim" yaklaşımına odaklandım
    Bilgisayarların en az insan müdahalesiyle sayısız işi yapabileceğini düşünüyordum
    Makine öğrenmesine de çok emek verdim
    Ama aslında ekran tamponu gibi yarı yapılandırılmış insan dünyası verilerini olduğu gibi kullanıp, bilgisayarı fare ve klavye ile insanlar gibi çalıştırabileceği aklıma gelmemişti
    Elbette bu fikri tamamen destekliyorum
    10 yıl içinde bilgisayarın Chrome'u açıp görüntülü görüşmede konuşarak işleri hallettiği ve karşı tarafın bunun bilgisayar olduğunu hiç fark etmediği bir döneme gelebileceğimizi düşünüyorum

    • AI'nın 'teorik olarak daha iyi' yöntemlerden daha başarılı olmasının nedeni, temelde 'sosyal' bir problemi çözmesi
      Bilişim ekosistemi işbirlikçi olmaktan çok rekabetçi ve savunmacı bir ortam
      Sıkıcı manuel işlerin çoğunu otomatikleştirmeyi engelleyecek şekilde tasarlanmış bu yapı, internette para kazanmanın özünde yer alıyor
      Çünkü kullanıcılar otomasyon sayesinde satın alma yönlendirmelerini veya reklam gösterimlerini atlayabilirse gelir düşer

    • Robotikte de benzer bir tartışma vardı
      "Neden özellikle robotları insan biçiminde yapalım, daha verimli biçimler mümkün değil mi?" diye çok soruluyordu
      Ama sonuçta bir aracın yaygın biçimde benimsenmesi için, verimsiz olsa bile insan merkezli ortama uyacak şekilde tasarlanması gerekiyor
      Performans odaklı uygulamalarda özel tasarım ve optimizasyon şart, ama kitlesel yayılım için insana uyumlu yaklaşım gerekiyor

    • Sabah flört uygulamalarını düşünürken son nokta aklıma geldi
      Eğer "benim chatgpt" beni yeterince iyi temsil edebilirse, flört uygulamalarında karşı tarafın chatgpt'siyle bir tür ön görüşme yaparak eşleşme sağlamak mümkün olabilir diye düşünüyorum
      Yakın zamanda bir kurumsal keynote'ta "dijital ikiz" kavramından söz edildiğini duydum; sanırım bu da ona denk geliyor
      Bu konuda hüküm vermek için henüz erken ama nereye kadar gideceğini merak ediyorum

    • Bilgisayarın doğrudan Chrome'u açıp görüntülü arama yaparak insan gibi görevleri yerine getirmesi ve karşı tarafın bunun bilgisayar olduğunu anlamaması gerçekten iyi bir sonuç mu, merak ediyorum
      Teknik olarak inanılmaz ve etkileyici bir başarı olurdu ama bunda rahatsız edici bir yan var

  • Chrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp) ile Gemini CLI içinde tarayıcı otomasyonunu başarıyla yaptım
    Bu yüzden bu modelin daha iyi performans göstereceğini düşünüyorum

    • MCP ile hangi otomasyon işlerini başarıyla yaptığını merak ediyorum

    • Bu yaklaşımın bilgisayar kullanımı için gereken modelle hiçbir ilgisi yok
      Sadece MCP sunucusundaki Google'ın sağladığı ön tanımlı araçları kullanıyor; herhangi bir yazılıma uygulanabilen genel amaçlı bir model değil

  • UX'ten daha hızlı gerçek kullanım örnekleri olan varsa duymak isterim
    Bunu nasıl kullanmam gerektiğine dair pek fikrim yok
    Bu kadar yatırım yapılıyor olmasına bakınca benim kaçırdığım bir şeyler olduğu kesin gibi geliyor
    Teknoloji ve yeteneklerin kendisi etkileyici ama somut kullanım örneklerini merak ediyorum

  • Tarayıcı botuna bugünün Wordle'ını çözmesini söylersen, harf renklerindeki geri bildirimi (yeşil, sarı, gri) göremediği için doğru cevabı bulamıyor
    Kelimeyi girebiliyor ama geri bildirimi yorumlayamıyor deniyor

    • Acaba siyah beyaz ekranla mı internette geziyor diye merak ettim
  • Gemini, https://www.google.com/recaptcha/api2/demo üzerinde captcha'yı başarıyla geçti

    • Gönderiyi düzeltiyorum: Aslında yanlış görmüşüm; Google CAPTCHA çözümü Gemini tarafından değil, Browserbase tarafından yapılmış
      Ayrıntılar burada anlatılıyor

    • Otomasyon Browserbase üzerinde çalışıyor ve Browserbase'in bir captcha solver'ı var
      Bunun otomatik mi yoksa insan destekli mi olduğu net değil

    • Muhtemelen deneme Google'ın kendi ağındaki bir IP'den yapıldığı için geçti

  • (Sadece Browserbase demosunu denedim)
    Teoride mümkün olduğunu bilmekle, kısa bir komut verince gerçekten siteye giriş yapıp kaydırma yaparak yorum bıraktığını kendi gözünle görmek tamamen farklı bir deneyim
    Ben de bugünkü Wordle'da ikinci denemede aynı hatayı yapıp berabere kaldım
    Görev sırasında onunla konuşamamak biraz hayal kırıklığı yarattı

  • Bu tür özelliklerin özellikle kurumsal sistemlerde governance için hook/callback gibi özelliklere mutlaka ihtiyacı var
    UI tabanlı sistemlerde hook/ajan olay işleme çok daha zor
    İlgili bağlantılar için claude code hook belgeleri, google adk callback belgeleri bakılabilir

    • Claude Code'un ne kadar sık hook'ları görmezden gelip hesaplamayı tamamladığını ve sonuçları kullanmadığını düşününce, 'governance' kavramının neredeyse imkansız olduğunu düşünüyorum
      LLM'ler insanların sandığından daha öngörülemez ve kontrol edilmeleri çok daha zor
      Test başarısızlığı nedeniyle "ilerlemeyin" diye açıkça işaretlenmiş olsa bile devam ettiğini gördüm
      Sonuçta gerçekten engellenebilen tek şey, teoride gerçekten tehlikeli olan bir 'claude-killing' hook gibi görünüyor

    • Browserbase'de identity ürününden sorumluyum
      Son zamanlarda tüm web'e RBAC (rol tabanlı erişim kontrolü) getiren bir yaklaşım üzerine düşünüyorum
      Callback'lerin buna yardımcı olup olmayacağını merak ediyorum

  • "OS düzeyi kontrol henüz optimize değil" sözünü görünce AGI'nin henüz gelmediğini düşündüm
    Eğer bu seviyede bir OS kontrolü mümkün olursa ve LLM kullanım maliyeti de makul olursa, AGI'ye yakın bir şeyin başlangıcını görebiliriz diye düşünüyorum

    • İlginç olan şu ki, çoğu insan da bilgisayarı düzgün kullanamıyor
      'Zeka' kavramını tanımlamanın gerçekten imkansız olduğu hissine kapılıyorum

    • Neden tüm OS üzerinde kontrolün AGI'ye doğru atılmış bir adım olacağını düşündüğünü merak ediyorum

  • İronik biçimde çoğu teknoloji şirketi, kullanıcıyı gereksiz bilgilerden geçirmek zorlayarak para kazanıyor
    Örneğin internette reklamsız ve özgürce gezebilseydin ya da Twitter'da gereksiz algoritmalar olmadan sadece görmek istediğin içerikleri görebilseydin, kim bunu kullanmak istemezdi ki?

 
[Bu yorum gizlendi.]