WebMCP (Web Model Context Protocol) duyuruldu
(developer.chrome.com)- WebMCP, web sitelerinin tarayıcı içindeki AI ajanlarına yapılandırılmış araçları doğrudan sunması için tasarlanmış öneri niteliğinde bir standart
- Mevcut ekran kazıma veya DOM çıkarımı yerine, web kendi kendine “bu sayfada neler yapılabileceğini” işlevler ve girdi-çıktılarla açık bir sözleşme biçiminde sunuyor
- Bildirimsel API ve emirsel API ile HTML form tabanlı işlemlerden karmaşık JavaScript etkileşimlerine kadar destekliyor
- Ajanın sayfadaki araçları keşfetmesi (Discovery), girdi-çıktıları JSON Schema ile tanımlaması ve mevcut sayfa durumunu (State) paylaşması üzerine kurulu bir sözleşme yapısı
- Chrome 146 sürümüne erken önizleme olarak dahil edildi. Önceden denemek için Chrome built-in AI Early Preview Program kaydı gerekiyor
- Mevcut MCP sunucu tarafı bir protokolken, WebMCP'nin istemci tarafındaki tarayıcı içi AI ajanları için bir protokol olmasıyla ayrışıyor
Spesifikasyon taslağı: WebMCP Early Preview
WebMCP'nin ortaya çıkış arka planı
- Ajanik web ortamında, yapay zekanın kullanıcı adına rezervasyon, gönderim, ayar değiştirme, gezinme gibi gerçek işleri yapma oranı artıyor
- Mevcut web insan kullanıcılar varsayılarak tasarlandığı için ajanlar düğmelerin anlamını veya form yapısını çıkarsamak zorundaydı
- Bu nedenle giriş hataları, yanlış alan eşleme ve UI değişikliklerinden kaynaklanan kırılganlıklar tekrar tekrar ortaya çıkıyordu
- WebMCP, bu sorunları çözmek için web ile ajan arasında açık bir etkileşim sözleşmesi (contract) getiriyor
- Ajanın düğmenin amacını veya formun yapısını tahmin etmesi yerine, web sitesi kendi arayüzünü açıkça yayınlıyor
- Bu sözleşme üç temel unsurdan oluşuyor:
- Discovery: Sayfanın desteklediği araçları (örn. checkout, filter_results) ajanın standart bir yolla sorgulaması
- JSON Schema: Girdilerin ve beklenen çıktıların açık tanımıyla halüsinasyonları ve yanlış anlamaları azaltma
- State: Mevcut sayfa bağlamına dair paylaşılan anlayış sayesinde ajanın gerçek zamanlı olarak kullanılabilir kaynakları kavraması
WebMCP'nin temel kavramları
-
Yapılandırılmış araç sunumu
- Web sitesi sunduğu işlevleri araç (tool) olarak bildirir
- Her araç adı, açıklaması, girdi şeması (JSON Schema) ve çalışma sonucuyla net biçimde tanımlanır
- Ajan, DOM'u yorumlamadan da “neyin çağrılması gerektiğini” doğru şekilde anlayabilir
-
Çıkarım yerine sözleşme
- Düğmenin anlamını tahmin etmek veya takvim UI'sini analiz etmek yerine web doğrudan niyetini ve kurallarını açıklar
- Girdi-çıktı biçimleri sabit olduğu için halüsinasyonlar ve hatalı çalışma azalır
- UI değişse bile araç sözleşmesi korunduğu sürece ajanın davranışı istikrarlı kalır
İki API modeli
-
Bildirimsel API (Declarative API)
- HTML
<form>öğesine yalnızca nitelikler ekleyerek onu araca dönüştürür toolname,tooldescriptionnitelikleriyle aracın anlamı bildirilir- Form alanları doğrudan aracın girdi parametreleri olur
- Tarayıcı bunları otomatik olarak JSON Schema'ya dönüştürür
- Basit ve tekrarlı işler ile mevcut form tabanlı UI'ler için uygundur
- HTML
-
Emirsel API (Imperative API)
- Araçlar doğrudan JavaScript ile kaydedilir
registerTool,provideContext,unregisterToolgibi API'ler sunulur- Karmaşık mantık, koşullu dallanma, asenkron işlemler ve durum tabanlı davranışlar için uygundur
- SPA'lerde veya gelişmiş web uygulamalarında kullanım değeri yüksektir
Tarayıcı ile ajanın etkileşim biçimi
- Ajan bir aracı çağırdığında tarayıcı ilgili UI'ye otomatik olarak odaklanır ve girdi yapar
- Formun ajan tarafından mı çağrıldığını
agentInvokedbayrağıyla ayırt eder - Başarı veya iptal durumunda
toolactivated,toolcancelolayları tetiklenir - CSS pseudo-class(
:tool-form-active,:tool-submit-active) ile görsel geri bildirim sağlanır - İnsan kullanıcı ve ajan akışları aynı UI durum modeli içinde birleştirilebilir
Temsili kullanım senaryoları
- Bir havayolu sitesinde
book_flightaracı sunulduğunda, ajan takvim UI'sini yorumlamadan yapılandırılmış yolcu bilgisini doğrudan gönderir - Sağlık veya hukuk portallarında
submit_applicationaracıyla alan anlamları açık biçimde iletilir - Geliştirici ayar sayfasında
run_diagnosticsgibi araçlar sunularak gizli menüler otomatik çalıştırılabilir - Müşteri desteği, e-ticaret ve seyahat hizmetleri gibi yüksek güvenilirlikte girdi gerektiren alanlarda özellikle etkilidir
WebMCP ile MCP arasındaki fark
- MCP(Model Context Protocol), sunucu taraflı bir protokol olup ayrı bir sunucu dağıtımı gerektirir
- WebMCP, tarayıcı içinde çalışır ve mevcut web uygulamalarına doğrudan entegre olur
- Sunucu olmadan da istemci tarafı işlevler ajanlara sunulabilir
- Temel fark, ajan tarayıcısını varsayan frontend odaklı bir yaklaşım olmasıdır
Güncel durum ve sınırlamalar
- Chrome 146 ve üzerinde, bayrak etkinleştirildiğinde kullanılabilir
- Headless ortamda çalışmaz; görünür bir tarama bağlamı gerekir
- Araç sunan siteleri otomatik keşfetme mekanizması henüz yok
- UI durumu senkronizasyonunu geliştiricinin üstlenmesi gerekiyor
- Erken önizleme aşamasında olduğu için API değişiklikleri ve uygulama sürtünmeleri mevcut
3 yorum
@firt bunu X'te konuştuktan sonra epey gündem oldu. Link olarak Google'ınkini verdim.
Bunun, web sitesi otomasyonunda ekran görüntüsü/DOM analizine kıyasla yalnızca %10 token ile mümkün hale geldiği söyleniyor.
Token maliyetinden tasarruf sağlayan yazılımların evrimsel baskıyla ayakta kalacağı öngörüsüyle da örtüşüyor.
Chrome öncülük ederse, yakında diğer tarayıcılara da gelir.
Ajanlar için Swagger benzeri bir şey gibi duruyor.