- LLM ve bilgisayarlı görü kullanarak tarayıcı tabanlı iş akışlarını otomatikleştiren bir araç
- Mevcut otomasyon çözümleri, web sitesi düzeni değiştiğinde kolayca bozulabilen DOM ayrıştırma ve XPath tabanlı etkileşimlere dayanıyordu; Skyvern ise bunu görünüm alanındaki öğeleri gerçek zamanlı analiz edip etkileşim planı oluşturarak gerçekleştiriyor.
- Avantajlar:
- Yeni web sitelerinde de çalışabilir ve görsel öğeleri özel koda gerek kalmadan görev için gerekli eylemlerle eşleyebilir.
- Web sitesi düzeni değişikliklerine dayanıklıdır ve önceden tanımlanmış XPath ya da seçiciler kullanmaz.
- Tek bir iş akışı birden çok web sitesine uygulanabilir ve karmaşık durumlarda etkileşim yoluyla sorunları çözebilir.
Nasıl çalışır
- Ajan sistemi: Skyvern, web sitelerini anlamak ve görevleri planlayıp yürütmek için birden fazla ajan kullanır.
- Etkileşimli öğe ajanı: Web sitesinin HTML'ini analiz eder ve etkileşimli öğeleri çıkarır.
- Gezinme ajanı: Görevi tamamlamak için gerekli gezinmeyi planlar.
- Veri çıkarma ajanı: Web sitesinden veri çıkarır.
- Parola ajanı: Parola formlarını doldurur.
- 2FA ajanı: 2FA formlarını doldurur.
- Dinamik otomatik tamamlama ajanı: Dinamik otomatik tamamlama formlarını doldurur.
Skyvern Cloud
- Bulut sürümü: Skyvern'ün yönetilen bulut sürümü, altyapıyı yönetmeye gerek kalmadan birden fazla Skyvern örneğini paralel çalıştırarak iş akışlarını büyük ölçekte otomatikleştirebilir. Ayrıca bot tespitini önleme mekanizmaları, proxy ağı ve CAPTCHA çözme özellikleri içerir.
Skyvern görevleri ve iş akışları
- Görev: Skyvern'ün temel yapı taşıdır; belirli bir hedefe ulaşmak için web sitesinde gezinmeyi yönlendirir.
- İş akışı: Birden fazla görevi birbirine bağlayarak tek bir çalışma birimi oluşturur. Örneğin, bir e-ticaret mağazasında ürünleri otomatik satın alma sürecini otomatikleştirebilir.
1 yorum
Hacker News görüşleri
Anthropic'in Claude için duyurduğu "bilgisayar kullanımı" özelliğine yönelik ilginin ve Skyvern'in farkının ne olduğuna dair sorular var
Son dönemde Playwright kullanan çok sayıda yapay zeka sarmalayıcısının ortaya çıktığından bahsediliyor
Skyvern'in örnek videosunda çok fazla prompt yazımı ve düz metin veri kullanımına dair endişeler dile getiriliyor
Web sitesi yeniden tasarım sıklığının abartıldığı düşünülüyor
Üçüncü taraf LLM'lere dayanan girişimlerin risklerinden söz ediliyor
Skyvern'in AGPL ile açık kaynak yapılması tebrik ediliyor ve LangChain entegrasyonu planları soruluyor
"Tarayıcı otomasyonu" kavramı açıklanıyor
LLM iş akışı otomasyon araçlarının kullanım senaryoları ve uzun vadeli sonuçları hakkında sorular ortaya atılıyor
Skyvern'in zaten karmaşık olan süreçlerin üzerine bir katman daha karmaşıklık ekleyip eklemediğine dair endişeler dile getiriliyor
Skyvern'in modal.com üzerinde çalıştırılıp çalıştırılmadığı soruluyor
WebArena ve VisualWebArena performansı hakkında soru soruluyor
Cloudflare'ın Skyvern'i engelleme ihtimaline dair soru yöneltiliyor
Skyvern'in havayolu web sitelerinde çalıştırılıp çalıştırılmadığı soruluyor