GPT-4 Vision ve Vimium ile web’de gezinme

(github.com/ishan0102)

2 puan yazan GN⁺ 2023-11-10 | 1 yorum | WhatsApp'ta paylaş

GPT-4V’nin yalnızca görme yetenekleriyle web’de gezinmenin mümkün olup olmadığını deneyen bir proje; multimodal modele web ile etkileşime geçebileceği bir arayüz sağlıyor
Tarayıcı DOM’u metin olarak verilmediğinde, modelin neye tıklamak istediğini anlamasının zor olduğu sorununu ele alıyor
Vimium Chrome uzantısını kullanarak yalnızca klavyeyle web’de gezinmeyi mümkün kılıyor ve bunun üzerinden modelin web ile nasıl etkileşime geçtiğini deniyor
Çalıştırma akışı; Python gereksinimlerinin kurulması, Vimium’un yerel olarak indirilmesi, Playwright çalıştırılırken uzantının elle yüklenmesi ve python main.py komutunun çalıştırılmasından oluşuyor
python main.py --voice ile Voice Mode çalıştırılarak hedef sesli komutla söylenebiliyor ve tarayıcı işlemleri gerçek zamanlı olarak yaptırılabiliyor
Mevcut Vision API’nin JSON mode veya function calling desteklememesi nedeniyle, daha ilkel bir prompt yöntemine bağımlı kalınması gibi bir kısıt bulunuyor
Düşük çözünürlükte modelin hiçbir şeyi algılayamadığı durumlar olabiliyor; daha yüksek çözünürlüklü görseller bunu iyileştirebilir ancak daha fazla token gerektirir

1 yorum

GN⁺ 2023-11-10

Hacker News yorumları

Artık böyle şeylerin mümkün olması gerçekten şaşırtıcı: https://github.com/ishan0102/vimGPT/blob/682b5e539541cd6d710...
Prompt, tarayıcıyı “kullanıcının hedefine yardımcı olmak için navigate, type, click, done eylemlerinden hangisini yapacağını seç; tıklanacak hedefi sarı harf dizisiyle belirt ve yalnızca JSON döndür” gibi bir şekilde yönlendiriyor
- Bu alanın hareket etme hızı insanın aklını başından alıyor. Dot-com patlamasından bile daha çılgın bir akışa dönüşebilir gibi görünüyor
İş yerlerinde eski programlar arasında sadece manuel veri kopyalama yapan epey insan var. Kamu tarafında olduğumuz için teknik borç o kadar büyük ki sistemleri birbirine bağlamanın yolunu bulamıyoruz
Böyle bir aracın bir gün bu sorunların üzerinde çalışan bir katman hâline gelebilmesi heyecan verici. Hesaplama kaynağı açısından tuhaf bir çözüm olsa da
- Çok eskiden, büyük bir çok uluslu market zinciri için küçük bir proje yapmıştım. Belirli bir yapıdaki Excel dosyasını ayrıştırıp veriyi göndermek için kurum içi sistem uç noktasını çağıran bir araç geliştirdim
  Mevcut yöntemi merak edip sorduğumda beni ofisin arka tarafındaki bilgisayara götürdüler; masaüstü arka planında MS EXCEL ve INTERNET EXPLORER yazan iki dikdörtgen vardı. Sorumlu kişi iki uygulamayı açıp pencereleri tam olarak bu dikdörtgenlere hizaladıktan sonra, RuneScape hilecilerinin kullanacağı türden bir otomatik tıklayıcı çalıştırıp Excel değerlerini web sitesindeki formlara kopyalıyordu. Muazzamdı
- Burada suç “eski yazılıma” atılıyor ama aslında internet kullanan neredeyse herkes aynı veri girişi sorununu sürekli yaşıyor. Ekranın bir tarafındaki form verisini başka bir web formuna kopyalıyor ya da daha kötüsü yeniden yazıyor
  Kullanıcı adı, parola, e-posta adresi, fiziksel adres, kredi kartı bilgileri hep böyle; girişi kolaylaştırmaya çalışan eklentiler de var ama düzgün ve tutarlı çalışanı yok. Sadece kullanıcı adı ve parolayı tutarlı biçimde doldurmasını bile beklemek zor. İnternet kullanımında reklamlardan bile daha büyük bir numaralı sinir bozucu şey bu ve LLM olsun olmasın hâlâ çözülmemiş olması şaşırtıcı. Bunu tamamen çözen bir yazılım için aylık abonelik ücreti ödemeye razı olurum
- Sektördeki adı robotik süreç otomasyonu (Robotic Process Automation); bu ürün ailesi, geleneksel ekran kazımanın yanı sıra çeşitli makine öğrenimi/yapay zeka biçimleriyle bu işleri ortak ve yapılandırılmış bir şekilde birbirine bağlamaya odaklanıyordu
  Şimdiye kadar bu ürünler oldukça kırılgandı; son dönemdeki yapay zeka teknolojisi patlaması ise bu alan için büyük bir fırsat gibi görünüyor
- Eski sistemlerden veri çıkarmanın insanlar tarafından manuel yapıldığını her duyduğumda, “düzgün” çözüm için fiyat teklifi alıp sonra birkaç kişiye yazdırmanın daha ucuz olduğuna mı karar verdiler diye merak ediyorum
  ChatGPT gibi bir şeyi entegre etseler bile işten anlayan birinin incelemesi gerekir; o kişilerin vereceği ilk tavsiyenin “orada ChatGPT kullanmayın” olması beni şaşırtmaz
- Eskiden Ghost in the Shell’de bir robotun hızlı yazmak için parmaklarının üzerinde bir de parmakları olduğu sahne bana tuhaf gelmişti. USB’ye doğrudan takılabileceği için tam olarak öyle olmaz ama yine de bazen ekran ve klavye girdisi kullanacak gibi görünüyor
Vim, farkında olmadan ChatGPT için harika bir cisimleşmiş gövde oluyor gibi. Metin akışıyla yapılamayacak pek bir şey yok ve internette zaten vimscript dolu
Benzer bir deneye başladım; aynı yönde düşünen biri varsa bakmak isteyebilir: https://github.com/LachlanGray/vim-agent
Bunu yapan kişiyim. Merak ettiğiniz bir şey varsa sorun, katkılara da açığım. README’ye olası birkaç sonraki adım bıraktım
- Bugün daha erken saatlerde neredeyse aynısını yayımladım: https://github.com/Jiayi-Pan/GPT-V-on-Web. Ama pek ilgi görmedi
- Open Interpreter da Selenium’u doğal dil kontrolüyle otomatikleştirmeye çalışıyor ve HN’de de son zamanlarda benzer projeler epey çıkıyor. Vimium yaklaşımı çok daha hafif göründüğü için umut verici
  Her nasılsa açık World Wide Web, kendi dinamik API bindirme sunucusuna dönüşme yolunda ilerliyor
- ChatGPT’nin şu anda web’de gezinme biçiminden farkı ne?
- Siteye özel ayrıştırıcılar yazmadan, web sitelerini ziyaret edip ilgili bilgileri çıkaran ve analiz eden botlar yapmak için kullanılabilir mi?
GPT-4 Vision ile ekran görüntüleri ve eylemler kullanarak gezinmeye yönelik benzer bir fikri kurcaladım; ekran görüntüsünün üzerine bilgi bindirmeye çalışıp başarısız olduktan sonra sonunda Playwright’tan erişilebilirlik ağacını alıp metin olarak birlikte gönderdim
Böylece model etkileşimli seçenekleri bilebildiği için bende daha iyi çalıştı. Bunu yapan kişi burada ve gelecekteki fikirler listesi de var; uygunsa bunu listeye eklemek iyi olabilir
- İyi fikir. Başta yalnızca görsel veri kullanmayı planlamıştım ama bu, ajanı çok daha güçlü hâle getirebilir. Yakında deneyeceğim
- Yalnızca ekrana sığanı değil, tüm içeriği yakalamak daha iyi olabilir. Yeni genişleyen token penceresiyle sayfaların çoğu metin ya da HTML olarak sığabilir gibi
Son birkaç haftadır ChatGPT arayüzüyle bunu kurcalıyordum. Birkaç ipucum var
CSS’i değiştirip degradeleri ve yuvarlatılmış köşeleri kaldırmak; kalın beyaz yazı üzerinde kırmızı en tutarlı sonuçtu. Yazı tipi boyutunu büyütmek, iki etiket çakışırsa birbirlerini itmelerini sağlamak ve öğeyi gösteren bir ok eklemek iyi olur. API’ye hem açıklama eklenmiş görseli hem de açıklamasız görseli, yani ikisini de göndermek daha iyiydi
Tarayıcı için bir otopilot yapılabilir
Bu büyük ölçekte dağıtılırsa ileride bot trafiğini ayırt etmek inanılmaz zorlaşacak. Yalnız kısa vadede ucuz ya da karşılanabilir maliyetli olmasının zor olduğu bir sorun gibi görünüyor
- llava veya cogvlm gibi açık kaynak modelleri ince ayarlayarak maliyet düşürülebilir gibi. Bu demo da yaklaşık 6 sent, yani delicesine pahalı değil; prompt akıllıca kurgulanırsa daha da iyileşebilir
Böyle bir aracın web takibi ya da internet reklamcılığı genelinde nasıl bir etkisi olur? Bir ajan senin yerine web’de gezip, reklamları veya pop-up’ları görmeden, takipten de kaçınarak tam olarak aradığını getirebiliyorsa harika bir reklam engelleyici olabilir.
Belki SEO’yu işe yaramaz hâle getirip internetin kalitesini bile artırabilir. Öte yandan reklamların, getirilen içeriğin içine bir şekilde “karışması” gibi yan etkiler de ortaya çıkabilir mi merak ediyorum.
- Sayfanın ekran görüntüsünü GPT’ye gönderme yöntemi kullanılıyorsa reklamları da görmüş olmuyor mu?
Hollanda’daki birçok şirket maaşları şöyle ödüyor: 1) muhasebeciden maaş bordrolarını alıyor, 2) her çalışan için bordrodaki tutar kadar banka havalesini manuel başlatıyor, 3) stopaj olarak kesilen maaş vergisini vergi dairesine göndermek için banka havalesini de manuel başlatıyor.
Tamamen gereksiz bir manuel iş ve manuel bir süreç olmasını gerektiren hiçbir neden yok. Ama otomasyon neredeyse imkânsız. Muhasebe portallarının API’si yok; varsa bile veriyi PDF olarak indirtiyor ya da API maliyeti epey yüksek oluyor. Bankalarda da API yok ya da sadece kendi iç sürecini otomatikleştirmek istesen bile herkese açık bir uygulama yayınlayacakmışsın gibi geliştirici hesabına kaydolmanı istiyorlar. Bu yüzden maaşları ve vergileri ödemenin en kolay yolu hâlâ birini işe alıp bunu manuel yaptırmak. Yapay zekanın gerçekten banka havalesi başlatmasına güvenmezdim ama işlemleri hazırlayıp insanın sadece gönderim onayı vermesi belki mümkün olabilir.
- Bunun yapay zekayla pek ilgisi yok gibi görünüyor. Birleşik Krallık’ta Pento gibi çözümler zaten var; açık bankacılık ile kullanıcılara ve vergi dairesine ödemeleri otomatikleştiriyor, vergi beyanlarını da otomatik gönderiyor: https://www.pento.io/la/payroll-software
- Bu sadece bir banka sorunu. Büyük şirketlerin maaş süreçleri böyle işlemiyor. Bankalar genelde SWIFT ödeme paketlerini tanımlayan XML dosyalarının yüklenmesine izin verir; küçük şirket maaşları da böyle işlenir. Muhasebeciler de XML dosyası sağlar, muhtemelen bunu üreten bir uygulamaları vardır.
- Bizim ülkede de benzer; bazı verilerin kamu kurumlarının sitelerine yüklenmesi gerekiyor. Sanırım bu yılın başlarındaydı, web sitesinde işlem yapan yazılım kullanan kişilerin engellenebileceği duyurulmuştu.
- Tekrarlayan GUI iş akışlarını otomatikleştirmek https://github.com/OpenAdaptAI/OpenAdapt projesinin hedefi.
Adept’in konseptine çok benzemiyor mu? Gerçi ürün henüz hazır değil gibi: https://www.adept.ai/
- Adept’in 300 milyon dolardan fazla yatırım alıp yıllardır üzerinde çalıştığı söylenen şeyi artık OpenAI API ile bir günde yapabilmek biraz çılgınca.
  Adept’in arada yön değiştirdiği anlaşılıyor ama ilk konsept buna çok benziyordu.
- https://www.adept.ai/blog/experiments :)
- Evet. Adept ve birkaç başka startup’tan ilham aldım.
- Tam da aklıma gelen demo buydu.

GPT-4 Vision ve Vimium ile web’de gezinme

İlgili okumalar

1 yorum

Hacker News yorumları