GPT-4 Vision ve Vimium ile web'de gezinme
(github.com/ishan0102)vimGPT: Çok modlu modellere bir oyun alanı sunmak
Genel bakış
- Web'de gezinme için büyük dil modellerinin (LLM'ler) kullanımı, çeşitli girişimler ve açık kaynak projeleri tarafından araştırılıyor.
- Yalnızca GPT-4V'nin görsel yeteneklerini kullanarak web'de gezinmenin mümkün olup olmadığını deneyen bir projeye ilgi duyuluyor.
- Modelin tıklamak istediği hedefi, metin tabanlı tarayıcı DOM'u olmadan anlamakta zorlandığı durumlar var.
Kurulum
- Python gereksinimlerini yükleyin:
pip install -r requirements.txt - Vimium'u yerel olarak indirmeniz ve Playwright çalıştırılırken uzantıyı manuel olarak yüklemeniz gerekir:
./setup.sh
Fikirler
- Otomatik bağlam araması için, yayınlandığında Assistant API'nin kullanılması değerlendiriliyor.
- Vimium'un, bağlama göre öğeleri seçici olarak üst üste bindiren özel bir sürümünün geliştirilmesi mümkün olabilir.
- Düşük çözünürlükte modelin tanıyamama sorunu, daha yüksek çözünürlüklü görseller kullanılarak iyileştirilebilir.
- LLaVa veya CogVLM ince ayar yapılarak daha hızlı ve daha ucuz hale getirilebilir.
- Vision API JSON modunu desteklediğinde kullanılması planlanıyor, ancak şimdilik daha ilkel istem yöntemlerine dayanmak gerekiyor.
- Vision API'nin genel talimatlar döndürmesi ve bunların JSON modu API ile biçimselleştirilmesi yöntemi değerlendiriliyor.
- Metin girişini ortadan kaldırmak ve erişilebilirliği artırmak için Whisper veya başka bir modelle konuşmadan metne dönüştürme eklenmesi de düşünülüyor.
- Yapay bir tarayıcı yerine, kullanıcının kendi tarayıcısında çalışacak hale getirilmek isteniyor.
- Modelin sarı dikdörtgenlerin altını görememesi durumuna karşı, Vimium'un etkin olup olmamasına göre çerçeveler sağlanıyor.
- Görsel girdiye ek olarak, Vimium kısayollarına eşlenebilecek etkileşimli öğelerin yerleşimini sağlamak için Chrome erişilebilirlik ağacının da girdi olarak verilmesi düşünülüyor.
Referanslar
GN⁺ görüşü
Bu yazıdaki en önemli nokta, GPT-4V gibi büyük dil modellerini kullanarak web'de gezinme deneyimini dönüştürme girişimi. Vimium uzantısı aracılığıyla modelin web ile etkileşime geçebilmesine olanak tanımak ilgi çekici bir yaklaşım ve bu, web erişilebilirliği ile etkileşimi geliştirme potansiyeli taşıyor. Teknoloji meraklıları ve yazılım geliştiriciler için bu tür deneyler, yapay zekanın geleceği ve web arayüzlerinin evrimi hakkında içgörü sunuyor; bu da konuyu oldukça cazip hale getiriyor.
1 yorum
Hacker News görüşleri
Artık böyle bir şeyin mümkün olduğuna inanmak zor:
navigate,type,click,donebulunuyor.navigatebelirtilen URL'ye gitmeli;typeveclickise bir string alıp işlemeli.donedöndürülmeli ve yanıt mutlaka yalnızca JSON formatında olmalı.İş yerimde teknik borç o kadar büyük ki verileri manuel olarak kopyalayan birçok insan var:
Yapımcıdan selamlar:
Vim'in ChatGPT için uygun bir "uygulama" olduğu görüşü:
GPT-4 Vision ile ekran görüntüsü ve gezinme görevleri üzerine tartışma:
ChatGPT arayüzü üzerinden yapılan deneyim paylaşımı:
Bu tür araçların web takibi veya reklamcılığı nasıl etkileyeceğine dair soru:
Tarayıcı için bir otomatik pilot yapılabilir:
GPT-4V'nin web scraping için yeni bir bakış açısı sunduğuna dair olumlu görüş:
Gerçek kullanım deneyimi paylaşımı: