2 puan yazan GN⁺ 2023-11-10 | 1 yorum | WhatsApp'ta paylaş

vimGPT: Çok modlu modellere bir oyun alanı sunmak

Genel bakış

  • Web'de gezinme için büyük dil modellerinin (LLM'ler) kullanımı, çeşitli girişimler ve açık kaynak projeleri tarafından araştırılıyor.
  • Yalnızca GPT-4V'nin görsel yeteneklerini kullanarak web'de gezinmenin mümkün olup olmadığını deneyen bir projeye ilgi duyuluyor.
  • Modelin tıklamak istediği hedefi, metin tabanlı tarayıcı DOM'u olmadan anlamakta zorlandığı durumlar var.

Kurulum

  • Python gereksinimlerini yükleyin: pip install -r requirements.txt
  • Vimium'u yerel olarak indirmeniz ve Playwright çalıştırılırken uzantıyı manuel olarak yüklemeniz gerekir: ./setup.sh

Fikirler

  • Otomatik bağlam araması için, yayınlandığında Assistant API'nin kullanılması değerlendiriliyor.
  • Vimium'un, bağlama göre öğeleri seçici olarak üst üste bindiren özel bir sürümünün geliştirilmesi mümkün olabilir.
  • Düşük çözünürlükte modelin tanıyamama sorunu, daha yüksek çözünürlüklü görseller kullanılarak iyileştirilebilir.
  • LLaVa veya CogVLM ince ayar yapılarak daha hızlı ve daha ucuz hale getirilebilir.
  • Vision API JSON modunu desteklediğinde kullanılması planlanıyor, ancak şimdilik daha ilkel istem yöntemlerine dayanmak gerekiyor.
  • Vision API'nin genel talimatlar döndürmesi ve bunların JSON modu API ile biçimselleştirilmesi yöntemi değerlendiriliyor.
  • Metin girişini ortadan kaldırmak ve erişilebilirliği artırmak için Whisper veya başka bir modelle konuşmadan metne dönüştürme eklenmesi de düşünülüyor.
  • Yapay bir tarayıcı yerine, kullanıcının kendi tarayıcısında çalışacak hale getirilmek isteniyor.
  • Modelin sarı dikdörtgenlerin altını görememesi durumuna karşı, Vimium'un etkin olup olmamasına göre çerçeveler sağlanıyor.
  • Görsel girdiye ek olarak, Vimium kısayollarına eşlenebilecek etkileşimli öğelerin yerleşimini sağlamak için Chrome erişilebilirlik ağacının da girdi olarak verilmesi düşünülüyor.

Referanslar

GN⁺ görüşü

Bu yazıdaki en önemli nokta, GPT-4V gibi büyük dil modellerini kullanarak web'de gezinme deneyimini dönüştürme girişimi. Vimium uzantısı aracılığıyla modelin web ile etkileşime geçebilmesine olanak tanımak ilgi çekici bir yaklaşım ve bu, web erişilebilirliği ile etkileşimi geliştirme potansiyeli taşıyor. Teknoloji meraklıları ve yazılım geliştiriciler için bu tür deneyler, yapay zekanın geleceği ve web arayüzlerinin evrimi hakkında içgörü sunuyor; bu da konuyu oldukça cazip hale getiriyor.

1 yorum

 
GN⁺ 2023-11-10
Hacker News görüşleri
  • Artık böyle bir şeyin mümkün olduğuna inanmak zor:

    • Kullanıcının belirli bir görevi yerine getirmesine yardımcı olmak için seçilebilecek seçenekler olarak navigate, type, click, done bulunuyor.
    • navigate belirtilen URL'ye gitmeli; type ve click ise bir string alıp işlemeli.
    • Tıklarken sarı harf dizisi, yazarken ise mesaj string olarak döndürülmeli.
    • Sayfa tatmin ediciyse anahtar olarak done döndürülmeli ve yanıt mutlaka yalnızca JSON formatında olmalı.
  • İş yerimde teknik borç o kadar büyük ki verileri manuel olarak kopyalayan birçok insan var:

    • Bu tür araçların mevcut sorunları çözebilecek bir katman görevi göreceği beklentisi dile getiriliyor.
  • Yapımcıdan selamlar:

    • Projeyi paylaştıkları için teşekkür ediyor ve soru varsa bildirilmesini istiyor.
    • README'de sonraki adımlara dair fikirler olduğunu, katkıların memnuniyetle karşılandığını söylüyor.
  • Vim'in ChatGPT için uygun bir "uygulama" olduğu görüşü:

    • Her şey metin akışı olarak yapılabiliyor ve internette zaten çok sayıda vimscript var.
    • Benzer bir deneye başladığını belirterek ilgili proje bağlantısını paylaşıyor.
  • GPT-4 Vision ile ekran görüntüsü ve gezinme görevleri üzerine tartışma:

    • Ekran görüntüsünün üzerine bilgi bindirmede başarısız olduktan sonra, Playwright'tan erişilebilirlik ağacını metin olarak alıp modele etkileşim seçeneklerini bildiren yaklaşımın daha iyi sonuç verdiği görülmüş.
    • Bu fikrin yapımcının gelecekteki fikirler listesine eklenmesi öneriliyor.
  • ChatGPT arayüzü üzerinden yapılan deneyim paylaşımı:

    • CSS güncellenerek gradyanların ve yuvarlatılmış köşelerin kaldırılması öneriliyor.
    • Kırmızı ile kalın beyaz metin kombinasyonunun en tutarlı sonucu verdiği belirtiliyor.
    • Yazı tipi boyutunun artırılması, etiketler çakışıyorsa ayrılması ve oklar eklenmesi tavsiye ediliyor.
    • API'ye hem açıklama eklenmiş hem de eklenmemiş görsellerin gönderilmesi öneriliyor.
  • Bu tür araçların web takibi veya reklamcılığı nasıl etkileyeceğine dair soru:

    • Ajanın kullanıcı adına reklamlar veya pop-up'lar olmadan istenen şeyi bulan bir "reklam engelleyici" olma potansiyeli.
    • SEO'nun önemini azaltıp internetin kalitesini artırabileceği hayal ediliyor.
    • Öte yandan reklamların yol açabileceği olumsuz etkilere dair endişeler de dile getiriliyor.
  • Tarayıcı için bir otomatik pilot yapılabilir:

    • Bu teknoloji büyük ölçekte dağıtılırsa bot trafiğini ayırt etmek çok zor olacak.
    • Kısa vadede maliyetin ucuz ya da erişilebilir olmayacağına dikkat çekiliyor.
  • GPT-4V'nin web scraping için yeni bir bakış açısı sunduğuna dair olumlu görüş:

    • Bu kodun ya da benzerlerinin birçok projede kullanılmasının beklendiği söyleniyor.
    • Örneğin LinkedIn veya Twitter gibi siteleri scrape etmek, rakip analizi yapmak, sektörleri anlamak ya da haber toplamak için kullanılabilir.
  • Gerçek kullanım deneyimi paylaşımı:

    • Tıklanabilir seçeneklere ilişkin küçük açıklamalar ekranda sık sık görünmediği için döngüye girme sorunu yaşanmış.
    • Twitter'a giriş yapmayı başarmış ancak 100 görsellik image API sınırını hızla tüketmiş.
    • Gelecek sürümlerde ağırlıklı olarak metin tabanlı tarayıcı kullanıp yalnızca karmaşık durumlarda vision kullanma önerisi yapılıyor.