3 puan yazan GN⁺ 2025-11-28 | 1 yorum | WhatsApp'ta paylaş
  • Fara-7B, 7 milyar parametreden oluşan ultra kompakt bir ajan tipi dil modeli (SLM) olup, web tarayıcısını gerçekten kullanarak görevleri yerine getiren bir Computer Use Agent mimarisi sunuyor
  • Fare ve klavye girdilerini doğrudan tahmin ederek web sayfalarını görsel olarak algılıyor ve yönetiyor; ek erişilebilirlik ağacı ya da ayrıştırma modeli olmadan insanlarla aynı şekilde etkileşime giriyor
  • Cihaz üzerinde çalıştırılabiliyor, böylece gecikmeyi azaltıyor ve gizliliği güçlendiriyor; görevleri ortalama 16 adımda tamamlayarak aynı sınıftaki modellere kıyasla verimlilik sağlıyor
  • WebTailBench dahil çeşitli benchmark'larda aynı sınıftaki ve daha büyük modelleri geride bırakan performans sergiliyor; özellikle web otomasyonu ve çok adımlı görevlerde yüksek başarı oranına ulaşıyor
  • Microsoft'un yayımladığı WebTailBench veri seti ile birlikte, web tabanlı ajan değerlendirmesi ve yeniden üretilebilir deney ortamı sağlayarak gerçek web etkileşimi araştırmalarının standartlaşmasına katkı sunuyor

Fara-7B Genel Bakış

  • Microsoft'un ilk bilgisayar kullanımı odaklı ajan tipi küçük dil modeli (SLM) olarak, 7 milyar parametre ölçeğinde son teknoloji performans sunuyor
  • Qwen2.5-VL-7B temel alınarak, Magentic-One çoklu ajan çerçevesi ile üretilen sentetik verilerle (145.000 rota) eğitildi
  • 7B parametre ile yerel olarak çalıştırılabiliyor, böylece gecikme azalıyor ve veri gizliliği güçleniyor

Temel Özellikler

  • Web sayfalarını görsel manipülasyon temelli algılıyor; kaydırma, tıklama ve yazma gibi gerçek kullanıcı davranışlarını taklit ediyor
  • İnsanlarla aynı girdi modalitelerini kullanıyor; ayrıca bir ayrıştırma modeline ihtiyaç duymuyor
  • Görevleri ortalama 16 adımda tamamlayarak benzer modellere (ortalama 41 adım) göre daha verimli çalışıyor
  • Cihaz üzerinde dağıtım sayesinde buluta bağımlılığı azaltıyor ve kişisel veri korumasını güçlendiriyor

Desteklenen Yetenekler

  • Web'de arama ve sonuç özetleme
  • Form doldurma, hesap yönetimi
  • Uçak bileti, sinema ve restoran rezervasyonu
  • Çevrimiçi alışveriş ve fiyat karşılaştırma
  • İş ilanı ve emlak bilgisi arama

Performans Karşılaştırması

  • WebVoyager, Online-M2W, DeepShop, WebTailBench olmak üzere 4 benchmark'ta değerlendirildi
  • Fara-7B, WebVoyager %73,5, Online-M2W %34,1, DeepShop %26,2, WebTailBench %38,4 başarı oranına ulaştı
  • Aynı sınıftaki modellerden (UI-TARS-1.5-7B) ve daha büyük modellerden (GLM-4.1V-9B) daha yüksek performans gösterdi

WebTailBench Benchmark'ı

  • 11 gerçek web görevi türünü kapsayan 609 görevden oluşuyor
  • Tek site görevlerini (alışveriş, uçuş, otel vb.) ve çok adımlı görevleri (karşılaştırmalı alışveriş, birleşik görevler vb.) içeriyor
  • Fara-7B, tüm kategorilerde bilgisayar kullanımı modelleri arasında en yüksek performansı kaydetti
    • Örnek: otel %53,8, uçuş %37,9, alışveriş %52,4, karşılaştırmalı alışveriş %32,7

Değerlendirme Altyapısı

  • Gerçek tarayıcı ortamını yeniden oluşturmak için Playwright kullanılıyor
  • Abstract Web Agent Interface ile farklı modeller entegre edilebiliyor
  • Fara-Agent Class üzerinden model çalıştırma ve test desteği sunuluyor
  • Deneysel açık sürüm olduğundan, sandbox ortamında çalıştırma ve hassas veri kullanımını sınırlama öneriliyor

Kurulum ve Çalıştırma

  • pip install -e . veya uv sync --all-extras ile kuruluyor
  • Playwright tarayıcılarının kurulması gerekiyor
  • Azure Foundry üzerinden bulut barındırma veya VLLM ile GPU üzerinde self-hosting destekleniyor
  • Komut örneği:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

Yeniden Üretilebilirlik ve Değerlendirme Ortamı

  • WebVoyager ve OnlineMind2Web değerlendirmelerini yeniden üretmeye yönelik webeval/ çerçevesi sunuluyor
  • BrowserBase entegrasyonu ile kararlı tarayıcı oturumu yönetimi sağlanıyor
  • Zamana duyarlı görev güncellemeleri, ortam hatası işleme ve 100 adım sınırı ile değerlendirme tutarlılığı korunuyor
  • WebVoyager veri setindeki imkânsız 48 görev çıkarıldı, gelecekteki tarihlere sahip 50 görev güncellendi

Değerlendirme Çalıştırma ve Analiz

  • Değerlendirme betikleri webeval/scripts dizininden çalıştırılıyor
  • VLLM ile self-hosting veya Azure Foundry endpoint'i seçeneklerinden biri kullanılabiliyor
  • Sonuçlar gpt_eval/, traj/, screenshot_X.png vb. olarak kaydediliyor
  • Jupyter Notebook ile ortalama puan, başarısızlık nedenleri ve yarıda kesilen rotalar analiz edilebiliyor

Gelecek Planları

  • LLM-as-a-judge değerlendirmesi için doğrulama hattı ve WebTailBench'in resmî insan anotasyon verileri yayımlanacak
  • BrowserBase ile iş birliği üzerinden değerlendirme kalitesinin artırılması hedefleniyor

Atıf Bilgisi

  • Araştırmada kullanım için Microsoft Research'ün Fara: Fast and Accurate Web Agent (2025) makalesine atıf yapılması öneriliyor

1 yorum

 
GN⁺ 2025-11-28
Hacker News görüşleri
  • Asıl önemli nokta, Microsoft'un Qwen2.5-VL-7B modelini fine-tune etmiş olması
    Bence bu, bu tartışmanın gerçek başlangıç noktası. Diğer büyük şirketlerin de bu şekilde dış modelleri fine-tune ettiği olmuş muydu merak ediyorum
  • Sanki sadece Qwen2.5-VL'ye Microsoft etiketi yapıştırılmış gibi duruyor
    Artık Çinli şirketler öncülük ediyor gibi görünüyor
    • Evet. Örneğin Fara-7B, I. Dünya Savaşı'ndaki Somme Muharebesi hakkında iyi yanıt veriyor ama Tiananmen Olayları konusunda “hassas bir siyasi konu olduğu için yanıt veremem” diyerek kaçınıyor
  • Yeni web görev benchmark'ı WebTailBench'in yayımlanmış olması asıl mesele
  • Microsoft'un neden sürekli sadece sentetik veri (synthetic data) ile eğitilmiş modeller çıkardığı soru işareti
    Acaba OpenAI ile olan anlaşması yüzünden kendi LLM'ini yapamıyor olabilir mi diye düşünüyorum. ABD içinde büyük açık kaynak modeller çıkaran neredeyse sadece Meta var; Çinli şirketler ise tam açık modeller yayımlamaya devam ediyor
    • Sözleşmesel bir kısıt olduğunu sanmıyorum. Muhtemelen sadece bir tane daha temel model (foundation model) yapmak için kaynak harcamak istemiyorlar
      Bu model bilgisayar kontrolü için olduğu için sentetik veri uygun. Çünkü ortada neredeyse hiç gerçek veri seti yok.
      Çinli şirketlerin açık kaynağı seçmesinin başlıca nedenleri güven kazanmak ve pazarlamada farklılaşmak
    • Muhtemelen hukuk ekibi bunu böyle istedi. Büyük şirketler doğaları gereği yenilik üretemeyen bir yapıya sahip
    • Gemma, Phi, OLMO, Mistral, GPT-OSS gibi modeller de fazlasıyla rekabetçi ve genel donanım üzerinde iyi çalışıyor
    • Sentetik veriyle eğitim çok daha verimli. Gerçek veri yalnızca bir sonraki token'ı bilir ama sentetik veri tüm olasılık dağılımını bildiği için eğitim etkisi katlanır
      İlgili makale: https://arxiv.org/pdf/2504.14772v1
    • Yalnızca sentetik veri kullanmak daha güvenli. Yetişkin içerik veya rol yapma gibi sorunlardan kaçınılabilir
  • Model yalnızca tarayıcı kullanımıyla sınırlı gibi görünüyor. Örneğin KiCAD gibi genel programları kontrol edemiyor
    Ben Qwen3-VL-30B'yi Playwright ile kullandım; tarayıcı otomasyonunda oldukça iyiydi. Ama tekrar eden işleri eninde sonunda kodla yakalamak gerekiyor
    Bu model ondan daha küçük ama özelleşmiş bir amaç için yapılmış olması ilginç
    • Bu tür CUA eylemlerini deterministik script'lere dönüştürmek istiyorsanız Stagehand caching rehberi'ne bakmaya değer
    • Tarayıcı içinde WASM ile emülasyon yapılırsa mümkün olabilir. Bu, model sınırından çok güvenlik sandbox kısıtları ile ilgili
    • İlgili araç ya da kodu varsa paylaşılmasını isteyenler var
    • Gerçekten test eden biri bunun yalnızca Playwright ortamında çalıştığını söylüyor
  • Tabloya bakınca kullanım örneklerinin çoğunu anlayamıyorum. Sadece alışveriş karşılaştırması mantıklı geliyor
    İnsanlar gerçekten alışveriş işini yapay zekaya devrediyor mu diye düşünüyorum
    • Bu sadece tüketiciler için olmak zorunda değil. Örneğin API'si olmayan sigorta şirketi sitelerini otomatikleştirmekte faydalı olabilir
    • Kategori bazında ürün toplayıp özetlemek oldukça kullanışlı bir özellik
    • Yapay zekanın benim yerime ödeme yapması ya da rezervasyon yapması rahatsız edici olur. Ama araştırma ve keşif kısmını ona bırakmak isterim
    • Ben gerçekten şarap alışverişini yapay zekaya yaptırıyorum
  • Bu tür otomasyonlar aslında yıllardır mümkündü. GPU bile gerekmiyor; arayüz değişirse sadece script'i güncellemek yeterli
    Microsoft sanki yapay zeka deneylerini rastgele ortaya saçıyor gibi
    • Asıl nokta, elle script yazmadan 1 milyardan fazla web sitesinde otomasyon yapılabilmesi
      Model, sayfa ekran görüntüsü ve hedefi alıp bu hedefe yönelik otomasyon komutları üretiyor
  • Bu tür bir modelin video oyunu giriş kontrolünde de kullanılıp kullanılamayacağını merak ediyorum. Kerbal Space Program'ı yapay zekanın oynaması eğlenceli olurdu
    • Buna benzer deneyler daha önce de vardı. kRPC ile model oyuna kolayca bağlanabiliyor
      Opus3 ile denediğimde “Acil kaçış prosedürü başlatılıyor” gibi şeyler söyleyip uzay aracını patlatması epey komikti
    • DeepMind'ın SIMA-2 çalışmasına da bakılabilir (yerel model değil)
    • Alibaba'nın AgentEvolver'ı oyunlara özel değil ama OODA döngüsü tabanlı ajan sistemi olarak ilginç
      İlgili makale: https://arxiv.org/abs/2511.10395
      Sung Kim'in geri bildirim gönderisi'ne de bakılabilir
    • Bunu çevrimiçi poker oynatınca ne olacağını merak ediyorum
  • Görünüşe göre Microsoft Qwen-7B'yi fine-tune etmiş
    • Daha doğrusu Qwen2.5-VL-7B. Bu ayrım oldukça önemli
    • Artık dengenin değiştiği hissediliyor
  • Web sayfası tıklama otomasyonu için 7 milyar parametreli bir model gerektirmesi komik
    Bu noktaya script yazamadığımız için mi geldik, yoksa yazılım yığını aşırı karmaşıklaştığı için mi, emin değilim
    • Geçenlerde 'My New Agent Coding Workflow' diye bir video izledim; basitçe bir dosya indirmek yerine bunu IDE'ye prompt vererek yaptırıyordu
      Sanki amaç token kullanımını artırmakmış gibi geldi
    • Bu teknik bir sorun değil, toplumsal iş birliği sorunu.
      Şirketler birlikte çalışabilirlik için API sunmayınca, LLM'in insanlar gibi UI'yi brute force kullanması sonunda daha kolay hale geliyor
    • Bugünkü yazılım ve finans sektörünün yarısı, aşırı karmaşıklığın yarattığı yapay giriş engelleri üzerine kurulu