- Fara-7B, 7 milyar parametreden oluşan ultra kompakt bir ajan tipi dil modeli (SLM) olup, web tarayıcısını gerçekten kullanarak görevleri yerine getiren bir Computer Use Agent mimarisi sunuyor
- Fare ve klavye girdilerini doğrudan tahmin ederek web sayfalarını görsel olarak algılıyor ve yönetiyor; ek erişilebilirlik ağacı ya da ayrıştırma modeli olmadan insanlarla aynı şekilde etkileşime giriyor
- Cihaz üzerinde çalıştırılabiliyor, böylece gecikmeyi azaltıyor ve gizliliği güçlendiriyor; görevleri ortalama 16 adımda tamamlayarak aynı sınıftaki modellere kıyasla verimlilik sağlıyor
- WebTailBench dahil çeşitli benchmark'larda aynı sınıftaki ve daha büyük modelleri geride bırakan performans sergiliyor; özellikle web otomasyonu ve çok adımlı görevlerde yüksek başarı oranına ulaşıyor
- Microsoft'un yayımladığı WebTailBench veri seti ile birlikte, web tabanlı ajan değerlendirmesi ve yeniden üretilebilir deney ortamı sağlayarak gerçek web etkileşimi araştırmalarının standartlaşmasına katkı sunuyor
Fara-7B Genel Bakış
- Microsoft'un ilk bilgisayar kullanımı odaklı ajan tipi küçük dil modeli (SLM) olarak, 7 milyar parametre ölçeğinde son teknoloji performans sunuyor
- Qwen2.5-VL-7B temel alınarak, Magentic-One çoklu ajan çerçevesi ile üretilen sentetik verilerle (145.000 rota) eğitildi
- 7B parametre ile yerel olarak çalıştırılabiliyor, böylece gecikme azalıyor ve veri gizliliği güçleniyor
Temel Özellikler
- Web sayfalarını görsel manipülasyon temelli algılıyor; kaydırma, tıklama ve yazma gibi gerçek kullanıcı davranışlarını taklit ediyor
- İnsanlarla aynı girdi modalitelerini kullanıyor; ayrıca bir ayrıştırma modeline ihtiyaç duymuyor
- Görevleri ortalama 16 adımda tamamlayarak benzer modellere (ortalama 41 adım) göre daha verimli çalışıyor
- Cihaz üzerinde dağıtım sayesinde buluta bağımlılığı azaltıyor ve kişisel veri korumasını güçlendiriyor
Desteklenen Yetenekler
- Web'de arama ve sonuç özetleme
- Form doldurma, hesap yönetimi
- Uçak bileti, sinema ve restoran rezervasyonu
- Çevrimiçi alışveriş ve fiyat karşılaştırma
- İş ilanı ve emlak bilgisi arama
Performans Karşılaştırması
- WebVoyager, Online-M2W, DeepShop, WebTailBench olmak üzere 4 benchmark'ta değerlendirildi
- Fara-7B, WebVoyager %73,5, Online-M2W %34,1, DeepShop %26,2, WebTailBench %38,4 başarı oranına ulaştı
- Aynı sınıftaki modellerden (UI-TARS-1.5-7B) ve daha büyük modellerden (GLM-4.1V-9B) daha yüksek performans gösterdi
WebTailBench Benchmark'ı
- 11 gerçek web görevi türünü kapsayan 609 görevden oluşuyor
- Tek site görevlerini (alışveriş, uçuş, otel vb.) ve çok adımlı görevleri (karşılaştırmalı alışveriş, birleşik görevler vb.) içeriyor
- Fara-7B, tüm kategorilerde bilgisayar kullanımı modelleri arasında en yüksek performansı kaydetti
- Örnek: otel %53,8, uçuş %37,9, alışveriş %52,4, karşılaştırmalı alışveriş %32,7
Değerlendirme Altyapısı
- Gerçek tarayıcı ortamını yeniden oluşturmak için Playwright kullanılıyor
- Abstract Web Agent Interface ile farklı modeller entegre edilebiliyor
- Fara-Agent Class üzerinden model çalıştırma ve test desteği sunuluyor
- Deneysel açık sürüm olduğundan, sandbox ortamında çalıştırma ve hassas veri kullanımını sınırlama öneriliyor
Kurulum ve Çalıştırma
Yeniden Üretilebilirlik ve Değerlendirme Ortamı
- WebVoyager ve OnlineMind2Web değerlendirmelerini yeniden üretmeye yönelik
webeval/ çerçevesi sunuluyor
- BrowserBase entegrasyonu ile kararlı tarayıcı oturumu yönetimi sağlanıyor
- Zamana duyarlı görev güncellemeleri, ortam hatası işleme ve 100 adım sınırı ile değerlendirme tutarlılığı korunuyor
- WebVoyager veri setindeki imkânsız 48 görev çıkarıldı, gelecekteki tarihlere sahip 50 görev güncellendi
Değerlendirme Çalıştırma ve Analiz
- Değerlendirme betikleri
webeval/scripts dizininden çalıştırılıyor
- VLLM ile self-hosting veya Azure Foundry endpoint'i seçeneklerinden biri kullanılabiliyor
- Sonuçlar
gpt_eval/, traj/, screenshot_X.png vb. olarak kaydediliyor
- Jupyter Notebook ile ortalama puan, başarısızlık nedenleri ve yarıda kesilen rotalar analiz edilebiliyor
Gelecek Planları
- LLM-as-a-judge değerlendirmesi için doğrulama hattı ve WebTailBench'in resmî insan anotasyon verileri yayımlanacak
- BrowserBase ile iş birliği üzerinden değerlendirme kalitesinin artırılması hedefleniyor
Atıf Bilgisi
- Araştırmada kullanım için Microsoft Research'ün Fara: Fast and Accurate Web Agent (2025) makalesine atıf yapılması öneriliyor
1 yorum
Hacker News görüşleri
Bence bu, bu tartışmanın gerçek başlangıç noktası. Diğer büyük şirketlerin de bu şekilde dış modelleri fine-tune ettiği olmuş muydu merak ediyorum
Artık Çinli şirketler öncülük ediyor gibi görünüyor
Acaba OpenAI ile olan anlaşması yüzünden kendi LLM'ini yapamıyor olabilir mi diye düşünüyorum. ABD içinde büyük açık kaynak modeller çıkaran neredeyse sadece Meta var; Çinli şirketler ise tam açık modeller yayımlamaya devam ediyor
Bu model bilgisayar kontrolü için olduğu için sentetik veri uygun. Çünkü ortada neredeyse hiç gerçek veri seti yok.
Çinli şirketlerin açık kaynağı seçmesinin başlıca nedenleri güven kazanmak ve pazarlamada farklılaşmak
İlgili makale: https://arxiv.org/pdf/2504.14772v1
Ben Qwen3-VL-30B'yi Playwright ile kullandım; tarayıcı otomasyonunda oldukça iyiydi. Ama tekrar eden işleri eninde sonunda kodla yakalamak gerekiyor
Bu model ondan daha küçük ama özelleşmiş bir amaç için yapılmış olması ilginç
İnsanlar gerçekten alışveriş işini yapay zekaya devrediyor mu diye düşünüyorum
Microsoft sanki yapay zeka deneylerini rastgele ortaya saçıyor gibi
Model, sayfa ekran görüntüsü ve hedefi alıp bu hedefe yönelik otomasyon komutları üretiyor
Opus3 ile denediğimde “Acil kaçış prosedürü başlatılıyor” gibi şeyler söyleyip uzay aracını patlatması epey komikti
İlgili makale: https://arxiv.org/abs/2511.10395
Sung Kim'in geri bildirim gönderisi'ne de bakılabilir
Bu noktaya script yazamadığımız için mi geldik, yoksa yazılım yığını aşırı karmaşıklaştığı için mi, emin değilim
Sanki amaç token kullanımını artırmakmış gibi geldi
Şirketler birlikte çalışabilirlik için API sunmayınca, LLM'in insanlar gibi UI'yi brute force kullanması sonunda daha kolay hale geliyor