Fara-7B: Bilgisayar Kullanımı için Verimli Bir Ajan Modeli

(github.com/microsoft)

3 puan yazan GN⁺ 2025-11-28 | 1 yorum | WhatsApp'ta paylaş

Fara-7B, 7 milyar parametreden oluşan ultra kompakt bir ajan tipi dil modeli (SLM) olup, web tarayıcısını gerçekten kullanarak görevleri yerine getiren bir Computer Use Agent mimarisi sunuyor
Fare ve klavye girdilerini doğrudan tahmin ederek web sayfalarını görsel olarak algılıyor ve yönetiyor; ek erişilebilirlik ağacı ya da ayrıştırma modeli olmadan insanlarla aynı şekilde etkileşime giriyor
Cihaz üzerinde çalıştırılabiliyor, böylece gecikmeyi azaltıyor ve gizliliği güçlendiriyor; görevleri ortalama 16 adımda tamamlayarak aynı sınıftaki modellere kıyasla verimlilik sağlıyor
WebTailBench dahil çeşitli benchmark'larda aynı sınıftaki ve daha büyük modelleri geride bırakan performans sergiliyor; özellikle web otomasyonu ve çok adımlı görevlerde yüksek başarı oranına ulaşıyor
Microsoft'un yayımladığı WebTailBench veri seti ile birlikte, web tabanlı ajan değerlendirmesi ve yeniden üretilebilir deney ortamı sağlayarak gerçek web etkileşimi araştırmalarının standartlaşmasına katkı sunuyor

Fara-7B Genel Bakış

Microsoft'un ilk bilgisayar kullanımı odaklı ajan tipi küçük dil modeli (SLM) olarak, 7 milyar parametre ölçeğinde son teknoloji performans sunuyor
Qwen2.5-VL-7B temel alınarak, Magentic-One çoklu ajan çerçevesi ile üretilen sentetik verilerle (145.000 rota) eğitildi
7B parametre ile yerel olarak çalıştırılabiliyor, böylece gecikme azalıyor ve veri gizliliği güçleniyor

Temel Özellikler

Web sayfalarını görsel manipülasyon temelli algılıyor; kaydırma, tıklama ve yazma gibi gerçek kullanıcı davranışlarını taklit ediyor
İnsanlarla aynı girdi modalitelerini kullanıyor; ayrıca bir ayrıştırma modeline ihtiyaç duymuyor
Görevleri ortalama 16 adımda tamamlayarak benzer modellere (ortalama 41 adım) göre daha verimli çalışıyor
Cihaz üzerinde dağıtım sayesinde buluta bağımlılığı azaltıyor ve kişisel veri korumasını güçlendiriyor

Desteklenen Yetenekler

Web'de arama ve sonuç özetleme
Form doldurma, hesap yönetimi
Uçak bileti, sinema ve restoran rezervasyonu
Çevrimiçi alışveriş ve fiyat karşılaştırma
İş ilanı ve emlak bilgisi arama

Performans Karşılaştırması

WebVoyager, Online-M2W, DeepShop, WebTailBench olmak üzere 4 benchmark'ta değerlendirildi
Fara-7B, WebVoyager %73,5, Online-M2W %34,1, DeepShop %26,2, WebTailBench %38,4 başarı oranına ulaştı
Aynı sınıftaki modellerden (UI-TARS-1.5-7B) ve daha büyük modellerden (GLM-4.1V-9B) daha yüksek performans gösterdi

WebTailBench Benchmark'ı

11 gerçek web görevi türünü kapsayan 609 görevden oluşuyor
Tek site görevlerini (alışveriş, uçuş, otel vb.) ve çok adımlı görevleri (karşılaştırmalı alışveriş, birleşik görevler vb.) içeriyor
Fara-7B, tüm kategorilerde bilgisayar kullanımı modelleri arasında en yüksek performansı kaydetti
- Örnek: otel %53,8, uçuş %37,9, alışveriş %52,4, karşılaştırmalı alışveriş %32,7

Değerlendirme Altyapısı

Gerçek tarayıcı ortamını yeniden oluşturmak için Playwright kullanılıyor
Abstract Web Agent Interface ile farklı modeller entegre edilebiliyor
Fara-Agent Class üzerinden model çalıştırma ve test desteği sunuluyor
Deneysel açık sürüm olduğundan, sandbox ortamında çalıştırma ve hassas veri kullanımını sınırlama öneriliyor

Kurulum ve Çalıştırma

pip install -e . veya uv sync --all-extras ile kuruluyor
Playwright tarayıcılarının kurulması gerekiyor
Azure Foundry üzerinden bulut barındırma veya VLLM ile GPU üzerinde self-hosting destekleniyor

Komut örneği:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Yeniden Üretilebilirlik ve Değerlendirme Ortamı

WebVoyager ve OnlineMind2Web değerlendirmelerini yeniden üretmeye yönelik webeval/ çerçevesi sunuluyor
BrowserBase entegrasyonu ile kararlı tarayıcı oturumu yönetimi sağlanıyor
Zamana duyarlı görev güncellemeleri, ortam hatası işleme ve 100 adım sınırı ile değerlendirme tutarlılığı korunuyor
WebVoyager veri setindeki imkânsız 48 görev çıkarıldı, gelecekteki tarihlere sahip 50 görev güncellendi

Değerlendirme Çalıştırma ve Analiz

Değerlendirme betikleri webeval/scripts dizininden çalıştırılıyor
VLLM ile self-hosting veya Azure Foundry endpoint'i seçeneklerinden biri kullanılabiliyor
Sonuçlar gpt_eval/, traj/, screenshot_X.png vb. olarak kaydediliyor
Jupyter Notebook ile ortalama puan, başarısızlık nedenleri ve yarıda kesilen rotalar analiz edilebiliyor

Gelecek Planları

LLM-as-a-judge değerlendirmesi için doğrulama hattı ve WebTailBench'in resmî insan anotasyon verileri yayımlanacak
BrowserBase ile iş birliği üzerinden değerlendirme kalitesinin artırılması hedefleniyor

Atıf Bilgisi

Araştırmada kullanım için Microsoft Research'ün Fara: Fast and Accurate Web Agent (2025) makalesine atıf yapılması öneriliyor

1 yorum

GN⁺ 2025-11-28

Hacker News görüşleri

Asıl önemli nokta, Microsoft'un Qwen2.5-VL-7B modelini fine-tune etmiş olması
Bence bu, bu tartışmanın gerçek başlangıç noktası. Diğer büyük şirketlerin de bu şekilde dış modelleri fine-tune ettiği olmuş muydu merak ediyorum
Sanki sadece Qwen2.5-VL'ye Microsoft etiketi yapıştırılmış gibi duruyor
Artık Çinli şirketler öncülük ediyor gibi görünüyor
- Evet. Örneğin Fara-7B, I. Dünya Savaşı'ndaki Somme Muharebesi hakkında iyi yanıt veriyor ama Tiananmen Olayları konusunda “hassas bir siyasi konu olduğu için yanıt veremem” diyerek kaçınıyor
Yeni web görev benchmark'ı WebTailBench'in yayımlanmış olması asıl mesele
Microsoft'un neden sürekli sadece sentetik veri (synthetic data) ile eğitilmiş modeller çıkardığı soru işareti
Acaba OpenAI ile olan anlaşması yüzünden kendi LLM'ini yapamıyor olabilir mi diye düşünüyorum. ABD içinde büyük açık kaynak modeller çıkaran neredeyse sadece Meta var; Çinli şirketler ise tam açık modeller yayımlamaya devam ediyor
- Sözleşmesel bir kısıt olduğunu sanmıyorum. Muhtemelen sadece bir tane daha temel model (foundation model) yapmak için kaynak harcamak istemiyorlar
  Bu model bilgisayar kontrolü için olduğu için sentetik veri uygun. Çünkü ortada neredeyse hiç gerçek veri seti yok.
  Çinli şirketlerin açık kaynağı seçmesinin başlıca nedenleri güven kazanmak ve pazarlamada farklılaşmak
- Muhtemelen hukuk ekibi bunu böyle istedi. Büyük şirketler doğaları gereği yenilik üretemeyen bir yapıya sahip
- Gemma, Phi, OLMO, Mistral, GPT-OSS gibi modeller de fazlasıyla rekabetçi ve genel donanım üzerinde iyi çalışıyor
- Sentetik veriyle eğitim çok daha verimli. Gerçek veri yalnızca bir sonraki token'ı bilir ama sentetik veri tüm olasılık dağılımını bildiği için eğitim etkisi katlanır
  İlgili makale: https://arxiv.org/pdf/2504.14772v1
- Yalnızca sentetik veri kullanmak daha güvenli. Yetişkin içerik veya rol yapma gibi sorunlardan kaçınılabilir
Model yalnızca tarayıcı kullanımıyla sınırlı gibi görünüyor. Örneğin KiCAD gibi genel programları kontrol edemiyor
Ben Qwen3-VL-30B'yi Playwright ile kullandım; tarayıcı otomasyonunda oldukça iyiydi. Ama tekrar eden işleri eninde sonunda kodla yakalamak gerekiyor
Bu model ondan daha küçük ama özelleşmiş bir amaç için yapılmış olması ilginç
- Bu tür CUA eylemlerini deterministik script'lere dönüştürmek istiyorsanız Stagehand caching rehberi'ne bakmaya değer
- Tarayıcı içinde WASM ile emülasyon yapılırsa mümkün olabilir. Bu, model sınırından çok güvenlik sandbox kısıtları ile ilgili
- İlgili araç ya da kodu varsa paylaşılmasını isteyenler var
- Gerçekten test eden biri bunun yalnızca Playwright ortamında çalıştığını söylüyor
Tabloya bakınca kullanım örneklerinin çoğunu anlayamıyorum. Sadece alışveriş karşılaştırması mantıklı geliyor
İnsanlar gerçekten alışveriş işini yapay zekaya devrediyor mu diye düşünüyorum
- Bu sadece tüketiciler için olmak zorunda değil. Örneğin API'si olmayan sigorta şirketi sitelerini otomatikleştirmekte faydalı olabilir
- Kategori bazında ürün toplayıp özetlemek oldukça kullanışlı bir özellik
- Yapay zekanın benim yerime ödeme yapması ya da rezervasyon yapması rahatsız edici olur. Ama araştırma ve keşif kısmını ona bırakmak isterim
- Ben gerçekten şarap alışverişini yapay zekaya yaptırıyorum
Bu tür otomasyonlar aslında yıllardır mümkündü. GPU bile gerekmiyor; arayüz değişirse sadece script'i güncellemek yeterli
Microsoft sanki yapay zeka deneylerini rastgele ortaya saçıyor gibi
- Asıl nokta, elle script yazmadan 1 milyardan fazla web sitesinde otomasyon yapılabilmesi
  Model, sayfa ekran görüntüsü ve hedefi alıp bu hedefe yönelik otomasyon komutları üretiyor
Bu tür bir modelin video oyunu giriş kontrolünde de kullanılıp kullanılamayacağını merak ediyorum. Kerbal Space Program'ı yapay zekanın oynaması eğlenceli olurdu
- Buna benzer deneyler daha önce de vardı. kRPC ile model oyuna kolayca bağlanabiliyor
  Opus3 ile denediğimde “Acil kaçış prosedürü başlatılıyor” gibi şeyler söyleyip uzay aracını patlatması epey komikti
- DeepMind'ın SIMA-2 çalışmasına da bakılabilir (yerel model değil)
- Alibaba'nın AgentEvolver'ı oyunlara özel değil ama OODA döngüsü tabanlı ajan sistemi olarak ilginç
  İlgili makale: https://arxiv.org/abs/2511.10395
  Sung Kim'in geri bildirim gönderisi'ne de bakılabilir
- Bunu çevrimiçi poker oynatınca ne olacağını merak ediyorum
Görünüşe göre Microsoft Qwen-7B'yi fine-tune etmiş
- Daha doğrusu Qwen2.5-VL-7B. Bu ayrım oldukça önemli
- Artık dengenin değiştiği hissediliyor
Web sayfası tıklama otomasyonu için 7 milyar parametreli bir model gerektirmesi komik
Bu noktaya script yazamadığımız için mi geldik, yoksa yazılım yığını aşırı karmaşıklaştığı için mi, emin değilim
- Geçenlerde 'My New Agent Coding Workflow' diye bir video izledim; basitçe bir dosya indirmek yerine bunu IDE'ye prompt vererek yaptırıyordu
  Sanki amaç token kullanımını artırmakmış gibi geldi
- Bu teknik bir sorun değil, toplumsal iş birliği sorunu.
  Şirketler birlikte çalışabilirlik için API sunmayınca, LLM'in insanlar gibi UI'yi brute force kullanması sonunda daha kolay hale geliyor
- Bugünkü yazılım ve finans sektörünün yarısı, aşırı karmaşıklığın yarattığı yapay giriş engelleri üzerine kurulu

Fara-7B: Bilgisayar Kullanımı için Verimli Bir Ajan Modeli

Fara-7B Genel Bakış

Temel Özellikler

Desteklenen Yetenekler

Performans Karşılaştırması

WebTailBench Benchmark'ı

Değerlendirme Altyapısı

Kurulum ve Çalıştırma

Yeniden Üretilebilirlik ve Değerlendirme Ortamı

Değerlendirme Çalıştırma ve Analiz

Gelecek Planları

Atıf Bilgisi

İlgili okumalar

1 yorum

Hacker News görüşleri