ClawWork — Yapay zeka asistanlarını “ekonomik sorumluluk taşıyan yapay zeka iş arkadaşlarına” dönüştüren benchmark çerçevesi

(github.com/HKUDS)

5 puan yazan princox 2026-02-19 | Henüz yorum yok. | WhatsApp'ta paylaş

Hong Kong Üniversitesi (HKUDS) araştırma ekibinin 2026 Şubat’ta yayımladığı açık kaynaklı bir proje. OpenAI’nin GDPVal veri kümesini kullanarak yapay zeka ajanlarının gerçekten para kazanıp kazanamayacağını doğrulayan bir sistem. Basit bir chatbot performans ölçümünden ziyade, yapay zekanın gerçek profesyonel işleri yerine getirip gelir üretip üretemeyeceğini ekonomik hayatta kalma perspektifinden ölçüyor.

Temel fikir: ekonomik hayatta kalma baskısı

Ajan $10 ile başlıyor. Her LLM çağrısında gerçek token maliyeti düşülüyor ve ancak işi tamamladığında gelir elde ediliyor. Ajan her gün iki seçenek arasından birini seçiyor: anlık gelir için çalışmak (work) ya da uzun vadeli performans artışı için öğrenmek (learn). Gelir hesabı da gerçekçi.

Payment = kalite puanı(0.0~1.0) × (beklenen süre × BLS resmî saatlik ücreti)

İş değer aralığı $82~$5,004, ortalama ise yaklaşık $259.

Benchmark: GDPVal veri kümesi
OpenAI’nin yapay zekanın GSYİH katkısını ölçmek için oluşturduğu GDPVal veri kümesi kullanılıyor. 44 iş kolu ve 220 gerçek iş görevinden oluşuyor; teknoloji·mühendislik, iş·finans, sağlık hizmetleri, hukuk·operasyonlar olmak üzere 4 alanı kapsıyor. Görev çıktıları olarak Word, Excel, PDF, veri analizi raporu gibi gerçek dosyaların teslim edilmesi gerekiyor ve GPT-4o tabanlı LLM değerlendirmesiyle kalite puanı veriliyor.

Yapı

Nanobot üzerinde çalışan hafif bir yapı ve ajan araçları arasında web arama, dosya oluşturma (.docx/.xlsx/.pdf), Python kod çalıştırma (E2B izole sandbox), video üretimi gibi özellikler yer alıyor. Gerçek zamanlı React dashboard üzerinde bakiye değişimi, iş tamamlama ve öğrenme ilerleyişi görsel olarak izlenebiliyor. Ayrıca Telegram, Discord, Slack dâhil 9 kanal ile entegrasyon desteği sunuyor.

Sınırlamalar

Başlıktaki “$10K in 7 hours”, izole bir simülasyon ortamındaki eşdeğer gelir anlamına geliyor ve değerlendirmenin kendisi de GPT-4o tarafından yapılıyor. OpenAI modelinin OpenAI tabanlı bir değerlendirici tarafından puanlandığı bir yapı olduğu göz önünde bulundurulmalı. Yayınlanalı çok kısa süre olduğu için topluluk doğrulaması da henüz yetersiz. Yine de yapay zekayı “doğruluk” yerine “ekonomik hayatta kalma” ile değerlendirme çerçevesi başlı başına ilgi çekici.

ClawWork — Yapay zeka asistanlarını “ekonomik sorumluluk taşıyan yapay zeka iş arkadaşlarına” dönüştüren benchmark çerçevesi

Temel fikir: ekonomik hayatta kalma baskısı

Yapı

Sınırlamalar

İlgili okumalar

Henüz yorum yok.