- Factorio oyununu temel alan Factorio Learning Environment (FLE), uzun vadeli planlama, program üretimi ve kaynak optimizasyonunu test eden bir ortamdır.
- FLE, temel otomasyondan karmaşık fabrikalara kadar ölçeklenebilen zorluklar sunar ve iki ayar içerir: sabit kaynaklarla 24 yapılandırılmış görevin yerine getirildiği
Lab-play ve sonsuz görevler sunan Open-play.
- FLE'nin önemi
- FLE, kod üretimi, mekânsal akıl yürütme ve uzun vadeli planlamayı değerlendirmek için altyapı, API ve metrikler sağlar.
- Ajanlar kaynak çıkarır, karmaşık üretim zincirlerini yönetir ve bunun üzerinden giderek daha karmaşık hedefler belirleyip bunlara ulaşmalıdır.
- Ortam ve ajanlar
- Ajanlar ortamla Python API üzerinden etkileşime girer, program gönderir ve geri bildirim alarak stratejilerini geliştirir.
- Ajan programları, üretim puanı (PS) ve teknolojik ilerlemeyi gösteren kilometre taşları üretir.
- Deney düzeni
- İki deney ayarı vardır:
Open-play ve Lab-play.
- Altı adet son teknoloji dil modeli değerlendirildi: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
- Open-Play
- Ajanlar, prosedürel olarak oluşturulmuş bir dünyada "en büyük fabrikayı inşa etme" hedefini taşır.
- Ajanların yetenekleri üretim puanı üzerinden değerlendirilir; daha üstün modeller daha yüksek puanlar ve daha dik büyüme eğrileri gösterir.
- Lab-Play
- Ajanlara kaynak verilir ve sınırlı süre içinde hedefe ulaşmaları gerekir.
- 24 hedef varlığı üretme görevini yerine getirirler; her varlık giderek daha karmaşık hale gelir.
- Temel içgörüler
- Kodlama becerisi performansı öngörür; teknoloji yatırımı ve planlama büyümeyi yönlendirir.
- Mekânsal akıl yürütme ve hata kurtarma başlıca zorluklardır.
- Modeller farklı programlama stilleri sergiler.
- Sonuç
- En yeni LLM'ler bile otomasyon görevlerinin koordinasyonu ve optimizasyonu konusunda zorlanır.
- Factorio'nun teknoloji ağacının karmaşıklığı, yapay zeka araştırmaları ilerlemeye devam etse bile hâlâ zorlu bir değerlendirme senaryosu sunar.
- FLE, karmaşık ve sonsuz bir alanda ajan yeteneklerini araştırmak için açık kaynaklı bir platform olarak sunulmaktadır.
1 yorum
Hacker News yorumu
Anthropic Factorio araştırma laboratuvarına başvurmak istiyorum. Multimodal veri aktarımı olup olmadığını merak ediyorum. Kısa süre önce çıkan Qwen 2.5 VLM, boyutuna göre güçlü görünüyor
Reinforcement learning kullanarak Pokémon Red'i bitiren ekip hakkında bir HN gönderisi vardı. Bu yaklaşımın Factorio'ya uygulanıp uygulanamayacağını merak ediyorum
Tüm modeller, çok bölümlü fabrikalar kurarken mekânsal planlamada sınırlılık gösterdi
Büyük ve verimli fabrikaları otonom biçimde kurmak için LLM'ler üst düzey ajanlar olarak kullanılabilir
Denenebilecek çok ilginç unsur var. Zamanla ilgili unsurlar içeren laboratuvar senaryoları iyi bir fikir gibi görünüyor
Bu tarz bir arayüz için insan oyuncu benchmark'ı olup olmadığını merak ediyorum
Birkaç yıl sonra oyunlardaki tüm rakiplerin, oyun kontrol API'sine erişimi olan LLM'ler olup olmayacağını merak ediyorum
"Lab Play" görevlerinin başka bir kategorisi olarak balancer tasarımı ilginç olabilir gibi görünüyor
Daha büyük fabrikaların daha fazla görselini görmek isterdim
Yalnızca birkaç karmaşık senaryo olması ilginç