1 puan yazan GN⁺ 2025-03-12 | 1 yorum | WhatsApp'ta paylaş
  • Factorio oyununu temel alan Factorio Learning Environment (FLE), uzun vadeli planlama, program üretimi ve kaynak optimizasyonunu test eden bir ortamdır.
  • FLE, temel otomasyondan karmaşık fabrikalara kadar ölçeklenebilen zorluklar sunar ve iki ayar içerir: sabit kaynaklarla 24 yapılandırılmış görevin yerine getirildiği Lab-play ve sonsuz görevler sunan Open-play.
  • FLE'nin önemi
    • FLE, kod üretimi, mekânsal akıl yürütme ve uzun vadeli planlamayı değerlendirmek için altyapı, API ve metrikler sağlar.
    • Ajanlar kaynak çıkarır, karmaşık üretim zincirlerini yönetir ve bunun üzerinden giderek daha karmaşık hedefler belirleyip bunlara ulaşmalıdır.
  • Ortam ve ajanlar
    • Ajanlar ortamla Python API üzerinden etkileşime girer, program gönderir ve geri bildirim alarak stratejilerini geliştirir.
    • Ajan programları, üretim puanı (PS) ve teknolojik ilerlemeyi gösteren kilometre taşları üretir.
  • Deney düzeni
    • İki deney ayarı vardır: Open-play ve Lab-play.
    • Altı adet son teknoloji dil modeli değerlendirildi: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
  • Open-Play
    • Ajanlar, prosedürel olarak oluşturulmuş bir dünyada "en büyük fabrikayı inşa etme" hedefini taşır.
    • Ajanların yetenekleri üretim puanı üzerinden değerlendirilir; daha üstün modeller daha yüksek puanlar ve daha dik büyüme eğrileri gösterir.
  • Lab-Play
    • Ajanlara kaynak verilir ve sınırlı süre içinde hedefe ulaşmaları gerekir.
    • 24 hedef varlığı üretme görevini yerine getirirler; her varlık giderek daha karmaşık hale gelir.
  • Temel içgörüler
    • Kodlama becerisi performansı öngörür; teknoloji yatırımı ve planlama büyümeyi yönlendirir.
    • Mekânsal akıl yürütme ve hata kurtarma başlıca zorluklardır.
    • Modeller farklı programlama stilleri sergiler.
  • Sonuç
    • En yeni LLM'ler bile otomasyon görevlerinin koordinasyonu ve optimizasyonu konusunda zorlanır.
    • Factorio'nun teknoloji ağacının karmaşıklığı, yapay zeka araştırmaları ilerlemeye devam etse bile hâlâ zorlu bir değerlendirme senaryosu sunar.
    • FLE, karmaşık ve sonsuz bir alanda ajan yeteneklerini araştırmak için açık kaynaklı bir platform olarak sunulmaktadır.

1 yorum

 
GN⁺ 2025-03-12
Hacker News yorumu
  • Anthropic Factorio araştırma laboratuvarına başvurmak istiyorum. Multimodal veri aktarımı olup olmadığını merak ediyorum. Kısa süre önce çıkan Qwen 2.5 VLM, boyutuna göre güçlü görünüyor

    • Mekânsal yetenek eksikliği hakkında çok fazla yorum var. Görsel aktarımı olup olmadığıyla ilgili düşünceleri merak ediyorum
    • Bu çalışma şaşırtıcı. Hemen şimdi bu projeye katılmak istiyorum
    • MCP'nin Python kütüphanelerini etkinleştirmesi, doğal ve gerekli bir görev gibi görünüyor
  • Reinforcement learning kullanarak Pokémon Red'i bitiren ekip hakkında bir HN gönderisi vardı. Bu yaklaşımın Factorio'ya uygulanıp uygulanamayacağını merak ediyorum

    • Factorio'daki başlıca "gerekli görev", yeni eşyaların ve bilim paketlerinin otomasyonunu kurmak
    • Ödül fonksiyonu, her eşyanın üretim hızı için küçük ödüller, yeni bir eşyanın otomasyonu için orta büyüklükte ödüller ve yeni bir bilim paketinin otomasyonu için büyük ödüller içerebilir
    • Bir Factorio ajanına "büyük bir fabrika kur" demek, bir Pokémon Red ajanına "oyunu bitir" demekle aynı
  • Tüm modeller, çok bölümlü fabrikalar kurarken mekânsal planlamada sınırlılık gösterdi

    • LLM'lerin mekânsal akıl yürütmede zayıf olmasının nedeni, yeterli eğitim verisi olmaması
    • Mekânsal akıl yürütme çözüldüğünde hangi ek akıl yürütme yeteneklerinin ortaya çıkacağını merak ediyorum
  • Büyük ve verimli fabrikaları otonom biçimde kurmak için LLM'ler üst düzey ajanlar olarak kullanılabilir

    • Kaynak üretimi için hedef belirleme
    • Fabrika grafiği oluşturma ve kaynak taşımayı hesaplama
    • Grafiği bir donanım tanımlama diline eşleme
    • 2D FPGA yerleşimine derleme
    • Planı somut Factorio tasarımlarına eşleme
  • Denenebilecek çok ilginç unsur var. Zamanla ilgili unsurlar içeren laboratuvar senaryoları iyi bir fikir gibi görünüyor

    • DOTA 2 veya StarCraft 2 deneylerinden farklı olan framework tasarımını beğendim
    • Yerleşim optimizasyonu benchmark'ları planlanıp planlanmadığını merak ediyorum
  • Bu tarz bir arayüz için insan oyuncu benchmark'ı olup olmadığını merak ediyorum

    • Programatik Factorio'nun nasıl bir his vereceğini merak ediyorum
  • Birkaç yıl sonra oyunlardaki tüm rakiplerin, oyun kontrol API'sine erişimi olan LLM'ler olup olmayacağını merak ediyorum

    • Modellerin zorlandığı belirli görev türleri olup olmadığını merak ediyorum
  • "Lab Play" görevlerinin başka bir kategorisi olarak balancer tasarımı ilginç olabilir gibi görünüyor

    • Küçük bir balancer bile karmaşık olabilir
  • Daha büyük fabrikaların daha fazla görselini görmek isterdim

    • Bu, mevcut LLM'lerin büyük bir zayıflığını açıkça gösteriyor
    • Online öğrenme/uyum konusunda daha büyük iyileşmeler bekliyorum
  • Yalnızca birkaç karmaşık senaryo olması ilginç

    • ML oyun ajanlarının oyun mekaniklerini gerçekten öğrenmesi için yüzlerce küçük bulmaca gerektiğini hep düşünmüşümdür
    • Senaryolar programatik olarak üretilip bir IQ testi soru bankası gibi kullanılabilir
    • ML ajanlarının daha büyük bir senaryo havuzundan örnekler değerlendirirken daha hızlı öğrendiğini varsayıyorum