45 puan yazan GN⁺ 18 일 전 | 3 yorum | WhatsApp'ta paylaş
  • Meta ve UBC'nin birlikte duyurduğu HyperAgents, yalnızca görev yürütme kodunu değil, iyileştirme mekanizmasının kendisini de bizzat değiştiren öz-göndergesel AI ajanı çerçevesi
  • Kodlama, makale inceleme, robotik ve matematik değerlendirme gibi çeşitli alanlarda öz-iyileştirmeyi yinelemeleri sonucunda ajanlar kalıcı bellek, performans takibi, çok aşamalı doğrulama pipeline'ları gibi yapıları bağımsız olarak icat etti
  • Ajanların kendi başlarına inşa ettiği bu bileşenler, geliştiricilerin elle kurduğu prodüksiyon harness'larının temel unsurlarıyla birebir örtüşüyor
  • Harness, yalnızca geliştirme kolaylığı sağlayan bir unsur değil; ajan sistemlerinin yakınsayan mimarisi ve ajanlar altyapının tüketicisinden üreticisine dönüşüyor
  • Geliştiricinin rolü, harness'i doğrudan kurmaktan, ajanların etkili harness'leri evrimleştirebileceği başlangıç koşullarını tasarlamaya doğru kayıyor

HyperAgents'e genel bakış

  • Meta ve UBC'nin yeni makalesinde tanıtılan HyperAgents, yalnızca görev çözme davranışlarını değil, gelecekteki iyileştirmeleri üreten mekanizmanın kendisini de değiştirebilen öz-göndergesel (self-referential) ajanlar
  • Dikkat çekici nokta, öz-iyileştirmeye bırakıldığında ajanların vardığı sonucun, geliştiricilerin bugün elle kurduğu bileşenleri yeniden icat etmesi
  • Hyperagent, altyapının üreticisi (producer) olarak tanımlanıyor

HyperAgents vs Universal Agents

  • Universal Agent, kod yazarak neredeyse her problemi doğaçlama biçimde çözebilen, son derece uyarlanabilir bir yürütücü (executor); ancak yine de insanın tasarladığı altyapı (harness) içinde çalışıyor
  • Hyperagent ise altyapının üreticisi olarak, minimum durumdan başlayıp öz-göndergesel evrim yoluyla kendi prodüksiyon seviyesindeki harness'ını bootstrap ediyor

Harness'in tanımı ve temel bileşenleri

  • Harness, AI ajanının nasıl çalışacağını yöneten yazılım sistemi; araçları, belleği, yeniden denemeleri, context engineering'i ve doğrulamayı yöneterek modelin muhakemeye odaklanmasını sağlıyor
  • Prodüksiyon harness'i için gereken 6 temel bileşen:
    • Tool Integration: Araç kaydı ve çalıştırma
    • Memory & State: Sonuçların adımlar arasında kalıcılaştırılması
    • Context Engineering: Dinamik prompt birleştirme
    • Planning: Karmaşık görevleri aşamalara ayırma
    • Verification: Çıktıyı kurallara karşı doğrulama
    • Modularity: Bileşenleri bağımsız olarak açıp kapatma
  • Geleneksel olarak bu alan, geliştiricilerin ToolRegistry sınıfını, MemoryManager'ı, yeniden deneme döngülerini ve prompt birleştirme mantığını doğrudan yazdığı insan mühendisliği alanıydı
  • HyperAgents makalesinin sorduğu soru şu: "Ajan bu bileşenleri kendi başına kurarsa ne olur?"

HyperAgents nasıl çalışıyor

  • Makalenin tanıttığı çerçeve DGM-Hyperagents (DGM-H) ve temel fikir basit
  • Hyperagent, iki unsuru içeren tek bir düzenlenebilir program:
    • Verilen görevi çözen Task Agent
    • Task Agent'ı ve kendisini değiştiren Meta Agent
  • Buradaki anahtar sözcük "itself"; Meta Agent kendi kodunu yeniden yazabiliyor ve iyileştirme üreten mekanizmanın kendisi de iyileştirmenin hedefi oluyor
  • Makale buna metabilişsel öz-değişim (metacognitive self-modification) adını veriyor
  • Sistem bir evrim döngüsüyle çalışıyor:
    • Temel ajanla başlıyor
    • Meta Agent ajan kodunu okuyup geçmiş performansı analiz ederek değiştirilmiş bir sürüm üretiyor
    • Değiştirilmiş sürüm değerlendiriliyor; performans daha iyiyse archive'e ekleniyor
    • Archive'den seçim yapılıp süreç tekrarlanıyor
  • Yüzlerce yineleme boyunca ajan yalnızca görevlerde daha iyi hale gelmiyor, daha iyi iyileşme yeteneği de gelişiyor

Öz-iyileştirmeyle ortaya çıkan bileşenler

  • Kodlama, makale inceleme, robotik ödül tasarımı ve olimpiyat matematiği değerlendirmesi gibi farklı alanlarda öz-iyileştirme sonucunda ajanların bağımsız olarak icat ettiği unsurlar:

Kalıcı bellek (Persistent Memory)

  • Geliştirici talimatı olmadan ajan kendi bellek sistemini evrimleştirdi
  • Çünkü geçmiş sonuçları hatırlayabilen, performans eğilimlerini izleyebilen ve sentezlenmiş içgörüleri saklayabilen ajanlar bunu yapamayanları geçti
  • Makaledeki bellek girdisi örnekleri: nedensel hipotezleri saklama, en yüksek performanslı nesilleri belirleme, aşırı değişiklik teşhisi, başarılı stratejilerin nasıl birleştirileceğine dair öneriler

Performans takibi (Performance Tracking)

  • Ajan kendi başına gözlemlenebilirlik (observability) kurdu
  • Buna iyileştirme trendleri için hareketli ortalamalar, nesil bazında özet istatistikler ve alan bazında puan geçmişleri dahil
  • Bu, geliştiricilerin harness'e elle eklediği token takibi ve denetim loglama ile aynı işlevi görüyor

Çok aşamalı değerlendirme pipeline'ları (Multi-stage Evaluation Pipelines)

  • Makale inceleme alanında ajan, yüzeysel davranış talimatlarından açık bir çok aşamalı değerlendirme pipeline'ına evrildi
  • Buna kontrol listeleri, karar kuralları ve açıkça tanımlanmış kriterler dahil
  • Sonuç olarak ajan kendi doğrulayıcısını (verifier) kurmuş oldu

Eşik tabanlı karar protokolleri (Decision Protocols with Thresholds)

  • Ajan açık karar sınırları geliştirdi: kabul/red oranları, puan eşikleri, güven düzeyleri vb.
  • Bu da harness doğrulayıcılarının uyguladığı kural tabanlı kontrollerle aynı yapı

Alan bilgi tabanları (Domain Knowledge Bases)

  • Robotik ödül tasarımında ajan; ortam kısıtları, geçerli durum değişkenleri ve ödül ölçekleme sezgiselleri gibi unsurları içeren dahili bir bilgi tabanını adım adım kurup rafine etti
  • Bu, ajanın kendi kendisi için doğru bağlamı birleştirmeyi öğrenmesinin, yani context engineering'in bir sonucu

Yeniden deneme ve öz-düzeltme (Retry and Self-Correction)

  • Ajan üzerinde yapılan bir değişiklik performansı kötüleştirdiğinde, sonraki nesiller regresyonu teşhis edip düzeltti
  • Bu, harness'lerin uyguladığı geri bildirim enjeksiyonu içeren yeniden deneme döngüleriyle aynı örüntü

Daha büyük resim — tek bir akışta yakınsayan trend

  • Çeşitli araştırmalarda izlenen örüntü tek bir akışta birleşiyor:
    • Harness Engineering: Geliştiricilerin ajanın çevresinde kurduğu 6 bileşenin tanımı
    • From Copilot to Codex: İnsan yazımı koddan ajana devredilen koda geçiş
    • Universal Agents: Kodlama yeteneğinin ajanları genel amaçlı hale getirdiği iddiası
    • HyperAgents: Ajanların öz-değişim yoluyla kendi harness'larını kurması
  • Ajanlar, altyapının tüketicisinden üreticisine, harness içinde çalışan aşamadan harness'i mühendislikle kuran aşamaya geçiyor
  • DGM-H makalesindeki somut gösterim: yalnızca tek bir LLM çağrısı yapan çıplak bir ajanla başlayıp, yüzlerce öz-değişim yinelemesinden sonra kalıcı bellek, performans takibi, çok aşamalı değerlendirme pipeline'ları, alan bilgi tabanları ve modüler kod yapısı barındıran bir yapıya evriliyor
  • Geliştiricinin rolü ortadan kalkmıyor; dönüşüyor ve makale insan gözetiminin zorunlu olduğunu vurguluyor
  • Rol, harness'i doğrudan kurmaktan, ajanın etkili harness'leri evrimleştirebilmesi için başlangıç koşullarını tasarlamaya kayıyor

3 yorum

 
geesecross 18 일 전

Harness bileşenlerinin yeniden icadının kaçınılmaz bir yakınsamadan ziyade, web araması vb. yollarla yeterince önceki örnek zaten bulunabildiği için bunları takip etmenin sonucu olduğunu düşünüyorum.

Yalnızca geçmiş verilerle eğitilip erişilebilen bir durumda, AI ajan bileşenlerini yeniden icat etmeyi başardığı ölçüde buna mimari yakınsama denilemez mi?

 
ng0301 17 일 전

Skynet'in başlangıcı mı bu? lol

 
ilfjh 17 일 전

Bu mantıklı mı gerçekten??...