Koreli geliştiricinin açık kaynaklı Ouroboros’u, Claude Plan Mode’u geride bırakarak modelleme ve simülasyon benchmark’ında 1. oldu

(github.com/Q00)

2 puan yazan shaun0927 1 시간 전 | Henüz yorum yok. | WhatsApp'ta paylaş

Koreli bir geliştiricinin oluşturduğu açık kaynak proje Ouroboros,
kısa süre önce yayımlanan "AI-assisted discrete-event simulation" benchmark’ında genel sıralamada 1. oldu.

Özellikle anlamlı olan nokta, aynı Claude Max ortamında çalıştırılmış olmasına rağmen Claude’un kendi plan mode’undan daha iyi sonuç vermesiydi.

Bu benchmark, basit kodlama yeteneğini ölçen bir test değil; AI ajanının gerçek bir sistemi ne kadar iyi anlayabildiğini,
modelleyebildiğini ve çalıştırılabilir simülasyon çıktıları üretebildiğini değerlendiren yüksek zorlukta bir görevdi.

Görev, bir maden taşıma sistemini konu alıyordu ve kabaca şu yetenekleri gerektiriyordu:

Maden kamyonları, yükleme noktaları, boşaltma noktaları, rotalar, kuyruklar gibi sistem yapısını anlama
Gerçek dünyadaki karmaşık süreci bir discrete-event simulation modeli olarak soyutlama
Hangi olayların gerçekleşeceğini, hangi durumların değişeceğini ve hangi metriklerin ölçüleceğini tasarlama
Gerçekte çalıştırılabilir simülasyon kodunu uygulama
Darboğaz, throughput, bekleme süresi gibi sonuçları yorumlama
topology diagram, animation gibi insanların kolay anlayabileceği çıktılar üretme

Ouroboros, Claude Code içinde ooo workflow ile çalıştırıldı ve
sunulan çıktı yalnızca basit bir kod uygulamasının ötesine geçerek maden kamyonlarının cevher taşımasını gösteren bir animasyon ile topology diagram da içeriyordu.

İlginç olan nokta, çalışma sırasında MCP server başarısız olmasına rağmen
Ouroboros’un skills tabanlı bir yaklaşımla fallback yapıp iyi sonuç üretmesiydi.
Benim açımdan özellikle anlamlı olan kısım da buydu.
Çünkü gerçek ortamlarda AI workflow’ları her zaman ideal şekilde çalışmaz;
başarısız olduğunda toparlanıp başka bir yoldan devam edebilme yeteneği önemlidir.

Ouroboros’un hedeflediği yön, yalnızca “AI’ye kod yazdırmak” değil.

AI’nın problemi netleştirdiği, plan yaptığı, uyguladığı, hatadan kurtulduğu, sonucu değerlendirdiği
ve gerekirse yeniden iyileştirdiği bir workflow kuruyor.

Bu benchmark’ın, böyle bir yaklaşımın gerçek ve karmaşık problem çözümünde de anlamlı olduğunu gösteren iyi bir doğrulama olduğunu düşünüyorum.

Bir diğer ilginç nokta da, sadece çok sayıda yönerge veya büyük skill’ler ekleme yaklaşımının her zaman iyi sonuç vermemesiydi.
Bu sonuçta bazı fat skills tabanlı yaklaşımlar (örneğin superpowers), temel plan mode’dan bile daha düşük performans gösterdi;
buna karşılık Ouroboros gibi problem tanımı, planlama, yürütme, değerlendirme ve toparlanmayı yapılandıran workflow’lar daha iyi sonuç verdi.

Kişisel olarak, “Koreli bir geliştiricinin oluşturduğu açık kaynaklı AI workflow’unun
Anthropic’in varsayılan plan mode’unu geride bırakmış olması” beni gururlandırıyor.
Ama daha da önemlisi, bunun gelecekte AI ajanlarının gerçek problemleri çözebilmek için
nasıl bir yapıya sahip olması gerektiğine dair küçük bir deney sonucu gibi görünmesi.

Ouroboros GitHub: https://github.com/Q00/ouroboros
Benchmark: https://lnkd.in/dhGMsGVD

Koreli geliştiricinin açık kaynaklı Ouroboros’u, Claude Plan Mode’u geride bırakarak modelleme ve simülasyon benchmark’ında 1. oldu

İlgili okumalar

Henüz yorum yok.