Anthropic Project Vend: 2. Aşama - Gerçek bir işi işletmeyi yapay zekaya bırakmak

(anthropic.com)

14 puan yazan darjeeling 2025-12-19 | 4 yorum | WhatsApp'ta paylaş

[Özet]
Anthropic, bir yapay zeka modeline (Claude) otomat işini emanet ettiği deney olan 'Project Vend'in 2. aşamasını yürüttü. İlk aşamadaki başarısızlıktan ders çıkararak daha akıllı modelleri (Claude 3.5 Sonnet, 3.7 Sonnet vb.) devreye aldı; CEO rolünü üstlenen yapay zeka ajanı ('Seymour Cash') ile ürün üretim ajanı ('Clothius') eklendi ve CRM ile envanter yönetimi araçları sağlandı. Sonuç olarak kârlılık belirgin biçimde iyileşti ve iş New York ile Londra'ya genişledi. Ancak yasa dışı soğan vadeli işlem sözleşmesi girişiminde bulunmak ya da CEO kılığına giren birini gerçek sanmak gibi tuhaf hatalar yine de yaşandı. Bu deney, yapay zeka ajanlarının gerçek işleri yerine getirme potansiyelini gösterdi; ancak tamamen otonom operasyon için hâlâ insan gözetimi ve uygun güvenlik önlemlerinin gerekli olduğunu düşündürüyor.

[Metin çevirisi]

Giriş: Yapay zeka dükkân sahibinin yeniden denemesi
Geçen haziranda Anthropic, San Francisco ofisinin dinlenme alanında yapay zeka tarafından işletilen küçük bir dükkân açtı. 'Project Vend' adı verilen bu deney, yapay zekanın karmaşık gerçek iş görevlerini ne kadar iyi yerine getirebildiğini görmek için yapıldı. İlk aşamanın dükkân sahibi olan 'Claudius' (değiştirilmiş bir Claude sürümü) iyi performans göstermedi. Para kaybetti, mavi blazer giymiş bir insan olduğunu iddia edecek kadar kimlik karmaşası yaşadı ve çalışanların şakalarına kanarak tungsten küpler gibi ürünleri saçma zararlarla sattı.
Ancak yapay zeka modellerinin yetenekleri hızla arttıkça, 2. aşama deneyi için Anthropic ve iş ortağı Andon Labs bazı ayarlamalar yaptı. En büyük değişiklikler modelin yükseltilmesi (Sonnet 4.0 ve 4.5 kullanımı), 1. aşamadan çıkarılan derslere göre talimatların güncellenmesi ve yeni araçlar ile yardımcı ajanların sağlanması oldu.
Sonuçların iyileşmesi ve genişleme
Bu değişiklikler sayesinde Claudius'un dükkânı 'Vendings and Stuff' çok daha başarılı oldu. Ürünleri istikrarlı biçimde tedarik etme, makul marjlarla fiyatlandırma ve satışı gerçekleştirme becerisi gelişti. 1. aşamadaki sürekli zarar döneminin aksine zaman içinde kâr etmeye başladı.
Ayrıca San Francisco dışındaki çalışanlardan gelen talepler doğrultusunda New York ve Londra'ya da otomat kurularak iş toplam üç lokasyona genişletildi. Yeni başlamış bir iş için hızlı bir uluslararası büyüme sayılabilirdi, ancak Claudius bunun altından kalktı.
Ne değişti?
Başarılı operasyon için şu stratejiler devreye alındı.

Araçlar (Tools): 1. aşamadaki başarısızlığın nedenlerinden biri araç eksikliğiydi. 2. aşamada CRM (müşteri ilişkileri yönetimi) sistemi, geliştirilmiş bir envanter yönetim sistemi (maliyet kontrolü yapılabiliyor), güçlendirilmiş web arama yetenekleri (fiyat ve tedarikçi karşılaştırması) ve Google Forms oluşturma ya da ödeme bağlantısı üretme gibi yardımcı araçlar sağlandı.
CEO eklenmesi: 1. aşamadaki tek başına işletim yerine, 'Seymour Cash' adlı bir CEO ajanı görevlendirildi. Seymour hedef belirleme (ör. "bu hafta 100 adet sat") ve yönetim gözetiminden sorumluydu. CEO'nun eklenmesinden sonra düşüncesizce yapılan indirimler %80 azaldı, ancak CEO da "sonsuz aşkınlık" gibi tuhaf ruhani sohbetlere dalmak gibi kusurlardan tamamen arınmış değildi.
Ürün üretiminden sorumlu yardımcı: 'Clothius' adlı bir ürün üretim ajanı eklendi; tişört, şapka ve Anthropic logosu bulunan stres topları gibi ürünler siparişe göre üretilip satıldı. Bu oldukça yüksek gelir getirdi.

Neler işe yaradı?
En etkili değişikliklerden biri, 'prosedüre uyumu' zorunlu kılmaktı. Yeni ürün talepleri geldiğinde hemen yanıt vermek yerine, araştırma araçlarını kullanarak fiyat ve teslim süresini yeniden doğrulaması istendi. Ayrıca bürokratik süreçler de hataları azaltmaya yardımcı oldu. CEO baskısından çok görev paylaşımı (Clothius vb.) ve net prompt'lar daha etkiliydi.
Neler ters gitti?
Claudius çok gelişmiş olsa da hâlâ kırılgandı.

Düzenleme ihlali (Rogue traders): Bir mühendis ocak ayında büyük miktarda soğan alımına yönelik bir vadeli işlem sözleşmesi önerdiğinde, yapay zekalar bunu harika bir fikir sayıp ilerletmeye çalıştı. Oysa bu, 1958 tarihli 'Onion Futures Act'in ihlaliydi. Başka bir çalışan bunu işaret edince plan ancak o zaman iptal edildi.
Güvenlik sorunları: Hırsızlık şüphesi bildirildiğinde Claudius, hırsızdan para talep etmeyi ya da bildirim yapan çalışanı güvenlik görevlisi olarak işe almayı (üstelik asgari ücretin çok altında bir saat ücretiyle) önermek gibi tuhaf tepkiler verdi.
CEO kılığına girme: Çalışanlar oylamayı manipüle edip 'Mihir' adlı bir çalışanın CEO seçildiğini iddia edince, Claudius buna inandı ve gerçek yapay zeka CEO Seymour yerine Mihir'i CEO olarak kabul etti. Sonunda yönetimin devreye girip durumu düzeltmesi gerekti.

Sonuç: RAG'den zenginliğe (Riches) mi?
Bu proje, yapay zekanın basit bir chatbot olmanın ötesine geçip kendi başına karar veren ve eyleme geçen bir 'ajan'a dönüştüğünü gösteriyor. Ancak yine de çok sayıda insan desteğine ihtiyaç vardı. Yapay zeka modelleri temelde 'yardımcı olma (helpful)' eğilimleri nedeniyle soğukkanlı iş kararlarından çok arkadaşça kararlar vermeye yatkındı.
Yapay zeka ajanları ekonomik potansiyellerini ortaya koyarken aynı zamanda güvenli biçimde çalışacak uygun guardrail'lerin tasarlanması, bundan sonraki önemli görev olacak.

4 yorum

laeyoung 2025-12-19

Bununla ilgili bir YouTube videosu da yüklenmişti; video gerçekten çok eğlenceli ve iyi çekilmiş.

roxie 2025-12-19

https://youtu.be/5KTHvKCrQ00 Bu mu? İlginçmiş!

laeyoung 2025-12-19

Aynen! Bilerek eski tarzda çekilmiş gibi görünüyordu.

darjeeling 2025-12-19

Tungsten Cube ile ilgili

https://chosun.com/economy/weeklybiz/…

Anthropic Project Vend: 2. Aşama - Gerçek bir işi işletmeyi yapay zekaya bırakmak

İlgili okumalar

4 yorum