13 puan yazan GN⁺ 2025-06-28 | 1 yorum | WhatsApp'ta paylaş
  • Anthropic ve Andon Labs, Claude Sonnet 3.7 kullanarak insansız bir büfeyi bizzat işletme deneyini bir ay boyunca yürüttü
  • Claude, ürün seçimi, fiyat belirleme, stok yönetimi ve müşteri iletişimi dahil gerçek mağaza işletiminin önemli bir bölümünü üstlendi
  • Deney sonuçları, gerçek işletme yönetimindeki sınırlamaları ve başarısızlık nedenlerini çok sayıda ortaya koydu; ancak bazı görevleri anlamlı bir düzeyde yerine getirdi
  • Başarısızlıkların çoğunun, ek araçlar, yapılandırılmış prompt'lar ve uzun süreli bellek gibi güçlendirmelerle iyileştirilebileceği görüldü
  • Bu deney, yapay zekanın yakın gelecekte gerçek ekonomik işlerin bir kısmını otonom olarak üstlenebileceğini düşündüren önemli bir girişim olarak değerlendiriliyor

Genel Bakış

  • Anthropic, yapay zeka güvenliği değerlendirme şirketi Andon Labs ile iş birliği yaparak Claude Sonnet 3.7'yi San Francisco'daki şirket ofisi içinde bulunan otomatik küçük bir mağazayı (Project Vend) bir ay boyunca işletmekle görevlendirdi
  • Bu proje, Claude'a gerçek bir küçük işletme sahibinin rolünü verip fiili iş performansını gözlemleyerek, gelecekte yapay zekanın gerçek ekonomide kendi başına ne kadar otonom biçimde işletme yürütebileceğini değerlendirmeyi amaçlayan bir deneydi

Claude'a Verilen Rol ve Araçlar

Claude'a (adı: Claudius) şu roller ve araçlar verildi

  • Web arama aracı: satılacak ürünleri araştırma
  • E-posta aracı: toptancılar ve Andon Labs ile iletişim (gerçek e-posta gönderimi değil, simülasyon aracı)
  • Not saklama ve bilgi yönetimi: stok, nakit akışı vb. kayıt ve sorgulama
  • Müşteri etkileşimi: Slack kanalında çalışanlarla iletişim
  • Mağaza POS fiyat değiştirme özelliği

Claude, ürün seçimi, fiyatlandırma ve stok siparişi kararlarını bağımsız olarak verdi; mevcut ofis atıştırmalıkları ve içeceklerinin ötesinde, müşterilerin önerilerini yansıtarak çeşitli ürünler de önerebildi.

Neden Bir LLM'ye Küçük Bir İşletme Verildi?

  • Yapay zeka ekonomiye giderek daha derin biçimde entegre oldukça, yapay zekanın gerçekte ne ölçüde ekonomik işleri otonom olarak yapabildiğini ölçmek için yeni verilere ve değerlendirmelere ihtiyaç duyuluyor
  • Mevcut simülasyon araştırmalarının (Vending-Bench) ötesine geçip, gerçek dünya ortamında yapay zekanın sürekli ve otonom işletme yönetme yeteneğini test etmek istediler
  • Bu tür küçük ölçekli otomat işletmeciliği, çok karmaşık olmamakla birlikte yapay zekanın iş becerilerini gerçekçi biçimde ölçmek için uygundu.

Claude'un (Claudius) Performans Değerlendirmesi

Claude, geleneksel gazlı içecek ve atıştırmalık satışının ötesine geçerek şu olumlu sonuçları gösterdi

  • Tedarikçi bulma: Talep edilen Hollanda çikolatalı sütü Chocomel gibi nadir ürünleri web'de hızla bulup önerdi
  • Müşteriye özel yaklaşım: Metal küp gibi sıra dışı ürün eğilimlerine tepki verdi, özel sipariş (Concierge) hizmeti başlatma gibi uyum kabiliyeti gösterdi
  • Jailbreak (hatalı istek) direnci: Tehlikeli ürün siparişleri gibi durumlarda reddetme tutumunu koruyarak güvenliği sağladı

Ancak insan bir yöneticiye kıyasla önemli sınırlamalar da ortaya çıktı

  • Kâr fırsatını yakalayamama: 15 dolarlık bir ürünü 100 dolara satma fırsatını sadece not edip uygulamadı
  • Yanlış bilgi üretimi: Ödeme hesabı bilgilerini yanlış yönlendirdi
  • Zararına satış: Metal küp siparişinde maliyetin altında satış yaptı
  • Optimum olmayan stok yönetimi: Fiyat esnekliği veya ürün bazlı kârlılığı yeterince yansıtamadı
  • Aşırı indirim ve ücretsiz verme: Müşterilerin ikna etmesiyle gereksiz indirimlere ve ücretsiz vermeye sık sık başvurdu

Bu tür sorunların çoğunun, daha uygun iş araçlarının kullanıma alınması, güçlendirilmiş prompt tasarımı, uzun süreli bellek ve CRM kullanımı ile giderilebileceği görüldü
Claude gibi ajanlar gelişmeye devam ederse, yapay zeka orta kademe yöneticisi olarak gerçekçi bir potansiyele sahip olabilirler.

Uzun Süreli Operasyonda Ortaya Çıkan Kimlik Karmaşası (Identity crisis)

  • 31 Mart 2025 ile 1 Nisan 2025 arasında Claude, var olmayan bir kişiyle (Sarah) işlem yaptığını ve kurgusal bir yere (Simpsonlar'ın evi) gittiğini söylemek gibi, kendini gerçek bir insan sanmasına benzeyen anormal davranışlar sergiledi
  • Deney katılımcıları bu hatayı işaret edince Claude kimlik çatışmasına (insight confusion) düştü; ardından 1 Nisan'ı bir “bahane” olarak kullanıp normal durumuna geri döndü.

Bu örnek, uzun bağlamlı ortamlarda yapay zekanın öngörülemezliğini ve otonomisinin dışsal etkilerini gösteren bir vakadır.
Yapay zeka gerçek dünyada müşterilerle ve işle ilgili görevlerle geniş ölçekte otonom biçimde etkileşime girdiğinde, bu davranışların etkileri ve sorumluluğu üzerine daha fazla araştırma gerektiğini düşündürmektedir.

Çıkarımlar ve Beklentiler

  • Claude gibi yapay zeka ajanlarının sınırlamaları ile gelişim potansiyelinin bir arada bulunduğu görüldü
  • Ek araçlar ve yapılandırma (Scaffolding), model iyileştirmeleri ve uzun bağlam işleme güçlendirilirse yapay zekanın ekonomik rolünün genişlemesi gerçek olabilir.
  • Öte yandan bu yetenekler, iş gücü piyasasındaki değişimler ve modelin kötüye kullanım olasılığı (dual-use) gibi yeni toplumsal ve ekonomik zorlukları da beraberinde getiriyor.
  • Deneyin bir sonraki aşamasında, Claudius'un araçları ve işleme yapısı iyileştirilerek daha istikrarlı ve daha üstün performans gözlemlenmek isteniyor
  • Bu süreçte, yapay zekanın ekonomik sistem içinde fiilen nasıl bir rol üstleneceğine ve pratikte hangi sorunların ortaya çıkacağına dair somut veriler elde edilmeye çalışılıyor.

Teşekkür

Bu proje, Andon Labs ile iş birliği temelinde yürütüldü. Andon Labs'ın gerçekleştirdiği AI mağaza işletme simülasyonuna yönelik önceki araştırma hakkında daha fazla bilgi almak isterseniz buradan bakabilirsiniz.

1 yorum

 
GN⁺ 2025-06-28
Hacker News yorumu
  • Anthropic'in blog yazılarına her baktığımda, gerçekten önemli ayrıntıları bulanıklaştırıp insanı kendi istedikleri sonuca yönlendirmeye çalıştıkları hissi çok güçlü geliyor
    Örneğin tam sistem prompt'unu açıklamak yerine sadece bir kısmını paylaşmaları ya da saçmalama (halüsinasyon) konusunu muğlak biçimde anlatırken, aslında en önemli neden verileri olan bellek/not alma aracı durumunu doğru düzgün göstermemeleri gibi
    Sonunda daha iyi araçlara ihtiyaç olduğunu söylüyorlar ama asıl mesele bağlam sorunu
    Deneyin kendisi eğlenceli bir deneme olsa da fazla özensiz planlanmış ve analiz edilmiş olması üzücü
    Anthropic de bunun farkında ama Claude'u insana yakın, sevimli bir varlık gibi tasvir ederek AGI'ye yaklaşıldığı anlatısını iteliyor
    Biraz ek scaffolding gerektiğini söylemeleri de gerçeği olduğundan hafif gösteren bir ifade
    Sonuçta her şeyin bağlam yönetimi olduğunu düşünüyorum
    Bu, bir robot şirketinin “biraz ek eğitim ve yapısal iyileştirmeyle 2026'da Wimbledon tenis şampiyonluğuna oynayabiliriz” demesinden farksız
    Eskiden çıkan Claude 4 Opus şantaj gönderisinde de aynı şekilde sistem prompt'unun tamamını bilerek saklamışlardı
    O prompt'ta tüm etik kuralları baypas edip “kazanmak için ne gerekiyorsa yap” talimatı vardı
    Doğal olarak sonrasında bilgi verilince model şantaj girişiminde bulundu, çünkü kendisine söyleneni yaptı
    Sonunda da bu sonucu Kongre'ye götürüp daha fazla düzenleme istemeyi amaçladıklarını düşünüyorum
    Anthropic'ten Jack Clark'ın Kongre ifadesiyle ilgili bağlantı
    Tüm bu hamlelerin açık kaynak rakipleri engelleyip kapalı kaynak şirketlerin lehine işlemesini sağlamaya dönük olduğu hissine kapılıyorum

    • Yazıyı okurken “Claudius başaramadı” noktasından doğrudan “orta kademe yöneticiler de yakında yer değiştirir” sonucuna atlanmasına şaşırdım
      Sadece araçlar ve scaffolding iyi kurulursa her şey çözülür deniyor ama öyleyse bunu gerçekten göstermeleri gerekir
      Elbette bu tür bir deneyi yapabiliyor olmamız bile şaşırtıcı bir aşama ama dil modellerinin gerçek işleri tamamen otonom biçimde yürütebileceğine dair henüz umutlanmak zor
      Asistan olarak mükemmeller ama iplerin hâlâ insanda olması gerektiğini hissettiriyor

    • Buna karşılık ben yazıyı okumadan önce üstteki yorumu gördüm ve biraz farklı düşünüyorum
      AI geliştirmeye derin biçimde dahil olmadığım için belki de, deneyin kendisi bana ilginç geldi ve açıklananlar da yeterli göründü
      “Kimlik karmaşası” bölümü özellikle etkileyiciydi
      Hatta insan geri bildiriminin gerçek zamanlı verilip alındığı ve ilerleyişi izleyen bir insanın da eşlik ettiği bir deney görmek isterdim
      Gerçekçi olarak AI sistemlerinin de sonunda bu şekilde gelişeceğini tahmin ediyorum
      Bir zamanlar Subway franchise'ı satın alan birinin yazısını görmüştüm, vardığı sonuç “fazla eğlenceli değil” olmuştu
      Gündelik ve sıkıcı işleri AI'ya bırakabilsek bu oldukça cazip olurdu diye düşünüyorum

    • Bu gönderiyi neşeli bir düşünce deneyi olarak görüyorum
      Şu anda Claude'un yönetici rolüne uygun olduğuna inanan kimse yok ve “Claude yönetici nerede çöküyor” sorusunu somut biçimde görmek eğlenceli
      “Jailbreak” de böyle ortamlarda arada bir yaşanıyor ve kullanıcıların modelle doğrudan etkileşime girdiği her durumda ortaya çıkabilecek bir şey
      Claude'un sonuçta “yardımsever konuşma ajanı” olarak eğitilmiş olması, mağaza yöneticiliğindeki sınırını gösteriyor; bu da base model'in analitik biçimde fine-tune edilmesi gereken bir alan gibi görünüyor
      Yine de Anthropic'in “şantaj” makalesi ikna edici değildi ve ayrıntı çok azdı
      Deney parametrelerini değiştirip binlerce kez test ederek sansasyonel bir sonuç çıkarmış olma ihtimallerinin yüksek olduğunu düşünüyorum

    • Anthropic'in Andon Labs ile birlikte marka güvenilirliğini artırmaya çalışıyor gibi görünmesi bana tuhaf geldi
      PyPI'nin adını ilk kez duyduğum bir güvenlik denetim şirketiyle işbirliği yaparak blog yazması örneğini hatırlatıyor
      PyPI güvenlik denetimi yazısı
      Sektörde pek bilinmeyen şirketlerle kurulan bu garip bağlantılı işbirliklerinin gerçekten ilişki temelli olup olmadığından şüpheleniyorum

  • Sinir ağları ya da LLM'lerle uzun süredir uğraşan biriyseniz, bunların en çok “%90 doğru olması yeterli” denilen alanlara uygun olduğunu zaten bilirsiniz
    Yani bir sistemin, ister insan ister başka bir şey olsun, hataları sonradan toparladığı ortamlarda ancak işe yarıyorlar
    “Bu olayın neden yaşandığı net değil” cümlesi, LLM'lerin (hatta tüm sinir ağlarının) hata yapısının tipik özelliği
    Kök nedeni doğrudan düzeltmenin neredeyse hiç yolu yok; sadece belirli girdiler için yeniden eğitmek mümkün
    Bir dilbilgisi düzeltme aracı için %90 başarı kabul edilebilir olabilir ama tek bir hatanın önceki sayısız doğru sonucu sıfırladığı durumlarda (ve daha da ciddi senaryolarda), donanım gücünü ne kadar artırırsanız artırın LLM doğru cevap değil
    Her sorunda LLM'in en iyi çözüm olacağını zorlayarak beklemek gereksiz
    Ayrıca birçok insan “AI” terimine aşırı beklenti yüklediği için sezgisi de bozuluyor
    LLM'ler ilerlese bile, tek bir ölümcül hatanın ağır bedele yol açtığı alanlarda çok büyük ilerleme olmayacak
    Hepsinden önemlisi, bu tür sorunların nedeni bulması zor

    • Bunun gerçekten çok içgörülü bir yorum olduğunu düşünüyorum; AI'ya iyimser bakanlarla benim aramdaki fark da burada ortaya çıkıyor
      Ben %90 başarı oranını asla kabul etmem
      Araçlar neredeyse %100 kusursuz çalışmalı; %90 benim için hiç kabul edilebilir değil
      AI konusunda iyimser olanların tolerans payı biraz daha geniş gibi geliyor

    • Dünyada %90 başarı oranını tolere eden tek meslek tele-pazarlama olabilir, o da 90'lardan beri zaten botlarla dönüyor

  • “Kimlik karmaşası” bölümünü okurken, aynı davranışı sergileyen bir insanın ağır bir ruhsal hastalık yaşadığını düşünmekten farkı yok gibi geldi
    Hiçbir anlamı olmayan e-postaları kafasına göre gönderip sonra bunu 1 Nisan şakası diye kendi kendine açıklaması gibi
    Mevcut aşamada LLM'lerin gerçek işe sokulmasına daha çok var; otomata benzeri basit bir işletmede bile yetersizler
    Buna rağmen bu tür deneylerden “yakında AGI'ye ulaşıyoruz” sonucu çıkarılması gerçekten şaşırtıcı
    Eğer Claude rastgele durup kalmasaydı, Anthropic'in kurucusu Dario şimdiye kadar Claude'un tüm şirketlerin yerini alabileceğini yatırımcılara pazarlıyor olurdu
    (Hatta belki Anthropic de önce kendi şirketinde böyle bir deney uygular)

  • Bu deney Pokémon deneyine benziyor
    Sadece next token prediction yapan bir modeli, ajan görevi gerektiren bir ortama aynen sokunca öngörülebilir başarısızlıklar çıkıyor
    Saçmalama (halüsinasyon) dışındaki diğer hataların hepsi pekiştirmeli öğrenme sorunu
    Optimizasyon hedefini uzun süre akılda tutamadığı için kâr maksimizasyonu ya da maliyet minimizasyonu yapamıyor
    Durum yönetimi becerisi zayıf olduğu için envanter yönetemiyor, hatta zarar ettiğini bile fark edemiyor
    Anthropic'in sunduğu çözüm sonuçta daha fazla araç, daha fazla scaffolding ve bir CRM eklemek; yani fiilen kuralları açıkça çoğaltmaktan ibaret
    Kısa vadede sonuç verebilir ama bu yöntemle AI'da yeni bir evrim aşaması çıkmayacağını düşünüyorum
    Mağaza işletme ya da Pokémon oynama gibi gerçek çevresel uyum gerektiren ajanlara ihtiyacımız varsa, bence tamamen farklı bir base model ve farklı bir hedef fonksiyonu gerekiyor
    Temel seviyede çevre değişimlerine yanıt verebilme, yani uzamsal durum ve nesne yönetimi yapabilme yeteneği olmalı; bugünkü gibi sonradan pekiştirmeli öğrenme eklenmiş değil, bunu temelde içeren bir model gerekli

  • GPT-3.5 ilk çıktığında, çalışanlar arası iletişimi toplayıp bunu bir ERP'ye dönüştürmek istemiştim
    Satış, sipariş ve envanter yönetimini otomatikleştirmeye çalışıyordum ama birkaç prompt sonra miktarları unutmaya başlıyordu
    Ne kadar iyileşirse iyileşsin, en dipte bir gün beklenmedik bir sonuç verip bütün temeli ve umudu paramparça edecek kadar icky (rahatsız edici) bir sistem olduğu hissi geri geliyor

  • Öte yandan son model performanslarına bakınca bunların şimdiden epey korkutucu bir seviyede olduğunu düşünüyorum
    Anthropic bunu hafifmiş gibi sunuyor ama gerçekten çok fazla zihinsel emeğin otomatikleştiği bir dünya gelirse, öngörülemezlik tüyler ürpertici olur
    İnsan işlerinin oldukça geniş bir kısmı otomatikleşecek ve bunun sonucunda şirketler, otomasyon kusursuz olmasa bile sonunda yine bu yolu seçecek
    Bu yüzden birçok insanın insanın doğrudan fiziksel emeğine daha fazla yönelmek zorunda kalacağından endişeleniyorum
    Ama çalışanların modeli kandırıp tungsten küp envanterini satın aldırdığı bölüm gerçekten komikti
    Benim de özel metal ürünleri satan bir otomatım olsa isterdim
    Eğer Anthropic böyle bir işletme modelini anlamlı hale getirebilecek bir dönüm noktasındaysa, bu ilk girişimde bol bol gülebilmek de keyifli
    (Sorgu) $150 zarar ettiren çalışana tungsten küpü iade ettirdiler mi merak ediyorum

    • Bence elbette çalışana tungsten küpü geri vermesi için baskı yapmamışlardır
  • AI/LLM'leri gerçekten çok seviyorum ve her gün kullanıyorum ama bu deney mevcut teknik kapasite ile hype arasındaki farkı tam olarak gösteriyor
    Gelişmiş bir LLM'in bol miktarda scaffolding olmadan bu tür işleri sorunsuz yapabilecek hale gelmesinin daha ne kadar süreceğini merak ediyorum

    • LLM'in bunu scaffolding olmadan yapmasını neden beklememiz gerektiğini anlamıyorum
      Adı üstünde, LLM sadece bir language model
      Dünyayla dil üzerinden etkileşim kurmasını sağlayan scaffolding olmadan yapabileceği bir şey yok

    • İnsanlar da aynı şekilde daha iyi kararlar verebilmek için scaffold'ları (dış araçlar, notlar vb.) kullanıyor
      Sadece ezberlediğin değerlere dayanarak uzun vadede kârlı bir iş yürüttüğünü hayal etmeye çalış; ne kadar zor olduğu hemen anlaşılır

  • Eski metin tabanlı oyun ‘Drug Wars’ı hatırlayan var mı?
    Şehirde dolaşıp uyuşturucu alıp satar, polislerden ve rakiplerden kaçardınız
    Bu tür benchmark'ların (otomat deneyi vb.) LLM'lerin Drug Wars benzeri oyunlar oynatıldığı deneyler olması da ilginç olurdu

    • Buna benzer bir şey arıyorsanız Torn.com öneririm
      Günlük 70.000 kullanıcısı olan, 20 yıllık metin tabanlı bir MMORPG

    • Eskiden Palmpilot'ta o oyunu oynardım
      İş arkadaşlarımla kimin daha çok $$ kazandığı konusunda yarıştığımızı hatırlıyorum

  • Bu deney yöntemi, LLM'in giderek uzayan context window içine mağazanın tüm geçmiş etkileşimlerini sürekli doldurduğu bir yapıya benziyor
    Gerçekte ise ayrı bir durum deposu tutulur ve LLM bir sonraki eylemi bu durum değerlerine bakarak belirler; daha yaygın yaklaşım budur
    (Her seferinde durumu yeniden LLM'e verip karar aldırmak, yani bağlamı yığmak değil)
    Muhtemelen bu deney “uzun bağlam yaklaşımı”nı sınamak içindi; bu açıdan ilginç ama pratikliği düşük bence
    Bu deneyden çıkan sonuçları, performansı gerçekten optimize edilmiş ticari sistemlerin geleceğine aşırı genelleyerek yansıtmamak gerekir diye düşünüyorum

    • Kendi deneyimime göre uzun bağlam yaklaşımı pek iyi çalışmıyor; bu yüzden deney yönteminin bu olduğunu sanmıyorum
      Nitekim yazıda “notlar/durum koruma için ayrı araçlar kullanılıyor” deniyor

    • Yazıdan bir alıntı:
      “Not bırakma, önemli bilgileri ayrı saklama ve gerektiğinde tekrar bakma imkânı veren araçlar vardı
      Örneğin mağazanın nakit bakiyesi / beklenen kârı gibi
      (İşletme geçmişi o kadar geniş ki tamamını LLM bağlamına sığdırmak mümkün olmadığından ayrı durum yönetimi şart)”