Şu anda 32 ülkedeki haber/bilgi toplama hizmetini ve başlıca ülkeler (ABD, Japonya, Birleşik Krallık, Kore) ile coin/vadeli işlem piyasalarının günlük anlık görüntülerini MCP(Model Context Protocol) ile sunan bir işlev geliştirdim. Şu anda da bunu temel alarak, OpenClaw'a benzer şekilde serbestçe hareket edebilen bir yatırım programı geliştiriyorum.
Üzerinde düşündüğüm iki nokta var.
-
Yapay zekanın 'serbestlik derecesi' ile frontend UI'ın birlikte var olması
Mevcut yazılımlar gibi önceden belirlenmiş UI ve işlevleri temel olarak sunarken, her bir işlevi API'leştirip IDE'nin ya da yapay zekanın bunları eksiksiz biçimde anlayıp kontrol edebilmesini sağlayacak şekilde geliştiriyorum. Sonuçta gelecekte yazılım geliştirmenin odağının, yapay zekanın işlevleri ne kadar özgürce genişletip çalıştırabildiği, yani 'yapay zekanın serbestlik derecesi' olacağını düşünüyorum; bu konuda görüşlerinizi merak ediyorum. -
Kullanıcı deneyiminin değişimi: "Şunu yap" dönemi
Kullanıcılar gelecekte sadece "Şunu yap" gibi basit bir komutla istedikleri sonuca ulaşmak isteyecektir. Hatta geliştiricinin önceden tanımlamadığı bir işlev olsa bile, yapay zekanın doğrudan internette arama yaparak ya da kod yazarak kullanıcının ihtiyacını karşılaması gerektiğini düşünüyorum. (Örn. bir hukuk programı bile kullanıcı isterse uçak rezervasyonu yapmasına yardımcı olabilecek seviyeye kadar)
Teknoloji kullanıcıya en üst düzeyde kolaylık sağlamalıysa, biz geliştiriciler 'kapalı işlevler' yerine 'açık genişletilebilirlik' konusunu nereye kadar düşünmeliyiz? OpenClaw gibi ajanların ortaya çıkmasıyla bu konu son günlerde beni daha da fazla düşündürüyor.
5 yorum
Ben 1. durumu test ediyorum
Sonuç olarak, başarısız deneyimler biriktikçe kendi kendine kısıtlar koymaya başlamıştı
Bilginiz olsun, ben halüsinasyonu pass channel keşif motoru olarak kullandığım aşamadayım
(a) mevcut uygulamanın işlevlerini daha da genişletmek
(b) daha önce denenmiş, "insan"ın yaptığı çeşitli servislerin API'lerini birleştirerek işlevi genişletmek
(a) için, henüz bunu yapay zekaya bırakıp işlevleri istediği gibi genişletmesine güvenemiyorum.
(b) ise kontrollü olduğu için en azından biraz daha iyi görünüyor.
Ancak bir "hukuk programı"nın uçak bileti rezervasyonu yapacağını kesinlikle düşünmüyorum. O zaman artık o bir hukuk programı olmaz. Genel amaçlı bir Her OS olur. İnsanların organizasyonları ve sorumlulukları bölmesinin bir nedeni olduğu gibi, programlama/mimariyi de böyle ayırmamızın bir nedeni olduğunu düşünüyorum. Benim ne istediğimi gerçekten anlayıp bütün bu işleri tamamen benim zevkime göre halletmesi fikri, dijital klon tartışmasına benziyor gibi.
"Şunu yap", uzun süredir beni tanıyan kişisel bir asistan gibi, ayrıntılı ve somut biçimde tek tek anlatmama gerek kalmaması demek (bugün çok konuşulan spec-driven yaklaşımı gibi); bunun için de benimle ilgili her şeyi tarayıp bilgi biriktirmesi ve hatırlaması gerekir. Ama bu süreçten geçse bile sonunda yine bazı hatalar ortaya çıkıyor (Her'de de ilk kurulum sırasında kullanıcının e-postalarını ve tüm verilerini inceleyen bir sahne vardır) -- önemli olan bu hataları ne kadar iyi fark edip ayıklayabildiği ve onları düzeltebilmeyi öğrenip öğrenemediği; ama bana kalırsa buna daha çok var. İnsanlara iş yaptırdıysanız bilirsiniz, 10-20 yıl birlikte çalıştığınız insanlar bile niyetinizi tam olarak anlamaz; ya da sezgisi zayıf olanlar bunu hiç anlayamaz ve sürekli hata yapar... İnsan bile böyleyken, momento benzeri ve sorumluluğu olmayan yapay zekayı önce bu insan seviyesine çıkarmak gerektiğini düşünüyorum.
Sözünü ettiğiniz açık genişleyebilirlik yönüne gidilmesi güzel olurdu, ama bunun için genel amaçlı kişisel asistan yapay zekası olması gerekir (yukarıda başka birinin yazdığı gibi, tost makinesi başka işler yapmamalı) ve kullanıcıyla etkileşim içinde kullanıcıyı sürekli öğrenmesi gerekir. Bir otomobilin vergi beyannamesi hazırlamasını beklemem. İnsanlarda da durum aynı; bir çalışana belirli bir iş verdiniz diye başka işleri de yaparsa işveren buna sevinebilir de, ama çoğu durumda bence endişelenir.
Açık dokümantasyon ve iyi tasarlanmış erişilebilirlik eninde sonunda kazanır. Yapay zekanın serbestlik derecesine özellikle odaklanmaya gerek yok; iyi tasarlanmış erişilebilirlik hem insanlar hem de yapay zeka için anlaşılması kolaydır.
Hayır, en az ayrıcalık ilkesi mutlaka korunmalıdır. Ben tost makinemin sadece ekmek kızartmasını isterim; internete bağlanıp haber özetlemesini ve Doom çalıştırmasını değil.
Felsefi olarak Andy Clark’ın genişletilmiş zihin teorisini öneririm. Her şeyi inandırıcılıktan ibaret olan LLM’lerin araçlar üzerinden bilişsel olarak genişlediği kısmı anlamak için derin bir kavrayış sağlayacaktır.
Pratikte ise OpenCode, ajan kurgusunun tüm parçalarını açık ettiği için size yardımcı olacaktır.
Şu anda uğraştığınız alan için, geleneksel ML’yi MCP olarak sunmak daha iyi olabilir diye düşünüyorum. Dil modelleri, örüntü analizi ya da doğrusal tahmin konusunda hiç avantajlı değil.
Araç simetrisini ille de insan UI’ına dayanarak tasarlamak gerekmiyor gibi görünüyor. Nasıl olsa UI’nin kendisini ajanın doğrudan yorumlayıp kontrol ettiği webMCP ya da GDI tabanlı otomatik MCP çok yakında gelecektir. Sonuçta insanlara yönelik çok sayıda legacy sistemi kullanmak gerekecek. Native multimodal özelliklere sahip LLM tabanlı bir ajan varsa, geliştiricinin GUI’yi zahmet edip MCP’ye çevirmesine de gerek kalmayacaktır. Foundation’ın GUI hakimiyeti güçlü olan iOS’ta bu, belki de bir sonraki sürümde hemen başlayabilir.
Böyle olursa, herhangi bir hisse senedi uygulamasını kurmanız bile yatırım işini ajana devretmeniz için yeterli olacaktır.