- OpenAI, ChatGPT içinde çalışan uygulamalar geliştirmeyi destekleyen bir çerçeve olan Apps SDK'yı duyurdu
- Geliştiricilere bu SDK'yı kullanarak ChatGPT içinde çalışan yeni uygulamalar oluşturabilecekleri ve deneysel özellikleri özgürce test edebilecekleri bir ortam sunuyor
- Apps SDK şu anda preview (önizleme) sürümü olarak sunuluyor; uygulama gönderimi ve resmi dağıtımın bu yılın ilerleyen dönemlerinde yapılması planlanıyor
- Bu çerçeve, ChatGPT platformunun genişletilebilirliği ve özelleştirilmiş uygulama geliştirme fırsatlarının önünü açarak çeşitli yazılım ve hizmetlerin entegrasyonu ile otomasyonunu mümkün kılacak gibi görünüyor
- Geliştirme ekosisteminin genişlemesiyle verimlilik artışının ve yenilikçi hizmetlerin ortaya çıkmasının hızlanması bekleniyor
1 yorum
Hacker News görüşleri
ChatGPT'nin giderek web'de gezinmenin başlangıç noktası hâline gelmesi ilginç; artık arama yapmaya bile gerek kalmadan temel harita, Stripe ödemesi, uçak bileti rezervasyonu gibi iş akışları sunulacak ve insanların günlük olarak yaptığı sıradan işlerin çoğu kapsanacak
Son 2 yılda bu ilerlemenin en büyük darboğazı model değil; mühendislik, altyapı ve şirketlerin OpenAI ile doğrudan iş birliği yapma isteğiydi
Şimdi OpenAI büyüyüp kullanıcı tabanı genişledikçe şirketler çok daha istekli şekilde yatırım yapmak ya da katılmak istiyor
Bu değişim yalnızca kullanıcı merkezli internet kullanımını değil, SDK tabanlı daha fazla araç ortaya çıktıkça insan iş akışlarının chatbot üzerinden akan trafik ile SEO optimizasyonuna ve sohbet/ajanlara göre şekillenen yeni web arasında bölünmesi sonucunu da doğuracak
Benim gibi yapay zekayı kullanmak istemeyen çok kişi olduğunu düşünüyorum
Özellikle uçak bileti alırken mesele yapay zekanın hata yapacağına dair güvensizlik değil, işi bizzat benim yönetmek istemem
Bir bakıma, araba kullanmanın uçmaktan daha tehlikeli olduğunu bilsek de araba kullanmanın daha güvenli hissettirmesi gibi
Sonuçta önemli olan kontrolün bende olması
Neden uygulamaları zorla bir sohbet kutusunun içinde açıp garip bir formatta gösterdikten sonra sonunda gerçek uygulamaya link verdiklerini anlamıyorum
Bunun yerine uygulamanın içine sohbet kutusu koymak daha standart bir yaklaşım
Tek bir şirket internet kullanımının tamamını kontrol eder, filtreler ve yönetirse internetin anlamı kalmaz diye düşünüyorum
Elbette Google'ın da benzer olduğu argümanını anlıyorum ama en azından Google aramasıyla gerçek sitelere gidebiliyorsunuz
ChatGPT üzerinden bir tür 'kulaktan kulağa' oyunu gibi gidip gelinen yapı fazla korkunç
Sesli asistana alışveriş yaptırmayı hiç düşünmediğim gibi, önemli kararları da bir LLM'ye bırakmak kesinlikle olmaz
Kredi kartı ödemelerimi bırakın, uçak bileti rezervasyonunu bile ona emanet ettiğimi hayal edemiyorum
OpenAI bu fırsata kullanıcılar patlayıcı biçimde artmaya başladığından beri sahipti ama pratikte bunu plugin'ler ve GPT'lerle gerektiği gibi değerlendiremedi diye düşünüyorum
İronik biçimde bu alanda oyunu değiştiren şey Anthropic'in MCP'si olabilir
ChatGPT'nin geleceğin genel amaçlı kullanıcı arayüzü olacağı inancı altında bu fikir kulağa makul geliyor
Ama gerçekte bugünkü ajan trendi tam tersine, sohbet arayüzünü daha katı UI paradigmalarının arkasına saklamanın daha iyi olduğunu gösteriyor
Sohbetin harika bir arayüz olabileceği çok fazla alan olduğunu düşünüyorum
ChatGPT bu alanların dağıtıcısı olursa Google'ın yerini alabilir
Yine de belirli alanlarda özelleştirilmiş arayüz doğru yaklaşım ve o alan yeterince değerliyse özel bir arayüz yapan biri mutlaka çıkar
Bugünlerde ajanların başlıca kullanım örneği kod üretimi ve hedef kullanıcı IDE ya da kod editörüne alışkın
Token kullanımının büyük bir kısmını oluştursa da bu, genel kullanıcıların ihtiyaç ve isteklerini temsil etmiyor
Sohbet arayüzünün bu kadar yaygınlaşmasının sebebinin kendi başına taşıdığı avantajlar olduğuna eminim
Genel ajan kullanımında da sohbet, yazı yazarak ya da sesle giriş yapmanın rahatlığını sağlıyor
Ses-ses ya da video kullanımı da kolayca birleştirilebiliyor
İleride video üretimi gerçek zamanlı olsa bile çoğu sonucu metin olarak tüketmek daha rahat olacak
İnsanların chatGPT'ye Zillow ya da Canva ile kendi yerlerine konuşmasını söylemek istemeyeceğini düşünüyorum
Zillow'dan ev fiyatı sorgulamak ya da Canva'da grafik hazırlatmak gibi bir istekte bulunabilirler ama belirli bir uygulamanın kendisini çağırma ihtiyacı hissetmezler
Sonuçta uygulamalar kullanıcıyı chatGPT'ye devrederek ona bağımlı hâle geldikçe, chatGPT'nin işlevi doğrudan sunup uygulamaların yerini alması kaçınılmaz olur
Yani sohbetin her şeyi kapsayan arayüz olduğu fikriyle kendi hizmetinizi chatGPT'ye açarsanız, aslında kendi hayatta kalmanızı zorlaştırmış olursunuz
Sesli arayüz ile sohbetin gerçekten çok iyi bir kombinasyon olduğunu düşünüyorum; örneğin yürürken sesli olarak yabancı dil dersi almak ya da web araması yapmak çok kullanışlı
NotebookLM gibi not uygulaması biçimlerini de haftada bir iki kez kullanıyorum
Küçük açık modelleri daha büyük bir sisteme bağlayıp yapısal veri çıkarımında kullanmak gibi pek çok deney yapılabilir
Mevcut agentic sistemlerin (MCP vb.) pratik faydasına şüpheyle yaklaşıyorum
Yine de bugün AGI konuşulmadığı için mutluyum
ASI ve AGI hayallerine FOMO ile kapılmak elde sonunda yalnızca iflas bırakabilir
Geleceğin arayüzü, işlevleri veri kümeleriyle eğitilmiş ve donanıma gömülü yerel yapay zeka olacak
Bir EE olarak ve enerji modelleme alanında çalışırken, osiloskopun geometrik özelliklerini düşündüğümde denklemler bu yapıyı yeniden kurabiliyor
Kullanıcılar parametre arayüzü üzerinden istedikleri sonucu kolayca elde edebilir
Bugünün işletim sistemleri metin işleme için sanal makinelerse, gelecek koordinatları işleyen vektör sanal makineleri olacak
Bellek matrisi ile ekran matrisinin senkronizasyonuna indirgersek, geliştiriciler yakında eski tip metin işlemekten kurtulacak
Gerçekte görünce düşünüldüğü kadar yenilikçi değil
"Uygulamalar" aslında fiilen sadece MCP sunucuları ve tek fark HTML döndürebilme seçeneği
MCP'nin temel sorunu da şu: tek oyunculu olması, kullanıcının her zaman "çekmesi (pull)" gerekmesi ve bağlantı yapısının uygulama açmaktan daha sezgisel olmaması
İdeal durumda her uygulamanın kendine özgü bir giriş noktası olmalı, kullanıcıya push bildirimi gönderebilmeli ve arayüz içinde kalıcılık sunmalı
Ana arayüz de sohbet değil HTML olmalı
Şu anki durumun GPT'lere benzer bir sonla biteceğini düşünüyorum
Servis kullanıcı ile LLM'yi proaktif biçimde sürekli bağlı tutarsa MCP sunucuları gerçekten güçlü bir yapışkanlık kazanır
Kurulum/kimlik doğrulama süreci de uzman olmayanların ihtiyaçlarına göre giderek daha kolay olacak
Phind 2'yi yaparken yanıtların içine dinamik widget'ları doğrudan gömdüğümü hatırladım, o yüzden ilginç geldi
Bu yaklaşımın zayıf noktası, uygulama/widget giriş ve çıkış şemalarının hardcoded olması
Widget kapsamına giren işlerde çok iyi çalışıyor ama Zillow'da özel gelişmiş filtreleme kullanmak ya da StreetEasy ile entegre olmak isteyince sınırlar hemen hissediliyor
Artık kullanıcı açısından ileri özellikler yoksa, basitçe kullanılamaz hâle geliyor
Bence gerçekten yenilikçi olan şey, 'anlık üretilen UI'
Yakında Phind'de bununla ilgili bir güncelleme olacak (Phind'in kurucusuyum)
Phind gerçekten çok iyi
Eskiden Google gibi alakasız sonuçlar atan klasik arama motorlarından bunaldığımda istediğim bilgiyi Phind ile hızlıca buluyordum
Ama son zamanlarda LLM'ler aramayı da iyi yaptığı için bugünlerde sadece LLM kullanıyorum
Mevcut MCP-UI projelerinin zaten var olması, bunun mümkün olmasına şaşırtmıyor
Ama hâlâ gerçek kullanım için fazla yavaş, o yüzden iyileştirilmesi gerektiği hissediliyor
Ben de ürünümüzde benzer bir şey yapmayı düşünüyorum ve şema kısıtlarına çözüm olarak widget'ları mümkün olduğunca genel amaçlı bloklar olarak tasarlayıp kullanım alanını genişletmeyi düşünüyorum
Henüz fikir aşamasında ama modelin çeşitli modüler widget'lar arasından göreve göre seçip birleştirmesi nasıl olur diye düşünüyorum
Örneğin arama sonuçlarını tekil öğe, matris biçimli karşılaştırma, filtreleme bölümü gibi parçalara ayırıp bağlamı değiştirerek oturum içinde farklı şekillerde ele almasını araştırıyorum
Phind'de bu deneyim hakkında yazdığınız bir şey varsa bakmak isterim
Bence bu tür sınırlamalar sohbet ile önceden hazırlanmış ya da isteğe göre üretilen widget'ların birleşmesiyle çözülecek
Açılış sunumu demosunda sohbet arayüzüyle Zillow'daki evleri köpek parkı yakınındakilerle filtrelemek gibi gelişmiş filtreleme, birden fazla kaynaktan bilgiyi birleştirerek mümkündü
MCP ile bu sorun çözülebilir
Uygulamaya dokunmadan MCP sunucusunun şemasını dinamik olarak güncelleyebilirsiniz
Uygulama yeni şemayı otomatik olarak tanır
Bu OpenAI duyurusu gerçekten yeni bir şey yaratmak için fırsattı ama sadece mevcut uygulama ekranlarını sohbete sabit biçimde gömmekle yetinmiş gibi, bu da hayal kırıklığı yarattı
Asıl güçlü taraf, kullanıcının görevi anlatması ve yapay zekanın hangi araçların gerektiğini anlayıp bunları kendi kendine birleştirmesi, ardından sonucu kullanıcının düzenleyebileceği bir iş akışı ya da tuval biçiminde göstermesi
LlamaIndex Workflow ya da LangGraph gibi framework'ler zaten bu tür grafikleri (workflow-DAG) Python'da elle kurmayı kolaylaştırıyor; LLM bunları gerçek zamanlı oluşturursa gerçekten güçlü olur
LLM'ler zaten UI kodunu iyi üretiyor ve tasarım sistemlerine de iyi uyuyor, dolayısıyla ekranları hardcode etmenin pek anlamı yok
Umarım Google bu yolu izlemez
Geçenlerde OpenAI organizasyonu içinde sohbet arayüzünün gerçekte ne kadar derine işlemiş olduğuna dair bir yazı vardı; bu duyuruda o takıntıyı daha da fazla hissettim
Asıl soru şu: "Gerçekten kullanıcıların çoğu görsel öğeler yerine sadece konuşarak iletişim kurmayı mı tercih ediyor?"
Özellikle birden fazla uygulama adını (Zillow vb.) ezberleyip sohbete yazmak zorunda olmak ve reklam ya da 'öne çıkarma (app discovery)' gibi ücretlendirme stratejilerinin olasılığı çok rahatsız edici geliyor
Kişisel olarak böyle bir geleceğin gelmemesini umuyorum
Bu, GUI ile terminalin (veya CLI'ın) hangisinin daha güçlü olduğuna dair tartışmayı yeniden yapıyormuşuz gibi hissettiriyor
Token akışına çok uygun pek çok işte komut satırı ya da sohbet daha üstün olabilir
Botları ya da MCP'yi hızlıca çağıran tab otomatik tamamlama gibi özellikler de ortaya çıkabilir ama...
Buna karşılık yeni şeyleri keşfetmek ya da grafiksel etkileşim gerektiğinde görsel ve özel amaçlı arayüzler çok daha sezgisel
Sonuçta göreve göre uygun olan birden fazla UI'nin doğru karışımı ve soyutlanması yerleşecektir diye düşünüyorum
Sohbet arayüzü merkezli yaklaşımın LLM kullanımını pratikte ciddi biçimde sınırladığını düşünüyorum
Sohbetin sürekliliği yanılsamasının nasıl oluştuğunu (bağlam yönetimi, önceki prompt'ların bellekten düşmesi vb.) teknik olmayan birine anlatmak bile zor
Teknik olmayan arkadaşlarıma genelde verdiğim tavsiye, 'her prompt için yeni sohbet başlat' oluyor
Böylece neyin işe yaradığını daha net görebiliyorlar
UX yeniliğine Apple'ın öncülük etmesini umuyordum ama henüz öyle görünmüyor
Karşı argüman olarak, tanıdığım birçok kişi Zillow'a girmek için zaten Google'a sadece “zillow” yazıyor; bu yüzden sohbet içine uygulama adı yazmak o kadar da mantıksız olmayabilir
Çok olumsuz tepki var ama kişisel olarak OpenAI'nin yönü bana oldukça doğal görünüyor
Nihayetinde kullanıcı istediğini söyler ve OAI bunu e-posta, takvim, ödeme gibi uygulamalara bağlayıp halleden bir platforma dönüşür
Bu modelde OAI reklam olmadan sadece gelir paylaşımıyla para kazanabilir
E-posta ve takvim uygulamalarının muazzam gelir yaratacağına inanıyorsanız, yatırımcılar için bu büyük bir şok olur
Reklam olmayacağı fikri yanlış
Reklamlar son derece sinsice, faydalı ipuçları gibi görünen biçimlerde fazlasıyla gizlenmiş olacak
OpenAI'nin ikisini de hedefleyeceği açık: hem gelir paylaşımı hem reklam
Zaten bir reklam ekibi kuruyorlar ve yeterince sermayeleri var; ölçeklenebilir her iş modelini denemeye çalışacaklar
App Store, algoritmik akışlar gibi tarihte başarılı olmuş tüm modelleri deneyecekler
Platform olmak için kullanıcı kilidi ya da adil olmayan bir avantaj şart
Sadece daha iyi model kalitesi yetmez
Şimdiye kadar bu yaklaşımın gerçekten bir şeyi iyileştirdiğini hissetmiyorum
Birisi Spotify entegrasyonundan bahsetmişti ama bunu eski nesil asistanlar da zaten yapabiliyordu
Sanki sadece mevcutla aynı işi çok daha pahalıya yapıyor gibi görünüyor
Sonunda herkes OpenAI'nin araç ekosistemine ücretsiz uygulama dökmeye mahkûm olacak
Bu akış OpenAI'nin savunmasını güçlendirirken diğer fırsatları feda ediyor
iPhone'un ilk günlerinde yalnızca 6 uygulama vardı ve App Store bile yoktu
2024 itibarıyla iOS App Store 1,3 trilyon dolarlık gelir üretti ve bunun %85'i geliştiricilere gitti
OpenAI'nin 'moat'ının ne olduğunu merak ediyorum
Aslında bu akış mantıksız değil
Gerçek zamanlı verinin ve MCP aksiyonlarının kullanıcıya anlamlı ölçüde yardımcı olmasının ortadan kalkması için bir sebep yok
Uygulama bağlantısında kimlik doğrulama gerekebilir ama ödeme yoksa bu çok büyük bir dağıtım kanalıdır
Bu duyuru markalama açısından ilginç bir deney
MCP'ye “uygulama” demek daha tanıdık ve kullanımı kolay hissettiriyor; tool/server/araç demekse fazla teknik geliyor
Expedia ve Spotify demolarının eklenmesi, kullanıcının hemen kullanabileceği MCP'ler hazırmış hissi veriyor