4 puan yazan xguru 2024-03-14 | 2 yorum | WhatsApp'ta paylaş
  • Figure 01 robotu artık insanlarla tamamen sohbet edebiliyor
  • OpenAI modeli, yüksek düzeyde görsel ve dilsel zeka sağlıyor
  • Figure sinir ağları, hızlı ve düşük seviyeli çevik robot hareketlerini mümkün kılıyor
  • Gördüklerini açıklıyor; yiyecek istendiğinde bir elmayı alıp uzatıyor ve durumu değerlendirerek bardak ile masayı toplamak gibi eylemleri yerine getiriyor

2 yorum

 
erados 2024-03-14

Görünüşe göre bir çıktı yöntemi daha eklendi.

 
xguru 2024-03-14

Hacker News yorumları

  • Robotun çevikliğinden etkilendim, ancak GPT-4 deneyimi olan biri için robotun ses ve akıl yürütme yetenekleri o kadar da şaşırtıcı olmayabilir. Fonksiyon çağırma özelliği etkileyici, fakat etkileşime girdiği "dünya" çok basit. Robotun gerçek dünyayla etkileştiğini görmek ilgi çekici. Şu anda yapay zekanın ilerlemesini yavaşlatan şey, akıl yürütme maliyeti ve hızı. Saniyede binlerce token'ı ucuza işleyebilen bir yol bulunursa, birçok zor problem çözülebilir ve gerçekten şaşırtıcı uygulamalar görebiliriz.
  • Sesle önceden eğitilmiş hareketlerden birini seçmek hoş ama devrimsel değil. GPT-4V ile sahneyi betimlemek de görece basit. En etkileyici kısım, çöpü hızlıca alması ve nesneleri bir elden diğerine akıcı biçimde aktarmasının hızı. Bu hareket politikasının ne kadar genel olduğu belirsiz. İnsanın kusursuz biçimde hareketsiz durduğunu görünce, her şey tam ayarlanmadıkça bunun başarısız olacağını düşündürüyor. Daha fazla değişken içeren demolar görmek isterim. Yine de bu demonun harika olduğunu düşünüyorum ve daha fazlasını görmek istiyorum.
  • Groq'un düşük gecikmeli akıl yürütmesi gerçek bir fayda gösteriyor. Yanıtta gecikme olduğu için çok etkileyici görünmeyebilir ama yine de oldukça etkileyici.
  • Robotun üzerinde çöp ve elma bulunan kirli tabağı kurutmalığa koyması tuhaf. Tabağın önce yıkanması gerekir.
  • Metni servo motor hareketlerine dönüştürme yeteneği şaşırtıcı ve anlaşılan GPT-4 vision ile Whisper yoğun biçimde kullanılmış. "Akıl yürütme" terimi de yeni bir kullanım kazanmış gibi. Buna bir AI wrapper şirketi denebilir. Elbette ortam, uygulamadan farklıdır. Bugün yapay zeka geliştirmesi dursa bile ortada pek çok şaşırtıcı yapay zeka uygulaması var.
  • İnsansı form ve ses, saf bir sohbet sürümünden farklı bir his veriyor. Gözler ve göz teması eklenirse çok daha derin bir etki yaratır. Bunu genel kullanıcılara gösterdiklerini hayal ediyorum.
  • Sesi servo motor hareketlerine dönüştürmesi etkileyici. Çeviklik gerektiren görevleri yerine getirme hızı şaşırtıcı; ayrıca bu, video hızlandırılmadan "doğal" görünen ilk nesne manipülasyonu robot demosu.
  • Tüm bunun ne kadar gerçek dışı ve işe yaramaz olduğunu bilmeyen 5 yaşında bir çocuk olup gelecek hakkında bir kez olsun olumlu düşünmek istiyorum. Ama insanlar, temel barınma ihtiyaçları karşılanmadan "hayali sayıların yükselişini" sürdüremeyeceğimizi anlamıyor ve bu teknolojiyi kullanışlı, ucuz, güvenilir ve iyi hâle getirmenin bir yolu yok.
  • Bu demoda en etkileyici kısım, robotun "görüp" insan benzeri uzuvlarla nesneleri alabilmesi. Bir şeyi kaçırıyor olabilirim ama bunun çok zor olduğunu sanıyordum. Ters kinematiğin zor olduğunu biliyorum; bunu sinir ağlarıyla mı çözdüler?
  • Aynı videonun YouTube bağlantısı: Figure Status Update - OpenAI Speech-to-Speech Reasoning