2 puan yazan GN⁺ 2023-12-12 | 1 yorum | WhatsApp'ta paylaş

GPT-4 ile Google Gemini'nin sahte demosunun yeniden yapımı, bu kez gerçek

  • Google Gemini'nin sahte demosunu GPT-4 kullanarak yeniden yapan bir proje.
  • Gerçekten çalışan bir demo sunuluyor ve ilgili kod GitHub deposunda incelenebiliyor.
  • Proje Greg Technology tarafından oluşturuldu.

GN⁺ görüşü

  • Bu yazıdaki en önemli nokta, geçmişteki sahte bir demonun GPT-4 kullanılarak gerçekten hayata geçirildiği bir projenin varlığı.
  • Yapay zeka teknolojisinin gelişiminin, gerçekten kullanılabilir yenilikçi çıktılar üreten süreci göstermesi açısından ilgi çekici bir örnek.

1 yorum

 
GN⁺ 2023-12-12
Hacker News görüşü
  • "Sahte Gemini demosunun 'büyüsü'", LLM'in sürekli olarak ses ve video girdisi alıyor, kullanıcının konuşmasının ya da çiziminin ne zaman bittiğini fark ediyor ve uygun anda yanıt veriyormuş gibi görünmesiydi.
  • Kaynak kodu incelemesinin sonucunda, demonun video akışının ekran görüntüsünü her 800 ms'de bir aldığı ve kullanıcı çizimi tamamlayana kadar bekledikten sonra son üç ekran görüntüsünü gönderdiği görüldü. LLM ile bu şekilde etkileşim kurmanın, kesintisiz ses-video girdisi olmadan doğal hissettirmediğini kanıtlıyor.
  • Şirketlerin neden bu şekilde yalan söylediğini anlayamıyorum. Aslında kaybedecekleri çok şey olabilir; bu tür abartılı tanıtımlar kısa vadede yardımcı olabilir ama uzun vadede fayda sağlamaz.
  • Google DeepMind'in gerçekten son teknoloji bir LLM'e sahip olmadığına eminim. ChatGPT yayımlandığında Google, yapay zeka güvenliği nedeniyle daha iyi bir modeli duyurmadığını söylemişti ama gerçekte durum böyle değildi.
  • GPT-4V çok etkileyici ve görme ya da multimodallik ile ilgilenen herkese LLaVA'yı denemesini tavsiye ederim. Ben kişisel olarak 7B q5_k varyantını kullandım ve çok etkileyici buldum.
  • GPT-4V kullanarak benzer bir demo yapılabildi. Google dürüst bir pazarlama yapmış olsaydı herkes gerektiği gibi etkilenirdi, ama onun yerine genel kamuoyu için yanıltıcı bir pazarlama videosu yaparak teknik uzmanları hayal kırıklığına uğrattı.
  • Google'ın yapay zeka konuşma çeviri uygulamasını gerçekten kullanmayı denedim ama gerçek konuşmalarda hiç kullanılamıyor. Demoda doğal görünüyordu ama gerçekte çalışmadığını doğruladım.
  • GPT-4 ile tek arayüz olarak yalnızca JPEG görsellerin kullanılması bana israf gibi geliyor. İnsan gözü, "kareleri"nin kendisinden çok kareler arasındaki farkları algılar. Video codec'leri gibi, iç durumu anahtar kareler ve deltalarla çalışan bir model, gerçek zamanlı video işlemede bir sonraki büyük adım olabilir.
  • Google DeepMind'in gerçekten son teknoloji bir dil modeline sahip olmadığına eminim. ChatGPT'nin çıkışı sırasında Google, yapay zeka güvenliği nedeniyle daha iyi bir modeli açıklamadığını söylemişti ama gerçekte öyle değildi.
  • Bu demonun gecikmesi API üzerinden olduğu için mazur görülebilir. Yerel altyapıda çıkarım neredeyse anlıktır; bu nedenle bu demo, o altyapıya erişiminiz varsa diğer her şeyi geride bırakacaktır.
  • Sagittarius adının seçilmesi eğlenceli, çünkü burçlar kuşağında Gemini'nin tam karşısında yer alıyor.