1 puan yazan GN⁺ 2023-09-29 | 1 yorum | WhatsApp'ta paylaş
  • 25 Eylül 2023'te OpenAI, gelişmiş model GPT-4 için iki yeni özelliğin kullanıma sunulduğunu duyurdu
  • Bu yeni özellikler, kullanıcıların görseller hakkında soru sormasına ve sesi sorgu girdisi olarak kullanmasına olanak tanıyarak GPT-4'ün çok modlu bir modele dönüşmesini sağladı
  • GPT-4V(ision) veya GPT-4V, kullanıcıların bir görseli girdi olarak yükleyip görselle ilgili sorular sorabildiği çok modlu bir modeldir; bu, görsel soru yanıtlama (VQA) olarak bilinen bir görevdir
  • GPT-4V; görsel soru yanıtlama, optik karakter tanıma (OCR), matematik OCR, nesne tespiti, CAPTCHA, çapraz bulmaca ve sudoku gibi çeşitli görevlerde test edildi
  • Model, genel görsel sorularında iyi performans gösterdi ve bazı görsellerde bağlam farkındalığı sergiledi. Ayrıca, hangi film olduğuna dair metinsel bilgi verilmeden, görselde yer alan filmle ilgili soruları başarıyla yanıtlayabildi
  • Ancak GPT-4V'nin sınırlamaları da var. Nesne tespiti için sınırlayıcı kutuları doğru şekilde döndüremedi; bu da şu an için bu amaçla kullanıma uygun olmadığını gösteriyor. Ayrıca, halüsinasyon nedeniyle hatalı bilgiler de üretebiliyor
  • OpenAI, araştırma yürütmek amacıyla vizyon modelinin alfa sürümünü küçük bir kullanıcı grubuna sundu ve farklı kişilerin verdiği prompt'lar aracılığıyla GPT-4V'nin nasıl çalıştığına dair geri bildirim ve içgörüler elde etti
  • OpenAI, modelle ilişkili çeşitli riskleri belirlemeye, araştırmaya ve azaltmaya çalıştı. Örneğin GPT-4V, görsellerde belirli kişileri tanımlamaktan kaçınıyor ve nefret sembolleriyle ilgili prompt'lara yanıt vermiyor
  • Sınırlamalarına rağmen GPT-4V, makine öğrenimi ve doğal dil işleme alanında dikkat çekici bir gelişme

1 yorum

 
GN⁺ 2023-09-29
Hacker News görüşleri
  • GPT-4V adlı yapay zeka modelinin potansiyeline dair bir yazı; çeşitli cihazlar ve uygulamalar için mükemmel bir kullanıcı arayüzü olabileceği öngörülüyor.
  • Bazı uç başarısızlıklara rağmen, yapay zekanın kullanıcı arayüzü öğelerini ve düzenleri anlayıp onlarla etkileşime girme yeteneği etkileyici.
  • GPT-4V, çizgi roman görsellerini panel panel doğru şekilde açıklayabiliyor; bu da ileri düzey bilgisayarlı görü yeteneklerini gösteriyor.
  • Yapay zekanın görsellerdeki mizahı yorumlama yeteneği son 10 yılda büyük ölçüde gelişti.
  • GPT-4V'nin bazı sınırlamaları arasında oyun tahtasının yapısını yanlış yorumlaması veya görseldeki belirli öğeleri kaçırması yer alıyor.
  • Yapay zeka, NVIDIA'nın GPU fiyatlandırma stratejisine dair şakayı doğru şekilde açıklayamıyor.
  • GPT-4V'nin yanıtları, özellikle madeni para setlerinde para birimini yorumlarken tutarsız olabiliyor.
  • Yapay zeka, öznel soruları yanıtlamada sık sık tereddüt ediyor; bu da bazı kullanıcıların şikayetlerine yol açıyor.
  • Gelişmiş yeteneklerine rağmen GPT-4V, tik tak toe gibi basit oyunlarda hâlâ zorlanıyor.