- 25 Eylül 2023'te OpenAI, gelişmiş model GPT-4 için iki yeni özelliğin kullanıma sunulduğunu duyurdu
- Bu yeni özellikler, kullanıcıların görseller hakkında soru sormasına ve sesi sorgu girdisi olarak kullanmasına olanak tanıyarak GPT-4'ün çok modlu bir modele dönüşmesini sağladı
- GPT-4V(ision) veya GPT-4V, kullanıcıların bir görseli girdi olarak yükleyip görselle ilgili sorular sorabildiği çok modlu bir modeldir; bu, görsel soru yanıtlama (VQA) olarak bilinen bir görevdir
- GPT-4V; görsel soru yanıtlama, optik karakter tanıma (OCR), matematik OCR, nesne tespiti, CAPTCHA, çapraz bulmaca ve sudoku gibi çeşitli görevlerde test edildi
- Model, genel görsel sorularında iyi performans gösterdi ve bazı görsellerde bağlam farkındalığı sergiledi. Ayrıca, hangi film olduğuna dair metinsel bilgi verilmeden, görselde yer alan filmle ilgili soruları başarıyla yanıtlayabildi
- Ancak GPT-4V'nin sınırlamaları da var. Nesne tespiti için sınırlayıcı kutuları doğru şekilde döndüremedi; bu da şu an için bu amaçla kullanıma uygun olmadığını gösteriyor. Ayrıca, halüsinasyon nedeniyle hatalı bilgiler de üretebiliyor
- OpenAI, araştırma yürütmek amacıyla vizyon modelinin alfa sürümünü küçük bir kullanıcı grubuna sundu ve farklı kişilerin verdiği prompt'lar aracılığıyla GPT-4V'nin nasıl çalıştığına dair geri bildirim ve içgörüler elde etti
- OpenAI, modelle ilişkili çeşitli riskleri belirlemeye, araştırmaya ve azaltmaya çalıştı. Örneğin GPT-4V, görsellerde belirli kişileri tanımlamaktan kaçınıyor ve nefret sembolleriyle ilgili prompt'lara yanıt vermiyor
- Sınırlamalarına rağmen GPT-4V, makine öğrenimi ve doğal dil işleme alanında dikkat çekici bir gelişme
1 yorum
Hacker News görüşleri