Multimodal yapay zekanın görüntü üretimi dışında yapabildikleri
(blog.naver.com)Multimodal yapay zeka, görüntü üretiminin yanı sıra eksik görüntüleri tamamlama, videodaki bir sonraki konuşmayı tahmin etme, metin+görüntü bağlantılı arama, çizgi roman çevirisi, kanser gelişme riski tahmini, nefret söylemi tespiti gibi işleri de yapabiliyor.
1.Eksik görüntü tamamlama
- Microsoft Research Asia ve Pekin Üniversitesi'nin geliştirdiği Nüwa, ilgili işlevi gösterdi
- Bu sistem, eksik bir görüntü verildiğinde resmi tamamlayarak bitiriyor
- Bir eskiz verildiğinde buna uygun görüntü veya video üretiyor
- Videonun bir sonraki sahnesini tahmin edip gösteriyor
2.Videodaki bir sonraki konuşmayı tahmin etme
- Google Research'ün geliştirdiği model, video sahnesi ve konuşmacının sözlerinin yazıya dökülmüş hali verildiğinde bir sonraki konuşmayı tahmin ediyor
- Video ve metin, konuşmacının sözünü tahmin etmek için birer “bağlam” olarak kullanılıyor
3.Metin+görüntü arama
- Google'ın geliştirdiği MUM, kullanıcı arama kutusuna bir dağcılık ayakkabısı fotoğrafı yükleyip “Fuji Dağı'na tırmanırken bu ayakkabıyı kullanabilir miyim?” diye yazdığında, görüntüyü anlayıp bunu kullanıcının sorusuyla ilişkilendirerek “dağcılık ayakkabısının iyi iş göreceğini” söyleyebiliyor
- Önerilen ekipman listesi içeren blogları da gösterebiliyor
4.Çizgi roman çevirisi
- Tokyo Üniversitesi ile Japon makine çevirisi şirketi Mantra'nın araştırmacılarının sunduğu “multimodal durum farkındalıklı çeviri çerçevesi”, illüstrasyonları ve diyalogları birlikte dikkate alarak çizgi romanları başka dillere çevirebiliyor
- Bu sistem, Japon çizgi romanı “manga” görsellerinden sahne, diyalog okuma sırası ve görsel bilgi gibi bağlamsal bilgileri çıkarıyor
- Bu bilgileri kullanarak konuşma balonlarındaki diyalogları Japoncadan İngilizceye çeviriyor
5.Kanser gelişme riski tahmini
- Harvard Tıp Fakültesi Brigham and Women's Hospital araştırmacılarının geliştirdiği multimodal yapay zeka, hücre doku fotoğrafları ve metin tabanlı genomik verileri referans alarak kanser gelişme olasılığını tahmin edebiliyor
- Araştırmacılar, hücre dokusunun mikroskobik görüntüleri ve metin tabanlı genomik verilerle iki ayrı modeli eğitti
- Ardından bu iki model tek bir sisteme entegre edilerek “hastanın çeşitli kanser türlerine yakalanma riskinin yüksek mi düşük mü olduğu” tahmin ediliyor
6.Belirli bir nesnenin ‘görüntüsünü’ öğrenip aynı nesnenin ‘3D verisini’ veya ‘videosunu’ tanıma
- Meta'nın tanıttığı Omnivore, sadece kabak görüntülerini öğrenmiş olmasına rağmen kabağın 3D modelini de tanıyabiliyor
- Ayrıca yalnızca yat görüntülerini öğrenmiş olsa da yatın videosunu da tanıyabiliyor
7.Nefret söylemi tespiti
- Multimodal yapay zeka, sosyal medyada paylaşılan gönderilerde hem görüntü hem de metin içeriğini birlikte dikkate alarak nefret söylemini tespit etmeye yardımcı olabilir
- Nefret söylemi, görüntü ve metnin birleştiği meme biçiminde de bulunabiliyor
- Meta, “(yapay zekanın) ‘bir meme'in nefret içerip içermediğini’ anlayabilmesi için hem meme görselini hem de metin içeriğini birlikte dikkate alması gerekir” diye açıklıyor
- Boş bir çöl fotoğrafının üzerine “Seni kaç kişinin sevdiğine bak” yazılmış bir meme, incelikli biçimde saldırgan olabiliyor
- Yapay zekanın nefret söylemi içeren bir meme'in gerçek anlamını tespit edebilmesi için memeyi bütün olarak analiz etmesi gerekiyor
- Görüntü ile metni birleştirmesi ve bunlar birlikte ortaya çıktığında anlamın nasıl değiştiğini anlaması gerekiyor
- Multimodal yapay zekanın, görüntü ve metni aynı anda işleyerek bu işlevi yerine getirmesi bekleniyor
- Meta, sosyal medya gönderilerinin içeriğini kapsamlı biçimde anlama yeteneğinin, nefret söylemini tanımak için multimodal yapay zekayla gelişeceğini düşünüyor
- Meta, multimodal nefret söylemini tespit eden sistemlerin geliştirilmesine yardımcı olan “Hateful Memes” veri kümesini oluşturup paylaştı
Henüz yorum yok.