Multimodal yapay zekanın görüntü üretimi dışında yapabildikleri

(blog.naver.com)

12 puan yazan ironlung 2022-09-22 | Henüz yorum yok. | WhatsApp'ta paylaş

Multimodal yapay zeka, görüntü üretiminin yanı sıra eksik görüntüleri tamamlama, videodaki bir sonraki konuşmayı tahmin etme, metin+görüntü bağlantılı arama, çizgi roman çevirisi, kanser gelişme riski tahmini, nefret söylemi tespiti gibi işleri de yapabiliyor.

1.Eksik görüntü tamamlama

Microsoft Research Asia ve Pekin Üniversitesi'nin geliştirdiği Nüwa, ilgili işlevi gösterdi
Bu sistem, eksik bir görüntü verildiğinde resmi tamamlayarak bitiriyor
Bir eskiz verildiğinde buna uygun görüntü veya video üretiyor
Videonun bir sonraki sahnesini tahmin edip gösteriyor

2.Videodaki bir sonraki konuşmayı tahmin etme

Google Research'ün geliştirdiği model, video sahnesi ve konuşmacının sözlerinin yazıya dökülmüş hali verildiğinde bir sonraki konuşmayı tahmin ediyor
Video ve metin, konuşmacının sözünü tahmin etmek için birer “bağlam” olarak kullanılıyor

3.Metin+görüntü arama

Google'ın geliştirdiği MUM, kullanıcı arama kutusuna bir dağcılık ayakkabısı fotoğrafı yükleyip “Fuji Dağı'na tırmanırken bu ayakkabıyı kullanabilir miyim?” diye yazdığında, görüntüyü anlayıp bunu kullanıcının sorusuyla ilişkilendirerek “dağcılık ayakkabısının iyi iş göreceğini” söyleyebiliyor
Önerilen ekipman listesi içeren blogları da gösterebiliyor

4.Çizgi roman çevirisi

Tokyo Üniversitesi ile Japon makine çevirisi şirketi Mantra'nın araştırmacılarının sunduğu “multimodal durum farkındalıklı çeviri çerçevesi”, illüstrasyonları ve diyalogları birlikte dikkate alarak çizgi romanları başka dillere çevirebiliyor
Bu sistem, Japon çizgi romanı “manga” görsellerinden sahne, diyalog okuma sırası ve görsel bilgi gibi bağlamsal bilgileri çıkarıyor
Bu bilgileri kullanarak konuşma balonlarındaki diyalogları Japoncadan İngilizceye çeviriyor

5.Kanser gelişme riski tahmini

Harvard Tıp Fakültesi Brigham and Women's Hospital araştırmacılarının geliştirdiği multimodal yapay zeka, hücre doku fotoğrafları ve metin tabanlı genomik verileri referans alarak kanser gelişme olasılığını tahmin edebiliyor
Araştırmacılar, hücre dokusunun mikroskobik görüntüleri ve metin tabanlı genomik verilerle iki ayrı modeli eğitti
Ardından bu iki model tek bir sisteme entegre edilerek “hastanın çeşitli kanser türlerine yakalanma riskinin yüksek mi düşük mü olduğu” tahmin ediliyor

6.Belirli bir nesnenin ‘görüntüsünü’ öğrenip aynı nesnenin ‘3D verisini’ veya ‘videosunu’ tanıma

Meta'nın tanıttığı Omnivore, sadece kabak görüntülerini öğrenmiş olmasına rağmen kabağın 3D modelini de tanıyabiliyor
Ayrıca yalnızca yat görüntülerini öğrenmiş olsa da yatın videosunu da tanıyabiliyor

7.Nefret söylemi tespiti

Multimodal yapay zeka, sosyal medyada paylaşılan gönderilerde hem görüntü hem de metin içeriğini birlikte dikkate alarak nefret söylemini tespit etmeye yardımcı olabilir
Nefret söylemi, görüntü ve metnin birleştiği meme biçiminde de bulunabiliyor
Meta, “(yapay zekanın) ‘bir meme'in nefret içerip içermediğini’ anlayabilmesi için hem meme görselini hem de metin içeriğini birlikte dikkate alması gerekir” diye açıklıyor
Boş bir çöl fotoğrafının üzerine “Seni kaç kişinin sevdiğine bak” yazılmış bir meme, incelikli biçimde saldırgan olabiliyor
Yapay zekanın nefret söylemi içeren bir meme'in gerçek anlamını tespit edebilmesi için memeyi bütün olarak analiz etmesi gerekiyor
Görüntü ile metni birleştirmesi ve bunlar birlikte ortaya çıktığında anlamın nasıl değiştiğini anlaması gerekiyor
Multimodal yapay zekanın, görüntü ve metni aynı anda işleyerek bu işlevi yerine getirmesi bekleniyor
Meta, sosyal medya gönderilerinin içeriğini kapsamlı biçimde anlama yeteneğinin, nefret söylemini tanımak için multimodal yapay zekayla gelişeceğini düşünüyor
Meta, multimodal nefret söylemini tespit eden sistemlerin geliştirilmesine yardımcı olan “Hateful Memes” veri kümesini oluşturup paylaştı

Multimodal yapay zekanın görüntü üretimi dışında yapabildikleri

İlgili okumalar

Henüz yorum yok.