DALL·E: Metinden Görüntü Üretmek

(openai.com)

10 puan yazan xguru 2021-01-07 | 1 yorum | WhatsApp'ta paylaş

12 milyar parametreli bir GPT-3 sürümü
Metin-görüntü çiftlerinden oluşan bir veri kümesi kullanılarak, metin açıklamalarından görüntü üretmesi için eğitildi
Hayvanların ve nesnelerin antropomorfik sürümlerini üretmek, ilgisiz kavramları inandırıcı biçimde birleştirmek, metin render etmek veya mevcut görüntülere dönüşümler uygulamak gibi çeşitli yetenekler gösteriyor

→ Özellik kontrolü: biçim, renk, malzeme, görünme sayısı vb.

→ Birden fazla nesneyi aynı anda çizme ve aralarındaki ilişkileri ifade etme

→ Perspektif ifadesi ve 3 boyutlu görselleştirme

→ İç ve dış yapıların gösterimi: cevizin içi, beyin mercanı vb.

→ Duruma göre ayrıntıları çıkarımlama: duruma uygun gölge gösterimi gibi, stil/ayar/zamanı değiştirerek ifade etme

→ Moda ve iç mekan tasarımı

→ Hiç ilişkili olmayan kavramları birleştirme: arptan yapılmış bir salyangoz, avokado biçiminde bir koltuk

→ Zero-shot görsel akıl yürütme

→ Coğrafi/zamansal bilgiye dayalı görüntü üretimi

DALL·E, 256 metin ve 1024 görüntü tokenını tek bir akış olarak alıp otoregresif yöntemle modelleyen basit bir decoder-only transformer'dır

1 yorum

heycalmdown 2021-01-08

Vay canına, bu gerçekten inanılmaz. Günlük hayata entegre olduğu günü merakla bekliyorum.