DALL·E: Metinden Görüntü Üretmek
(openai.com)-
12 milyar parametreli bir GPT-3 sürümü
-
Metin-görüntü çiftlerinden oluşan bir veri kümesi kullanılarak, metin açıklamalarından görüntü üretmesi için eğitildi
-
Hayvanların ve nesnelerin antropomorfik sürümlerini üretmek, ilgisiz kavramları inandırıcı biçimde birleştirmek, metin render etmek veya mevcut görüntülere dönüşümler uygulamak gibi çeşitli yetenekler gösteriyor
→ Özellik kontrolü: biçim, renk, malzeme, görünme sayısı vb.
→ Birden fazla nesneyi aynı anda çizme ve aralarındaki ilişkileri ifade etme
→ Perspektif ifadesi ve 3 boyutlu görselleştirme
→ İç ve dış yapıların gösterimi: cevizin içi, beyin mercanı vb.
→ Duruma göre ayrıntıları çıkarımlama: duruma uygun gölge gösterimi gibi, stil/ayar/zamanı değiştirerek ifade etme
→ Moda ve iç mekan tasarımı
→ Hiç ilişkili olmayan kavramları birleştirme: arptan yapılmış bir salyangoz, avokado biçiminde bir koltuk
→ Zero-shot görsel akıl yürütme
→ Coğrafi/zamansal bilgiye dayalı görüntü üretimi
- DALL·E, 256 metin ve 1024 görüntü tokenını tek bir akış olarak alıp otoregresif yöntemle modelleyen basit bir decoder-only transformer'dır
1 yorum
Vay canına, bu gerçekten inanılmaz. Günlük hayata entegre olduğu günü merakla bekliyorum.