Stable Fast 3D - Tek Bir Görüntüden Hızlıca 3D Varlık Üretimi

(stability.ai)

3 puan yazan GN⁺ 2024-08-02 | 1 yorum | WhatsApp'ta paylaş

Tek bir görüntüden yalnızca 0,5 saniyede yüksek kaliteli 3D varlıklar üretir
TripoSR üzerine inşa edilmiştir. Büyük mimari iyileştirmeler ve geliştirilmiş özellikler sunar
Yalnızca oyun ve sanal gerçeklik geliştiricileri için değil, perakende, mimarlık, tasarım ve grafik yoğun diğer mesleklerdeki profesyoneller için de uygulanabilir
Model Hugging Face üzerinde sunuluyor ve Stability AI Community License kapsamında yayımlanıyor
Stability AI API ve Stable Assistant sohbet botu üzerinden modele kolayca erişilebilir; 3D görüntüleyici ile 3D üretimler paylaşılabilir ve artırılmış gerçeklikte denenebilir
Ücretsiz deneme sürümüyle test edilebilir

Nasıl çalışır

Kullanıcı, bir nesnenin tek bir görüntüsünü yükleyerek başlar
Stable Fast 3D, UV unwrapped mesh, malzeme parametreleri ve azaltılmış aydınlatmalı albedo renkleri dahil olmak üzere tam bir 3D varlığı hızla üretir
İsteğe bağlı olarak quad veya üçgen yeniden yapılandırma yapılabilir; bu da işlem süresine yalnızca 100-200 ms ekler

Kullanım alanları

Ön üretim sırasında deneyin kritik olduğu durumlarda hızlı çıkarım süresinden yararlanma
Oyunlar için statik varlıklar (arka plan nesneleri, dağınık eşyalar, mobilya)
E-ticaret için 3D modeller
AR/VR için hızlı model üretimi

Hız ve kalite bir arada

Rakiplerine kıyasla birden çok temel alanda performans üstünlüğü
7GB VRAM'li bir GPU'da 3D varlık başına 0,5 saniyelik hızlı üretim
Yüksek kaliteli UV unwrap mesh ve malzeme parametreleri
Dokularda aydınlatma karışmasının azaltılması
Ek malzeme parametreleri ve normal map üretimi mümkün

Araştırma ve geliştirme

TripoSR tabanlıdır, ancak tamamen yeniden eğitilmiş bir model ve önemli mimari değişiklikler içerir
İyileştirmeler arasında açık mesh üretimi ve hızlı dokulu mesh üretimi için yeni teknikler yer alır
Azaltılmış baked lighting ve malzeme parametreleriyle hızlı çıkarım hızına nasıl ulaşıldığı teknik raporda vurgulanıyor

Erişilebilirlik

Stable Fast 3D model kodu Github ve Hugging Face üzerinde sunuluyor
Stability AI Community License kapsamında ticari olmayan kullanımın yanı sıra yıllık geliri en fazla $1M olan ticari kullanıma izin veriliyor
API ve Stable Assistant üzerinden modele erişilebilir

GN⁺ görüşü

Bu 3D model üretim teknolojisi, oyun, sanal/artırılmış gerçeklik, tasarım, mimarlık gibi çeşitli alanlarda kullanılabildiği için ilgi çekici bir teknoloji. Özellikle tek bir görüntüden yüksek kaliteli 3D varlıkların hızla üretilmesi, üretkenliğin artmasına yardımcı olabilir.
Ancak bu tür yapay zeka tabanlı modeller yaygınlaştıkça grafik tasarımcılar veya modelleyiciler gibi uzman çalışanların işlerine etkisi olabilir. Bunun nedeni, daha önce elle üretilen 3D varlıkların otomatikleştirilebilmesidir. Yapay zekanın insanı tamamen ikame etmesi zor görünse de bazı rollerin daralması kaçınılmaz görünüyor.
Ayrıca üretilen 3D modellerin telif hakkı meselesi de dikkate alınmalı. Eğitimde kullanılan görseller için uygun tazminat veya atıf sağlanması gerekir. Yapay zeka üretimleri için yasal düzenleme ve kılavuzların oluşturulmasına ihtiyaç var gibi görünüyor.
Benzer teknolojiler arasında Nvidia Instant Nerf ve Epic Games'in RealityScan'i bulunuyor. Bunlar, fotoğraf veya tarama yoluyla 3D model üretme işlevi sunuyor. Oyun motorlarıyla yüksek uyumluluk önemli bir avantaj. Ancak Stable Fast 3D gibi tek bir görüntüden yüksek kaliteli sonuç üretme hızında henüz geride görünüyorlar.
Kısacası Stable Fast 3D, hız ve kaliteyi öne çıkararak oyun, XR ve diğer 3D grafik alanlarında üretkenliği artırmaya katkı sağlayacak gibi görünüyor. Ancak etik ve hukuki meselelerde toplumsal uzlaşı arayışının da birlikte ilerlemesi gerekecek.

1 yorum

GN⁺ 2024-08-02

Hacker News görüşleri

LLM'lere yönelik büyük beklentilere rağmen, görüntü üretimi ve grafik varlıkları şu anda yapay zekanın uzun vadeli kazananı olmaya daha yatkın görünüyor
- "Halüsinasyon" bir hata değil, bir özellik
- Karmaşık istatistiksel testler olmadan gerçek dışı ve önyargılı çıktıları kolayca görmek mümkün
- İnsan sezgisi değerlendirmede faydalı ve metin üretim modellerinin aksine abartılmıyor
- Kayıplı ya da gürültülü yöntemler bile çeşitli yaratıcı işlerde faydalı olabilir
- Mükemmellik gerekmiyor; bozulmuş özellikler kolayca görülüp iyileştirilebilir
- Tutarlılık zorunlu değil, ancak sağlanırsa video gibi uygulamalarda büyük değer yaratabilir
- LoRA gibi teknikler, uzman olmayan kullanıcıların bile belirli karakter, stil veya kavram modellerini kolayca eğitmesini sağlıyor
- Görüntü/görsel üretim modelleri son 1 yılda büyük ölçüde gelişti ve gelişim hızı metin modellerine kıyasla yavaşlamadı
- Gelecek, fotoğrafçıların ve film yönetmenlerinin tamamen yerini almak değil, yapay zeka destekli güçlü bir araç nesli olacak
- Birkaç metin prompt'u ile bir görüntüye kavram ekleyip çıkarabilen araçlar çok kullanışlı
- 90'lardaki Photoshop gibi, yeni ve güçlü bir kullanıcı nesli ortaya çıkıyor
Test edilen üçüncü görselde tüm 3D yapay zeka çıktıları, 3D modelin 2D render'ı gibi görünüyordu
- Cel-shading bir görselle test edildi ve model çıktısı çok düz, topolojisi de kötüydü
- Doğru gölgeler yoksa normal vektörleri yeniden hesaplayamadığı için yapıyı anlayamıyor gibi görünüyor
- Uygun sonuç vermesi beklenen girdi setinin açıkça belirtilmesi iyi olurdu
Henüz mükemmel değil ama oldukça havalı
- Ana varlık olarak değil, ana sahneye karmaşıklık ekleyen düşük eforlu süsler olarak kullanılabilir
- 2D billboard impostor olmayan durumlarda kullanılabilir
- Midjourney, Bing, Dalle3 ile görseller üretip sürükle-bırak yaparak şaşırtıcı derecede iyi 3D sunumlar elde edebilirsiniz
- Kameranın arka tarafı görmediği 3D sahnelerde dekor olarak kullanılabilir
Bu teknolojinin gelişmesini görmek için sabırsızlanıyorum
- Test sonuçları kullanışlı değildi
- Görüntü çıktısından kötü bir modeli düzeltmek için daha fazla çalışma gerekiyor
- Daha yüksek kaliteli nihai ürünü yavaş yavaş elde etmek için bir dizi adımdan geçmek daha iyi olabilir gibi görünüyor
- Belki de kullanım alanını gözden kaçırıyorumdur
7GB VRAM ile GPU üzerinde 3D varlık üretmek 0,5 saniye sürüyor
- Bunun sadece veri merkezlerine yönelik bir model olacağını düşünmüştüm, ancak 7GB VRAM birçok 3D sanatçısının zaten sahip olduğu donanımda çalışabileceğini düşündürüyor
Bu alanda gerçekten sonuç vermesini umuyorum
- HuggingFace demosunda görsel sürükleyerek deneyebilirsiniz
- Kedi görselinde iyi çalışmadı ama iPhone görselinde oldukça iyi çalıştı
- Pankek görselinde etkileyiciydi, roket görselinde ise berbattı
- Bilardo topu görselinde ise yine etkileyiciydi
Bu teknolojiyle 3D baskı için pek çok eğlenceli şey yapmayı planlıyorum
Karşılaştırmadaki görselleri soldurarak daha iyi görünmesini sağlayan klasik infomercial taktiği kullanılmış gibi görünüyor
Proje sayfasında modelle etkileşime geçebilirsiniz
Minyatür boyamaya olan tutkumu tetikliyor

Stable Fast 3D - Tek Bir Görüntüden Hızlıca 3D Varlık Üretimi

Nasıl çalışır

Kullanım alanları

Hız ve kalite bir arada

Araştırma ve geliştirme

Erişilebilirlik

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri