3 puan yazan GN⁺ 2024-08-02 | 1 yorum | WhatsApp'ta paylaş
  • Tek bir görüntüden yalnızca 0,5 saniyede yüksek kaliteli 3D varlıklar üretir
  • TripoSR üzerine inşa edilmiştir. Büyük mimari iyileştirmeler ve geliştirilmiş özellikler sunar
  • Yalnızca oyun ve sanal gerçeklik geliştiricileri için değil, perakende, mimarlık, tasarım ve grafik yoğun diğer mesleklerdeki profesyoneller için de uygulanabilir
  • Model Hugging Face üzerinde sunuluyor ve Stability AI Community License kapsamında yayımlanıyor
  • Stability AI API ve Stable Assistant sohbet botu üzerinden modele kolayca erişilebilir; 3D görüntüleyici ile 3D üretimler paylaşılabilir ve artırılmış gerçeklikte denenebilir
  • Ücretsiz deneme sürümüyle test edilebilir

Nasıl çalışır

  • Kullanıcı, bir nesnenin tek bir görüntüsünü yükleyerek başlar
  • Stable Fast 3D, UV unwrapped mesh, malzeme parametreleri ve azaltılmış aydınlatmalı albedo renkleri dahil olmak üzere tam bir 3D varlığı hızla üretir
  • İsteğe bağlı olarak quad veya üçgen yeniden yapılandırma yapılabilir; bu da işlem süresine yalnızca 100-200 ms ekler

Kullanım alanları

  • Ön üretim sırasında deneyin kritik olduğu durumlarda hızlı çıkarım süresinden yararlanma
  • Oyunlar için statik varlıklar (arka plan nesneleri, dağınık eşyalar, mobilya)
  • E-ticaret için 3D modeller
  • AR/VR için hızlı model üretimi

Hız ve kalite bir arada

  • Rakiplerine kıyasla birden çok temel alanda performans üstünlüğü
  • 7GB VRAM'li bir GPU'da 3D varlık başına 0,5 saniyelik hızlı üretim
  • Yüksek kaliteli UV unwrap mesh ve malzeme parametreleri
  • Dokularda aydınlatma karışmasının azaltılması
  • Ek malzeme parametreleri ve normal map üretimi mümkün

Araştırma ve geliştirme

  • TripoSR tabanlıdır, ancak tamamen yeniden eğitilmiş bir model ve önemli mimari değişiklikler içerir
  • İyileştirmeler arasında açık mesh üretimi ve hızlı dokulu mesh üretimi için yeni teknikler yer alır
  • Azaltılmış baked lighting ve malzeme parametreleriyle hızlı çıkarım hızına nasıl ulaşıldığı teknik raporda vurgulanıyor

Erişilebilirlik

  • Stable Fast 3D model kodu Github ve Hugging Face üzerinde sunuluyor
  • Stability AI Community License kapsamında ticari olmayan kullanımın yanı sıra yıllık geliri en fazla $1M olan ticari kullanıma izin veriliyor
  • API ve Stable Assistant üzerinden modele erişilebilir

GN⁺ görüşü

  • Bu 3D model üretim teknolojisi, oyun, sanal/artırılmış gerçeklik, tasarım, mimarlık gibi çeşitli alanlarda kullanılabildiği için ilgi çekici bir teknoloji. Özellikle tek bir görüntüden yüksek kaliteli 3D varlıkların hızla üretilmesi, üretkenliğin artmasına yardımcı olabilir.
  • Ancak bu tür yapay zeka tabanlı modeller yaygınlaştıkça grafik tasarımcılar veya modelleyiciler gibi uzman çalışanların işlerine etkisi olabilir. Bunun nedeni, daha önce elle üretilen 3D varlıkların otomatikleştirilebilmesidir. Yapay zekanın insanı tamamen ikame etmesi zor görünse de bazı rollerin daralması kaçınılmaz görünüyor.
  • Ayrıca üretilen 3D modellerin telif hakkı meselesi de dikkate alınmalı. Eğitimde kullanılan görseller için uygun tazminat veya atıf sağlanması gerekir. Yapay zeka üretimleri için yasal düzenleme ve kılavuzların oluşturulmasına ihtiyaç var gibi görünüyor.
  • Benzer teknolojiler arasında Nvidia Instant Nerf ve Epic Games'in RealityScan'i bulunuyor. Bunlar, fotoğraf veya tarama yoluyla 3D model üretme işlevi sunuyor. Oyun motorlarıyla yüksek uyumluluk önemli bir avantaj. Ancak Stable Fast 3D gibi tek bir görüntüden yüksek kaliteli sonuç üretme hızında henüz geride görünüyorlar.
  • Kısacası Stable Fast 3D, hız ve kaliteyi öne çıkararak oyun, XR ve diğer 3D grafik alanlarında üretkenliği artırmaya katkı sağlayacak gibi görünüyor. Ancak etik ve hukuki meselelerde toplumsal uzlaşı arayışının da birlikte ilerlemesi gerekecek.

1 yorum

 
GN⁺ 2024-08-02
Hacker News görüşleri
  • LLM'lere yönelik büyük beklentilere rağmen, görüntü üretimi ve grafik varlıkları şu anda yapay zekanın uzun vadeli kazananı olmaya daha yatkın görünüyor

    • "Halüsinasyon" bir hata değil, bir özellik
    • Karmaşık istatistiksel testler olmadan gerçek dışı ve önyargılı çıktıları kolayca görmek mümkün
    • İnsan sezgisi değerlendirmede faydalı ve metin üretim modellerinin aksine abartılmıyor
    • Kayıplı ya da gürültülü yöntemler bile çeşitli yaratıcı işlerde faydalı olabilir
    • Mükemmellik gerekmiyor; bozulmuş özellikler kolayca görülüp iyileştirilebilir
    • Tutarlılık zorunlu değil, ancak sağlanırsa video gibi uygulamalarda büyük değer yaratabilir
    • LoRA gibi teknikler, uzman olmayan kullanıcıların bile belirli karakter, stil veya kavram modellerini kolayca eğitmesini sağlıyor
    • Görüntü/görsel üretim modelleri son 1 yılda büyük ölçüde gelişti ve gelişim hızı metin modellerine kıyasla yavaşlamadı
    • Gelecek, fotoğrafçıların ve film yönetmenlerinin tamamen yerini almak değil, yapay zeka destekli güçlü bir araç nesli olacak
    • Birkaç metin prompt'u ile bir görüntüye kavram ekleyip çıkarabilen araçlar çok kullanışlı
    • 90'lardaki Photoshop gibi, yeni ve güçlü bir kullanıcı nesli ortaya çıkıyor
  • Test edilen üçüncü görselde tüm 3D yapay zeka çıktıları, 3D modelin 2D render'ı gibi görünüyordu

    • Cel-shading bir görselle test edildi ve model çıktısı çok düz, topolojisi de kötüydü
    • Doğru gölgeler yoksa normal vektörleri yeniden hesaplayamadığı için yapıyı anlayamıyor gibi görünüyor
    • Uygun sonuç vermesi beklenen girdi setinin açıkça belirtilmesi iyi olurdu
  • Henüz mükemmel değil ama oldukça havalı

    • Ana varlık olarak değil, ana sahneye karmaşıklık ekleyen düşük eforlu süsler olarak kullanılabilir
    • 2D billboard impostor olmayan durumlarda kullanılabilir
    • Midjourney, Bing, Dalle3 ile görseller üretip sürükle-bırak yaparak şaşırtıcı derecede iyi 3D sunumlar elde edebilirsiniz
    • Kameranın arka tarafı görmediği 3D sahnelerde dekor olarak kullanılabilir
  • Bu teknolojinin gelişmesini görmek için sabırsızlanıyorum

    • Test sonuçları kullanışlı değildi
    • Görüntü çıktısından kötü bir modeli düzeltmek için daha fazla çalışma gerekiyor
    • Daha yüksek kaliteli nihai ürünü yavaş yavaş elde etmek için bir dizi adımdan geçmek daha iyi olabilir gibi görünüyor
    • Belki de kullanım alanını gözden kaçırıyorumdur
  • 7GB VRAM ile GPU üzerinde 3D varlık üretmek 0,5 saniye sürüyor

    • Bunun sadece veri merkezlerine yönelik bir model olacağını düşünmüştüm, ancak 7GB VRAM birçok 3D sanatçısının zaten sahip olduğu donanımda çalışabileceğini düşündürüyor
  • Bu alanda gerçekten sonuç vermesini umuyorum

    • HuggingFace demosunda görsel sürükleyerek deneyebilirsiniz
    • Kedi görselinde iyi çalışmadı ama iPhone görselinde oldukça iyi çalıştı
    • Pankek görselinde etkileyiciydi, roket görselinde ise berbattı
    • Bilardo topu görselinde ise yine etkileyiciydi
  • Bu teknolojiyle 3D baskı için pek çok eğlenceli şey yapmayı planlıyorum

  • Karşılaştırmadaki görselleri soldurarak daha iyi görünmesini sağlayan klasik infomercial taktiği kullanılmış gibi görünüyor

  • Proje sayfasında modelle etkileşime geçebilirsiniz

  • Minyatür boyamaya olan tutkumu tetikliyor