MeshGPT: Yalnızca Decoder Kullanan Transformer ile Üçgen Mesh Üretim Tekniği
(nihalsid.github.io)MeshGPT: Üçgen Mesh Üretimi için Yalnızca Decoder Kullanan Transformer
- MeshGPT, öğrenilmiş geometrik bir sözlükten token üreten bir transformer modelini otoregresif olarak örnekleyerek üçgen mesh üretir.
- Bu token'lar üçgen mesh'in yüzlerine decode edilebilir ve üretilen mesh'ler temiz, tutarlı olup keskin kenarlar ve yüksek sadakat ile öne çıkar.
Özet
- MeshGPT, sanatçıların oluşturduğu mesh'lerin karakteristik özelliği olan kompaktlığı yansıtan yeni bir üçgen mesh üretim yöntemi sunar; bu, sinir ağ alanlarından çıkarılan yoğun üçgen mesh'lerle karşıtlık oluşturur.
- Güçlü büyük dil modellerindeki son gelişmelerden ilham alarak, üçgen mesh'i üçgen dizileri olarak otoregresif biçimde üreten dizi tabanlı bir yaklaşım benimser.
- Önce grafik konvolüsyon kullanarak potansiyel olarak kuantize edilmiş embedding'lerden oluşan bir sözlük öğrenir; bu embedding'ler, mesh'i etkili biçimde yeniden oluşturabilmek için decoder tarafından diziye dönüştürülür ve üçgenlere decode edilir.
Video karşılaştırması ve diğer uygulamalar
- MeshGPT'nin yaklaşımı, keskin geometrik ayrıntılara sahip kompakt mesh'ler üretir; mevcut yöntemler ise bu ayrıntıları kaçırma, aşırı üçgenleştirilmiş mesh'ler üretme ya da fazla basit şekiller çıkarma eğilimindedir.
- Kısmi bir mesh verildiğinde, bu yöntem birden fazla olası şekil tamamlama sonucunu çıkarabilir.
- Bu yöntem, sahneler için 3D varlıklar üretmekte kullanılabilir; burada da bu yöntemle üretilmiş varlıklarla doldurulmuş bir oda gösterilmektedir.
Yönteme genel bakış
- Önce üçgen mesh için bir sözlük öğrenilir, ardından bununla mesh'in otoregresif üretimi gerçekleştirilir.
- Farklı şekillerden oluşan bir koleksiyondan geometrik embedding'lerin sözlüğü öğrenilir; bu yapı, vektör kuantizasyonlu bir encoder-decoder ağını içerir.
- Eğitim tamamen tamamlandıktan sonra bu transformer, öğrenilmiş sözlükten gelen token dizileri halinde doğrudan mesh örnekleyebilir.
GN⁺ görüşü
MeshGPT, mevcut mesh üretim yöntemlerini geride bırakan yenilikçi bir yaklaşım sunarak şekil kapsaması ve FID puanlarında dikkat çekici iyileşmeler gösteriyor. Bu teknoloji, 3D modelleme ve bilgisayar grafikleri alanında önemli bir ilerlemeye işaret ediyor; özellikle insan yapımı mesh'lerin verimli üçgenleme desenlerini daha iyi taklit eden, kompakt ve keskin kenarlı mesh'leri doğrudan üretebilme yeteneği nedeniyle ilgi çekici. Bu gelişme, 3D içerik üreticilerine yeni araçlar sunuyor ve daha yüksek kaliteli 3D varlıkların daha hızlı ve verimli biçimde üretilmesinin önünü açıyor.
1 yorum
Hacker News görüşleri
Devrim niteliğinde fikirlerin neye benzediğini gösteren bir araştırma; makalede bolca ayrıntı yer alıyor. Transformer modellerinin ölçeklenebilir olduğu biliniyor ve bu fikrin birçok şirket tarafından genel amaçlı 3D varlık üretim pipeline'larını eğitmek için kullanılacağı tahmin ediliyor.
Blender ve hobi amaçlı oyun geliştirmeyle ilgilenen bir makine öğrenimi mühendisi olarak bu araştırma etkileyici, ancak sınırlı mobilya örnekleri için pratik açıdan pek kullanışlı değil. Deneyimli bir modelleyici bu tür mesh'leri 5 dakikadan kısa sürede oluşturabilir ve üretim için hâlâ poligonlara ihtiyaç var. Bir sonraki adım muhtemelen LLM ile seed üretim kontrolü ve mimarinin otoregresif kısmına bir görüntü modeli eklemek olacaktır. O zaman gerçekten mobil oyunlara uygun varlıklar görebiliriz.
3D/film prodüksiyonu alanında çalışan biri olarak mevcut durum bana hem çok ilginç hem de korkutucu geliyor.
Girdinin ne olduğunu merak ediyorum. "Sandalye" gibi bir metin sorgusunu mesh'e dönüştürmek mi? Düzeltme: Ana girdi-çıktı yönteminin basit bir özellikten ziyade mesh tamamlama olduğu anlaşılıyor.
90'lardan beri büyük ilerleme kaydedilmeyen geriye kalan zor problemlerin bir şekilde transformer'lar aracılığıyla çözülecek gibi görünmesi ilginç. İçinde yaşadığımız zaman heyecan verici.
Bir sonraki yenilik, bu tür modellerle VR içinde 3D sahneler üretmeye yönelik UX olacak. Bu, eğitim verisine sahip olduğumuz herhangi bir ortam için kalıcı ve keyfi 3D ortamlar üretmemizi sağlayacak. Texture üretimi için diffusion modelleri kullanılabilir.
Bu "sadece" mesh otomatik tamamlama olsa bile 3D sanatçılar için çok faydalı. Şu anda karakter yontma yöntemiyle onları animasyona uygun hale getirme yöntemi arasında bir kopukluk var. Bir modeli retopology'den geçirmek çok zaman alıyor. Kaba bir mesh alıp temiz bir topoloji sunan transformer tabanlı retopology büyük bir zaman tasarrufu sağlar.
Bu alana bayılıyorum. Makalede harika bir web sitesi, örnekler ve videolar var. Yoğun özet, giriş ve sonuçlardan oluşan klasik makale tarzına kıyasla çok daha ferahlatıcı.
Bu teknoloji gerçekten çok gelişiyor! Hâlâ garip kenarlar var ama artık bu durum algoritmik ya da karmaşık bir problemden çok "tekrarlayan detaylar" gibi hissettiriyor. Tüm mesh'leri tek bir klasöre koyup ağı eğittikten sonra o stilde başka bir şey isteyebilir hale gelirsek, ortaya çıkan şeyi retopology'den geçirmek veya başka yaratıcı müdahaleler yapmak zorunda kalmayacağız. Elbette o noktaya tamamen gelene kadar procgen hâlâ daha iyi hizmet veriyor, ama bu teknolojinin ne kadar hızlı ilerlediği beni çok heyecanlandırıyor! Umarım gelecek yılki Unreal tanıtımında yeni bir "Asset Generator" özelliğinden söz edebiliriz.
Bu teknoloji gerçekten harika görünüyor! Bağımsız oyun geliştiricilerinin çok sayıda varlık üretmesi için muazzam bir yardımcı gibi duruyor.