RenderFormer: Üçgen Mesh ve Global Illumination Tabanlı Sinirsel Rendering

(microsoft.github.io)

4 puan yazan GN⁺ 2025-06-02 | 1 yorum | WhatsApp'ta paylaş

RenderFormer, üçgen mesh sahnelerinden doğrudan görüntü üreten bir sinirsel rendering hattıdır; temel noktası, sahneye özel eğitim olmadan global illumination’ı da ele almasıdır
Rendering’i fiziksel simülasyon süreci olarak değil, üçgen ve yansıma özellikleri token’larını küçük piksel patch token’larına dönüştüren bir sequence-to-sequence dönüşümü olarak tanımlar
Hat, bakıştan bağımsız ve bakışa bağımlı aşamalara ayrılır; ikisi de Transformer mimarisi kullanır ve en az ön kısıtla eğitilir
Bakıştan bağımsız aşama, üçgenler arası ışık aktarımını modeller; bakışa bağımlı aşama ise ışın demeti token’larını piksel değerlerine dönüştürür
Yayınlanan örnekler aydınlatma, malzeme, geometri karmaşıklığı, animasyon ve fizik simülasyonunu içerir; rasterization ve ray tracing olmadan render edilir

RenderFormer’ın rendering yapısı

RenderFormer, üçgen tabanlı sahne temsilinden doğrudan görüntü render eden bir sinirsel rendering hattıdır
Tüm global illumination etkilerini içerirken sahneye özel eğitim veya ince ayar gerektirmez
Rendering süreci bir sequence-to-sequence dönüşümü olarak yapılandırılmıştır
- Girdi, yansıma özelliklerini içeren üçgen token dizisidir
- Çıktı, küçük piksel patch’lerini temsil eden token dizisidir
İki aşamalı hat, bakıştan bağımsız ışık aktarımı hesaplamasını gerçek piksel üretiminden ayırır
- Bakıştan bağımsız aşama: Üçgenler arasındaki ışık aktarımını modeller
- Bakışa bağımlı aşama: Işın demeti token’larını piksel değerlerine dönüştürür; bakıştan bağımsız aşamadaki üçgen dizisi buna rehberlik eder
Her iki aşama da Transformer mimarisi tabanlıdır ve en az ön kısıtla eğitilir
Rendering sürecinde rasterization veya ray tracing kullanılmaz

Yayınlanan sonuçlar ve referans materyaller

Rendering galerisi, sahneye özel eğitim veya ince ayar olmadan çeşitli aydınlatma koşullarını, malzemeleri ve geometri karmaşıklığını gösterir
- Cornell Box, Stanford Bunny in Cornell Box, Lucy Statue, Utah Teapot
- Composed Scene, Constant Width Bodies, Crystals, Fox in the Wild
- Horse and Heart, RenderFormer Logo, Interior Room, Shader Ball, Tree, Veach MIS
Ayrıntılı karşılaştırma için reference images sunuluyor
Ek video materyali olarak uncompressed videos ve reference videos sunuluyor
Teaser sahneleri
- Nesne döndürme, aydınlatma değişimi ve malzeme ayarlamalarını incelemek mümkün
- Cornell Box Roughness Adjustment
- Bunny Roughness Adjustment
- Tree Light Change
- Tree Object Rotation
- Fancy Scene Rotation
- Composed Scene View Change
Animasyon ve simülasyon
- Animasyon rendering örnekleri Cascade Cube Animation, Animated Crab, Gyroscope Motion, Animated Character, Marching Cubes Animation ve Robot Animation’ı içerir
- Fizik tabanlı simülasyon örnekleri Bowling Ball Physics Simulation, Rotating Box Dynamics ve Constant Width Body Simulation’ı içerir
- Makale ACM SIGGRAPH 2025 Conference Papers kapsamında yer alır; BibTeX girdisinin başlığı “RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination”dır

1 yorum

GN⁺ 2025-06-02

Hacker News yorumları

Buradaki en havalı şey hız olabilir: Aynı sahnede RenderFormer 0,0760 saniye, Blender Cycles ise 3,97 saniye (daha yüksek ayarlarda 12,05 saniye) sürüyor; buna rağmen yapısal benzerlik indeksi 0,9526’yı (0~1, 1 aynı görüntü demek) koruyor. Makaledeki Tablo 2 ve 1’e bakılabilir.
Bu, cihaz üzerinde çalışan bir Transformer modeliyle web’de ya da yerel uygulamalarda 3D tasarımcılara daha kaliteli anında render önizlemesi sunmayı mümkün kılabilir.
Yukarıdaki ölçüm, A100 üzerinde optimize edilmemiş bir PyTorch model sürümüyle yapılmış. Sıradan kullanıcıların GPU’ları çok daha zayıf olsa da, 3D tasarımcılara yönelik bir GPU, geleneksel render’a kıyasla epey büyük bir hız artışı görmeye yetecek kadar güçlü olabilir. Web tabanlı bir sistemse arka uçtaki A100’e bağlanıp görüntüyü tarayıcıya stream edebilir.
Sınırı, sahne karmaşıklığı arttıkça; örneğin karmaşık şekilli gölgelerde (parçacıklar ya da saç benzeri şeylerde de muhtemelen) tamamen doğru olmaması. Bu yüzden nihai render, günümüzde birçok yapay zeka üretimi görüntü/videoda görülen rahatsız edici görsel artefaktlardan kaçınmak için hâlâ büyük olasılıkla geleneksel yöntemle yapılacaktır. Yine de yeterince “iyi” bir seviyedeyse ve hız kazancı büyükse, müzik, hikâye incelemesi vb. için uzun metraj film uzunluğunda önizlemeler render etmesi gereken büyük animasyon stüdyolarının bunu benimsemesi için bir gerekçe oluşabilir.
- Yazarların bilerek yanıltmaya çalıştığını sanmıyorum ama o seviyedeki bir GPU’da Blender Cycles, bu makaledeki tüm sahneleri kare başına 4 saniyeden çok daha hızlı render edebilir.
  Sahneler karmaşıklığı düşük, oldukça sade teknik demo düzeyinde; Blender da piksel başına 4 bin iterasyon yapacak şekilde ayarlanmış gibi görünüyor, bu pek mantıklı değil. Blender birkaç yüz cycle’dan sonra çıktıya epey yaklaşır; sonraki 3.800 cycle boyunca iyileştirme olmadan sadece GPU cycle’ı yakması muhtemel.
  Toplam render süresine yanlışlıkla Blender’ın başlatma aşamasını dahil etmiş, buna karşılık Transformer başlatmasını dahil etmemiş gibi görünüyor. Her sistemde ikinci kareyi render etme süresini görmek isterdim; tahminim Blender’ın çok daha iyi performans göstereceği yönünde. Makale sonuçlarının kendisi ilginç, ama Blender ayarları ve ölçüm yönteminde nüans var.
- Gösterilen sahneler açısından 76 ms bile neredeyse sonsuzluk gibi. Elbette ileride çok daha hızlanacaktır, ama geleneksel render’dan iyi demek için daha gidilecek çok yol var.
- Referans render ile yapılan zaman karşılaştırması epey dürüst olmayan bir izlenim veriyor.
  Işın izlemede hata, örnek sayısının kareköküyle orantılı olarak azalır. Kalite karşılaştırması için kullanılan referans görüntülerde çok yüksek örnek sayısı kullanmak yaygındır; ancak gerçek çevrimdışı renderer’ların örnek sayısı bu makaledekinden 1~2 basamak daha düşüktür.
  Grafik makalelerinde kalite karşılaştırması için çok yüksek örnek sayılı referans görüntüler koymak yaygındır, ama o referans görüntüyle zaman karşılaştırması da yapılmaz. Sonuç yaklaşık bir değerse, başka yaklaşık render algoritmalarıyla karşılaştırmak adil olur. Modern gerçek zamanlı path tracer’lar ve gürültü gidericiler, tüketici GPU’larında bile çok daha karmaşık sahneleri 16 ms’nin altında render edebiliyor.
  Kilit nokta “çok daha karmaşık sahneler”. Transformer kullanıldığında hem üçgen sayısı hem de çıktı piksel sayısı açısından ikinci dereceden ölçekleniyor. Güncel makine öğrenmesi araştırmalarını takip etmedim; şu anda iyileşmiş olabilir, ama tipik path tracer’ların teorik ölçeklenmesi olan O(log n_triangles) ve O(n_pixels)’ı yenebilecek gibi görünmüyor. Gerçek piksel sayısına göre ölçeklenme ise komşu piksellerin yüksek tutarlılığı nedeniyle alt-doğrusal olmaya yakın.
- “Attention katmanının çalışma zamanı karmaşıklığı token sayısına göre ikinci dereceden artar; burada üçgen sayısı token sayısına karşılık gelir. Bunun sonucunda sahnenin toplam üçgen sayısını 4.096 ile sınırlandırıyoruz” diye bir bölüm var.
- Aynı sahnede RenderFormer 0,0760 saniye, Blender Cycles 3,97 saniye denmesi epey şaşırtıcı geliyor.
  Hızlıca göz attım ama nasıl ayarlandığına dair ayrıntı bulamadım. Cycles’ın A100’de CPU mu kullandığını yoksa CUDA kernel’larını mı kullandığını merak ediyorum. Ayrıca tek karelik bir render ise 3,97 saniyenin göz ardı edilemeyecek bir kısmı renderer başlangıcına gitmiş olabilir. Bir sekans render edilirse kare başına süre düşecektir.
  Kardeş yorumda sözü edilen üçgen başına karmaşıklık ölçeklenmesi de can yakıyor.
Derin öğrenme, küresel aydınlatma render görüntülerinin gürültüsünü gidermede de çok başarılı biçimde kullanılıyor [1].
Bu yaklaşımda geleneksel ışın izleme algoritması sahnenin kaba küresel aydınlatmasını hızlıca hesaplıyor, sinir ağı da çıktının gürültüsünü gideriyor.
[1] https://www.openimagedenoise.org
- Demo çıktı görüntüsü, yapay zeka upscaling’i gibi tuhaf derecede pürüzsüz görünüyor. Gelen veri miktarının ötesinde görüntüyü büyütmeye çalışırken kenarların korunup dokunun kaybolması gibi hissettiriyor.
  Düzenleme: Gürültü giderme, %125 DPI büyütmeden ziyade %100 büyütmede daha iyi görünüyor; alttaki eğrelti otunu ayırt etmek de kolaylaşıyor.
Grafik makalelerinde her zaman görünmeyen şeyleri düşünmek gerekir.
Burada neredeyse hiç poligon yok, çözünürlük düşük, doku yok, motion blur yok, alan derinliği yok ve animasyonda biraz artefakt var.
İlginç bir araştırma ama doğru perspektife oturtursak, modern GPU kullanarak 30 yıl öncekinin 1/1.000.000’i düzeyinde hesaplamayla üretilebilecek türden görüntüler yapıyor sayılırız.
Örnekler arasında kameranın arkasını gösteren hiçbir şey olmaması tuhaf geldi.
Bunun yaklaşımın bir sınırı mı yoksa örneklerin hazırlanmasındaki bir eksiklik mi olduğunu bilmiyorum, ama yansımalar ve aydınlatma konuşulurken kameranın arkası oldukça önemlidir.
Bilmediğim için soruyorum: Bu sahneler, sahnenin render edilmesinin beklendiği biçime dayanarak mı render ediliyor? Öyleyse daha doğrudan bir yöntem yerine bunu neden kullanmak gerektiğini anlamıyorum. Çünkü doğrudan yöntemden daha hızlı olacak gibi gelmiyor.
- Muhtemelen havalı araştırma (Cool Research™) olduğu içindir. Üçgen sayısına göre maliyet ikinci dereceden arttığı için pratik değil. Bu yüzden sahne başına yalnızca 4096 tane kullanmışlar.
- Muhtemelen öngörmesi zor, havalı avantajları olabilir.
  Örneğin sahne bir girdi ağırlıkları yığınıysa, buna gürültü eklendiğinde ortaya nasıl bir görüntü çıkar? Normal yöntemlerle mümkün olmayan havalı çıktılar elde edilebilir mi?
  İki farklı sahne temsili arasında enterpolasyon yapmak ilginç olur mu? Böyle sorular sorulabilir.
- Başka bir yoruma göre bu yöntem daha hızlıymış. Doğrudan yöntemde küresel aydınlatma çok yavaş olabilir.
Vay, o zaman GPU ile döngü kapanmış oluyor. Render’dan hesaplamaya, tekrar render’a.
Fena görünmüyor ama bulanık. Sinir ağı renderer’ı ile klasik renderer’ın render süresi karşılaştırmasını görmek iyi olurdu.
Animasyonlarda, özellikle Animated Crab ve Robot Animation’da, nesne ve kamera hareket ederken modelin etrafında doğal olmayan şekilde girdaplanan AI sanat artefaktları oldukça belirgin
- Makalede zamanlamayla ilgili biraz tartışma var. Blender Cycles (yol izleme) ile karşılaştırılmış ve en azından 4 bin üçgenin altındaki sahnelerde sinir ağı yaklaşımı çok daha hızlı. Ancak ölçeklenmesinin pek iyi olmayacağı anlaşılıyor. Dikkat mekanizmasının çalışma süresinin üçgen sayısına göre karesel olduğu belirtilmiş
  https://renderformer.github.io/pdfs/renderformer-paper.pdf
  Sinir ağı yaklaşımını basitleştirilmiş geometriyle yalnızca dolaylı aydınlatma için kullanmak pratik olur mu merak ediyorum. Yani normal bir rasterizer kullanıp üstüne küresel aydınlatma eklemek gibi
Film sektöründe fizik tabanlı renderer’larla çalışmış ve ilgili araştırmalar da yapmış bir arkadaşım var. Bu sektörde işlerin nasıl yürüdüğüne dair hikâyeler ve açıklamalar dinlemeyi her zaman seviyorum
Bugünlerde böyle yetenekleri hangi şirketler işe alıyor, merak ediyorum. AI şirketleri de eğitim ortamları oluşturmak için rendering mühendisleri işe alıyor mu?
Deneyimli bir araştırma ve endüstri rendering mühendisi arayan bir yer varsa bağlantı kurabilirim. Arkadaşım sosyal medya kullanmıyor ama fırsatlara bakıyor
- Gmail’deki kullanıcı adımla bana ulaşmasını sağlayın
Çok etkileyici bir araştırma. Transformer’ların metin dışı alanlara uygulanmasının böyle örneklerini gerçekten seviyorum
Girdinin sıralı olduğu ve bu girdi token’larının birbirleriyle ilişkili olduğu alanlarda iyi çalışacak gibi görünüyor. Bu alanda daha fazla araştırma görmeyi dört gözle bekliyorum
Metin dışı alanlar arasında Transformer’ın özellikle iyi uyacağı ilginç alanlar neler olabilir?
Bir sahne açıklaması olan üçgen kümesini 2D piksel dizisine dönüştürmesi için Transformer’ı eğitmek ve sonucun, aynı sahnenin küresel aydınlatma renderer’ıyla üretilmiş pikselleri gibi görünmesini sağlamak fikri harika ve ilginç
Son 5 yıldaki araştırmalara bakınca bunun çalışması başlı başına şok edici değil, ama yine de epey derinlikli bir sonuç gibi geliyor. Transformer mimarisi gerçekten çok yönlü
Her hâlükârda çok hızlı, Blender render çıktısına yakın ve kabaca 1 milyar parametreli bir model gibi görünüyor. fp16 mı fp32 mi bilmiyorum ama dosyanın 2GB olması pek şikâyet edilecek bir şey değil. Daha “gerçekçi” sahne demoları da görmek isterdim; ama istersem indirip Mac’te kendim çalıştırabilirim

RenderFormer: Üçgen Mesh ve Global Illumination Tabanlı Sinirsel Rendering

RenderFormer’ın rendering yapısı

Yayınlanan sonuçlar ve referans materyaller

Teaser sahneleri

Animasyon ve simülasyon

İlgili okumalar

1 yorum

Hacker News yorumları