- Apple’ın tanıttığı SHARP, tek bir fotoğraftan 3D Gaussian temsili tahmin ederek fotogerçekçi yeni bakış açıları sentezleyen bir teknoloji
- Standart bir GPU’da 1 saniyeden kısa tek bir sinir ağı feed-forward geçişiyle çalışır ve gerçek zamanlı render mümkündür
- Üretilen 3D temsil, mutlak ölçeğe sahip metrik bir temsil olarak gerçek kamera hareketini destekler
- Birden çok veri kümesinde zero-shot genelleme performansı gösterirken, önceki modellere kıyasla LPIPS %25–34, DISTS %21–43 düşüş sağlar
- Mevcut yöntemlere göre sentez hızını 1000 kat artırarak, tek görüntü tabanlı 3D görüş sentezinde yeni bir standart ortaya koyar
SHARP genel bakış
- SHARP (Sharp Monocular View Synthesis), tek bir görüntüden fotogerçekçi 3D görüş sentezi gerçekleştiren bir yaklaşım
- Girilen tek bir fotoğraftan sahnenin 3D Gaussian temsil parametrelerini regresyon yoluyla tahmin eder
- Bu süreç standart bir GPU’da 1 saniyeden kısa sürede tamamlanır
- Oluşturulan 3D Gaussian temsil, gerçek zamanlı render desteğiyle yakın bakış açılarında yüksek çözünürlüklü görüntüler üretir
- Saniyede 100 kareden fazla render hızına ulaşır
- İnce yapıları ve net detayları korur
Teknik özellikler
- SHARP’ın 3D temsili, mutlak ölçeği içeren metrik bir temsil olup gerçek kamera hareketini yansıtır
- İşlem yalnızca tek bir feed-forward sinir ağı geçişi ile yapıldığından, karmaşık optimizasyon süreçleri olmadan hızlı sonuç verir
- Zero-shot genelleme sayesinde eğitimde görülmemiş veri kümelerinde de istikrarlı performansını korur
Performans ve karşılaştırma sonuçları
- Birden çok veri kümesinde en ileri seviye (state of the art) performansa ulaşır
- LPIPS metriğinde %25–34, DISTS metriğinde %21–43 iyileşme
- Önceki en iyi modele kıyasla sentez süresi 1000 kat kısalır
- Bu performans artışı, tek görüntü tabanlı 3D görüş sentezinde hem verimliliği hem kaliteyi aynı anda iyileştirir
Görsel sonuçlar
- SHARP, örnek olarak Unsplash fotoğrafları üzerinde tek giriş görüntüsünden üretilen 3D temsili görselleştirir
- Yakın bakış açılarındaki render sonuçları net detayları ve ince yapıları korur
- Gerçek zamanlı render ile doğal bakış açısı geçişleri sağlar
Araştırma kaynağı
- Araştırma makalesi arXiv:2512.10685 üzerinde yayımlandı
- Başlık: Sharp Monocular View Synthesis in Less Than a Second
- Araştırmacılar: Lars Mescheder ve 12 kişi daha
- Kurum: Apple
1 yorum
Hacker News görüşleri
“Unsplash > Gen3C > The fly video” tam anlamıyla kâbus gibi bir video
Kendiniz görmek isterseniz buradaki bağlantıya bakabilirsiniz
Sonunda insanlar gerçek ilişkileri kaybedip sanal eğlence tulumlarına bağımlı hale gelecek gibi geliyor
Şanslıysak artırılmış gerçeklik içinde ‘gerçek’ insanlarla karşılaşmaya çalışma gibi bir şey kalır ama biz zaten teknolojiye fazlasıyla bağımlıyız
Teknoloji ilerlese bile bunun insanlar için iyi sonuç verip vermeyeceğinden emin değilim
Apple Silicon üzerinde bir şeyleri çalıştırmayı başarmışlar
ml-sharp GitHub deposunda küçük bir demo GIF’i de var
Gaussian splat’i baştan uygulamak yerine yaklaşık üretmeye çalışıyorum ama açıkçası biraz ağır geliyor
Yapay zekânın fotoğraf içindeki fotoğraf yapısını anlayıp sadece alev kısmını 2D tutması etkileyiciydi
“Bu tam olarak ne yapıyor?”
Bu yazılım bunu 1 saniyenin altında işleyip size bir 3D model oluşturuyor
Gaussian splatting özellikle çok havalı
Kişi ayrımı da iyi ve birden fazla öznenin olduğu sahneleri de işleyebiliyor
Portre modu efektine benzer bir mantık
“Photorealistic”, gerçek doku ve ışıklandırmanın korunması demek
Apple Photos uygulamasındaki Spatial Scene özelliğine benziyor — demo videosu
Ardından her düzlemi hareket ettirerek paralaks oluşturuyor — bu da 2D yandan kaydırmalı oyunlardaki arka plan derinlik efektine benziyor
Örneklerde neredeyse hiç insan yüzü olmaması dikkat çekici
Şimdiye kadarki deneyimime göre bu tür modeller üç boyutlu bakıldığında insanları 2D kâğıt kukla gibi gösteriyor
Bu modelin gerçekten hacim hissi verebilip veremeyeceğini bilmiyorum ama insan yüzlerinin olmaması düşündürücü
Depth Pro GitHub / LearnOpenCV açıklaması
Apple yapmış ama yalnızca CUDA GPU için ilgili belge
Görünüşe göre birkaç yıl beklemek gerekecek
Şimdiye kadar denediğim yapay zekâ depoları arasında çalıştırması en kolay olanlardan biriydi
Modelin kendisi GPU, CPU ve MPS üzerinde çalışıyor
Sonuç olarak bir
.plydosyası alıp bunu SparkJS görüntüleyicisine yükleyebilirsinizCUDA yalnızca yandan kaydırmalı video render’ı için gerekli
Meselenin özü, “tek bir fotoğraftan 1 saniyenin altında gerçekçi bir 3D temsil üretmesi”
Apple Photos uygulamasındaki Spatial Scene özelliği de benzer şekilde çalışıyor
demo videosu
Hatta bazen Photoshop’un içerik duyarlı doldurma özelliğinin daha iyi olduğu dönemler vardı
Gaussian splat örnek dosyaları var mı?
Yalnız örnek sadece bir tane olduğu için genellemek zor
Sonuç etkileyici ama fazla keskin ve yapay hissettiriyor
Sadece TMPI her zaman daha parlak çıkıyor; hangisinin daha doğru olduğunu bilmiyorum