SHARP - Tek Bir Görüntüden Fotogerçekçi Görüşler Sentezlemeye Yönelik Bir Yaklaşım

(apple.github.io)

5 puan yazan GN⁺ 2025-12-17 | 1 yorum | WhatsApp'ta paylaş

Apple’ın tanıttığı SHARP, tek bir fotoğraftan 3D Gaussian temsili tahmin ederek fotogerçekçi yeni bakış açıları sentezleyen bir teknoloji
Standart bir GPU’da 1 saniyeden kısa tek bir sinir ağı feed-forward geçişiyle çalışır ve gerçek zamanlı render mümkündür
Üretilen 3D temsil, mutlak ölçeğe sahip metrik bir temsil olarak gerçek kamera hareketini destekler
Birden çok veri kümesinde zero-shot genelleme performansı gösterirken, önceki modellere kıyasla LPIPS %25–34, DISTS %21–43 düşüş sağlar
Mevcut yöntemlere göre sentez hızını 1000 kat artırarak, tek görüntü tabanlı 3D görüş sentezinde yeni bir standart ortaya koyar

SHARP genel bakış

SHARP (Sharp Monocular View Synthesis), tek bir görüntüden fotogerçekçi 3D görüş sentezi gerçekleştiren bir yaklaşım
- Girilen tek bir fotoğraftan sahnenin 3D Gaussian temsil parametrelerini regresyon yoluyla tahmin eder
- Bu süreç standart bir GPU’da 1 saniyeden kısa sürede tamamlanır
Oluşturulan 3D Gaussian temsil, gerçek zamanlı render desteğiyle yakın bakış açılarında yüksek çözünürlüklü görüntüler üretir
- Saniyede 100 kareden fazla render hızına ulaşır
- İnce yapıları ve net detayları korur

Teknik özellikler

SHARP’ın 3D temsili, mutlak ölçeği içeren metrik bir temsil olup gerçek kamera hareketini yansıtır
İşlem yalnızca tek bir feed-forward sinir ağı geçişi ile yapıldığından, karmaşık optimizasyon süreçleri olmadan hızlı sonuç verir
Zero-shot genelleme sayesinde eğitimde görülmemiş veri kümelerinde de istikrarlı performansını korur

Performans ve karşılaştırma sonuçları

Birden çok veri kümesinde en ileri seviye (state of the art) performansa ulaşır
- LPIPS metriğinde %25–34, DISTS metriğinde %21–43 iyileşme
- Önceki en iyi modele kıyasla sentez süresi 1000 kat kısalır
Bu performans artışı, tek görüntü tabanlı 3D görüş sentezinde hem verimliliği hem kaliteyi aynı anda iyileştirir

Görsel sonuçlar

SHARP, örnek olarak Unsplash fotoğrafları üzerinde tek giriş görüntüsünden üretilen 3D temsili görselleştirir
- Yakın bakış açılarındaki render sonuçları net detayları ve ince yapıları korur
- Gerçek zamanlı render ile doğal bakış açısı geçişleri sağlar

Araştırma kaynağı

Araştırma makalesi arXiv:2512.10685 üzerinde yayımlandı
- Başlık: Sharp Monocular View Synthesis in Less Than a Second
- Araştırmacılar: Lars Mescheder ve 12 kişi daha
- Kurum: Apple

1 yorum

GN⁺ 2025-12-17

Hacker News görüşleri

“Unsplash > Gen3C > The fly video” tam anlamıyla kâbus gibi bir video
Kendiniz görmek isterseniz buradaki bağlantıya bakabilirsiniz
- Şirketler böyle berbat sonuçları görüp daha da hızlı geliştirmeye çalışacaktır ama ben yine de ortada gerçekçi videoların kalmasını umuyorum
  Sonunda insanlar gerçek ilişkileri kaybedip sanal eğlence tulumlarına bağımlı hale gelecek gibi geliyor
  Şanslıysak artırılmış gerçeklik içinde ‘gerçek’ insanlarla karşılaşmaya çalışma gibi bir şey kalır ama biz zaten teknolojiye fazlasıyla bağımlıyız
  Teknoloji ilerlese bile bunun insanlar için iyi sonuç verip vermeyeceğinden emin değilim
- Bana eski yapay zekânın “her şeyin köpek kafasına dönüştüğü dönemleri” hatırlatıyor; o yüzden garip biçimde güzel geliyor
- “san check, 1d10” — korku oyunu memlerindeki gibi akıl sağlığı kontrolü gerektirecek kadar ürkütücü bir video olduğuna dair şaka
- “Seth Brundle has entered the chat.” — The Fly filminin başkarakterine gönderme yaparak videodaki mutasyona uğramış havayı betimliyor
Apple Silicon üzerinde bir şeyleri çalıştırmayı başarmışlar
ml-sharp GitHub deposunda küçük bir demo GIF’i de var
Gaussian splat’i baştan uygulamak yerine yaklaşık üretmeye çalışıyorum ama açıkçası biraz ağır geliyor
- GIF’teki banding artifact sayesinde alevler gerçekten titreşiyormuş gibi görünüyor; bu ilginçti
  Yapay zekânın fotoğraf içindeki fotoğraf yapısını anlayıp sadece alev kısmını 2D tutması etkileyiciydi
- Örnek sonuçlar açıkçası çok etkileyici değil. Alt %20’ye bakınca kalite düşüyor
“Bu tam olarak ne yapıyor?”
- Tarih belgesellerinde eski fotoğraflardaki insanları ya da nesneleri arka plandan ayırıp üç boyutlu hareket kazandıran teknik gibi
  Bu yazılım bunu 1 saniyenin altında işleyip size bir 3D model oluşturuyor
  Gaussian splatting özellikle çok havalı
- Tek bir 2D görüntüyle kamera açısını değiştiriyormuşsunuz gibi bir paralaks efekti simüle ediyor
  Kişi ayrımı da iyi ve birden fazla öznenin olduğu sahneleri de işleyebiliyor
  Portre modu efektine benzer bir mantık
- Tek bir fotoğrafı kaba bir 3D sahneye dönüştürüp kamerayı hafifçe oynattığınızda yeni bir bakış açısı görebiliyorsunuz
  “Photorealistic”, gerçek doku ve ışıklandırmanın korunması demek
  Apple Photos uygulamasındaki Spatial Scene özelliğine benziyor — demo videosu
- Tek bir fotoğraftan gizli bir 3D temsili çıkarıp biraz farklı bir açıdan gerçekçi bir görüntü üretiyor
- Temelde depth estimation ile sahneyi birkaç düzleme ayırıyor, gizlenen kısımları da inpainting ile dolduruyor
  Ardından her düzlemi hareket ettirerek paralaks oluşturuyor — bu da 2D yandan kaydırmalı oyunlardaki arka plan derinlik efektine benziyor
Örneklerde neredeyse hiç insan yüzü olmaması dikkat çekici
Şimdiye kadarki deneyimime göre bu tür modeller üç boyutlu bakıldığında insanları 2D kâğıt kukla gibi gösteriyor
Bu modelin gerçekten hacim hissi verebilip veremeyeceğini bilmiyorum ama insan yüzlerinin olmaması düşündürücü
- Apple derinlik tahmini için Depth Pro modelini kullanıyor ve yüz gösterimi konusunda epey iyi olduğu söyleniyor
  Depth Pro GitHub / LearnOpenCV açıklaması
Apple yapmış ama yalnızca CUDA GPU için ilgili belge
- İlginç olan şu ki Apple’ın kendi modeli MPS üzerinde çalışmıyor
  Görünüşe göre birkaç yıl beklemek gerekecek
- Gaussian splat çıktısı CPU’da da üretilebiliyor
  Şimdiye kadar denediğim yapay zekâ depoları arasında çalıştırması en kolay olanlardan biriydi
- Düzenlenmiş sürüm burada
- Bu kısıtlama yalnızca video render alma için geçerli
  Modelin kendisi GPU, CPU ve MPS üzerinde çalışıyor
- Model CUDA olmadan da çalışıyor
  Sonuç olarak bir .ply dosyası alıp bunu SparkJS görüntüleyicisine yükleyebilirsiniz
  CUDA yalnızca yandan kaydırmalı video render’ı için gerekli
Meselenin özü, “tek bir fotoğraftan 1 saniyenin altında gerçekçi bir 3D temsil üretmesi”
Apple Photos uygulamasındaki Spatial Scene özelliği de benzer şekilde çalışıyor
demo videosu
- Ama sonuç bazen bulanık ve doğal olmayan bir mekân hissi oluşturuyor
  Hatta bazen Photoshop’un içerik duyarlı doldurma özelliğinin daha iyi olduğu dönemler vardı
Gaussian splat örnek dosyaları var mı?
- Kendi test sonuçlarımı bu depoya yükledim
  Yalnız örnek sadece bir tane olduğu için genellemek zor
Sonuç etkileyici ama fazla keskin ve yapay hissettiriyor
- Ben hem TMPI hem de SHARP sonuçlarını beğeniyorum
  Sadece TMPI her zaman daha parlak çıkıyor; hangisinin daha doğru olduğunu bilmiyorum

SHARP - Tek Bir Görüntüden Fotogerçekçi Görüşler Sentezlemeye Yönelik Bir Yaklaşım

SHARP genel bakış

Teknik özellikler

Performans ve karşılaştırma sonuçları

Görsel sonuçlar

Araştırma kaynağı

İlgili okumalar

1 yorum

Hacker News görüşleri