5 puan yazan GN⁺ 2025-12-17 | 1 yorum | WhatsApp'ta paylaş
  • Apple’ın tanıttığı SHARP, tek bir fotoğraftan 3D Gaussian temsili tahmin ederek fotogerçekçi yeni bakış açıları sentezleyen bir teknoloji
  • Standart bir GPU’da 1 saniyeden kısa tek bir sinir ağı feed-forward geçişiyle çalışır ve gerçek zamanlı render mümkündür
  • Üretilen 3D temsil, mutlak ölçeğe sahip metrik bir temsil olarak gerçek kamera hareketini destekler
  • Birden çok veri kümesinde zero-shot genelleme performansı gösterirken, önceki modellere kıyasla LPIPS %25–34, DISTS %21–43 düşüş sağlar
  • Mevcut yöntemlere göre sentez hızını 1000 kat artırarak, tek görüntü tabanlı 3D görüş sentezinde yeni bir standart ortaya koyar

SHARP genel bakış

  • SHARP (Sharp Monocular View Synthesis), tek bir görüntüden fotogerçekçi 3D görüş sentezi gerçekleştiren bir yaklaşım
    • Girilen tek bir fotoğraftan sahnenin 3D Gaussian temsil parametrelerini regresyon yoluyla tahmin eder
    • Bu süreç standart bir GPU’da 1 saniyeden kısa sürede tamamlanır
  • Oluşturulan 3D Gaussian temsil, gerçek zamanlı render desteğiyle yakın bakış açılarında yüksek çözünürlüklü görüntüler üretir
    • Saniyede 100 kareden fazla render hızına ulaşır
    • İnce yapıları ve net detayları korur

Teknik özellikler

  • SHARP’ın 3D temsili, mutlak ölçeği içeren metrik bir temsil olup gerçek kamera hareketini yansıtır
  • İşlem yalnızca tek bir feed-forward sinir ağı geçişi ile yapıldığından, karmaşık optimizasyon süreçleri olmadan hızlı sonuç verir
  • Zero-shot genelleme sayesinde eğitimde görülmemiş veri kümelerinde de istikrarlı performansını korur

Performans ve karşılaştırma sonuçları

  • Birden çok veri kümesinde en ileri seviye (state of the art) performansa ulaşır
    • LPIPS metriğinde %25–34, DISTS metriğinde %21–43 iyileşme
    • Önceki en iyi modele kıyasla sentez süresi 1000 kat kısalır
  • Bu performans artışı, tek görüntü tabanlı 3D görüş sentezinde hem verimliliği hem kaliteyi aynı anda iyileştirir

Görsel sonuçlar

  • SHARP, örnek olarak Unsplash fotoğrafları üzerinde tek giriş görüntüsünden üretilen 3D temsili görselleştirir
    • Yakın bakış açılarındaki render sonuçları net detayları ve ince yapıları korur
    • Gerçek zamanlı render ile doğal bakış açısı geçişleri sağlar

Araştırma kaynağı

  • Araştırma makalesi arXiv:2512.10685 üzerinde yayımlandı
    • Başlık: Sharp Monocular View Synthesis in Less Than a Second
    • Araştırmacılar: Lars Mescheder ve 12 kişi daha
    • Kurum: Apple

1 yorum

 
GN⁺ 2025-12-17
Hacker News görüşleri
  • “Unsplash > Gen3C > The fly video” tam anlamıyla kâbus gibi bir video
    Kendiniz görmek isterseniz buradaki bağlantıya bakabilirsiniz

    • Şirketler böyle berbat sonuçları görüp daha da hızlı geliştirmeye çalışacaktır ama ben yine de ortada gerçekçi videoların kalmasını umuyorum
      Sonunda insanlar gerçek ilişkileri kaybedip sanal eğlence tulumlarına bağımlı hale gelecek gibi geliyor
      Şanslıysak artırılmış gerçeklik içinde ‘gerçek’ insanlarla karşılaşmaya çalışma gibi bir şey kalır ama biz zaten teknolojiye fazlasıyla bağımlıyız
      Teknoloji ilerlese bile bunun insanlar için iyi sonuç verip vermeyeceğinden emin değilim
    • Bana eski yapay zekânın “her şeyin köpek kafasına dönüştüğü dönemleri” hatırlatıyor; o yüzden garip biçimde güzel geliyor
    • “san check, 1d10” — korku oyunu memlerindeki gibi akıl sağlığı kontrolü gerektirecek kadar ürkütücü bir video olduğuna dair şaka
    • “Seth Brundle has entered the chat.” — The Fly filminin başkarakterine gönderme yaparak videodaki mutasyona uğramış havayı betimliyor
  • Apple Silicon üzerinde bir şeyleri çalıştırmayı başarmışlar
    ml-sharp GitHub deposunda küçük bir demo GIF’i de var
    Gaussian splat’i baştan uygulamak yerine yaklaşık üretmeye çalışıyorum ama açıkçası biraz ağır geliyor

    • GIF’teki banding artifact sayesinde alevler gerçekten titreşiyormuş gibi görünüyor; bu ilginçti
      Yapay zekânın fotoğraf içindeki fotoğraf yapısını anlayıp sadece alev kısmını 2D tutması etkileyiciydi
    • Örnek sonuçlar açıkçası çok etkileyici değil. Alt %20’ye bakınca kalite düşüyor
  • “Bu tam olarak ne yapıyor?”

    • Tarih belgesellerinde eski fotoğraflardaki insanları ya da nesneleri arka plandan ayırıp üç boyutlu hareket kazandıran teknik gibi
      Bu yazılım bunu 1 saniyenin altında işleyip size bir 3D model oluşturuyor
      Gaussian splatting özellikle çok havalı
    • Tek bir 2D görüntüyle kamera açısını değiştiriyormuşsunuz gibi bir paralaks efekti simüle ediyor
      Kişi ayrımı da iyi ve birden fazla öznenin olduğu sahneleri de işleyebiliyor
      Portre modu efektine benzer bir mantık
    • Tek bir fotoğrafı kaba bir 3D sahneye dönüştürüp kamerayı hafifçe oynattığınızda yeni bir bakış açısı görebiliyorsunuz
      “Photorealistic”, gerçek doku ve ışıklandırmanın korunması demek
      Apple Photos uygulamasındaki Spatial Scene özelliğine benziyor — demo videosu
    • Tek bir fotoğraftan gizli bir 3D temsili çıkarıp biraz farklı bir açıdan gerçekçi bir görüntü üretiyor
    • Temelde depth estimation ile sahneyi birkaç düzleme ayırıyor, gizlenen kısımları da inpainting ile dolduruyor
      Ardından her düzlemi hareket ettirerek paralaks oluşturuyor — bu da 2D yandan kaydırmalı oyunlardaki arka plan derinlik efektine benziyor
  • Örneklerde neredeyse hiç insan yüzü olmaması dikkat çekici
    Şimdiye kadarki deneyimime göre bu tür modeller üç boyutlu bakıldığında insanları 2D kâğıt kukla gibi gösteriyor
    Bu modelin gerçekten hacim hissi verebilip veremeyeceğini bilmiyorum ama insan yüzlerinin olmaması düşündürücü

  • Apple yapmış ama yalnızca CUDA GPU için ilgili belge

    • İlginç olan şu ki Apple’ın kendi modeli MPS üzerinde çalışmıyor
      Görünüşe göre birkaç yıl beklemek gerekecek
    • Gaussian splat çıktısı CPU’da da üretilebiliyor
      Şimdiye kadar denediğim yapay zekâ depoları arasında çalıştırması en kolay olanlardan biriydi
    • Düzenlenmiş sürüm burada
    • Bu kısıtlama yalnızca video render alma için geçerli
      Modelin kendisi GPU, CPU ve MPS üzerinde çalışıyor
    • Model CUDA olmadan da çalışıyor
      Sonuç olarak bir .ply dosyası alıp bunu SparkJS görüntüleyicisine yükleyebilirsiniz
      CUDA yalnızca yandan kaydırmalı video render’ı için gerekli
  • Meselenin özü, “tek bir fotoğraftan 1 saniyenin altında gerçekçi bir 3D temsil üretmesi”

  • Apple Photos uygulamasındaki Spatial Scene özelliği de benzer şekilde çalışıyor
    demo videosu

    • Ama sonuç bazen bulanık ve doğal olmayan bir mekân hissi oluşturuyor
      Hatta bazen Photoshop’un içerik duyarlı doldurma özelliğinin daha iyi olduğu dönemler vardı
  • Gaussian splat örnek dosyaları var mı?

    • Kendi test sonuçlarımı bu depoya yükledim
      Yalnız örnek sadece bir tane olduğu için genellemek zor
  • Sonuç etkileyici ama fazla keskin ve yapay hissettiriyor

    • Ben hem TMPI hem de SHARP sonuçlarını beğeniyorum
      Sadece TMPI her zaman daha parlak çıkıyor; hangisinin daha doğru olduğunu bilmiyorum