6 puan yazan GN⁺ 2025-12-28 | 1 yorum | WhatsApp'ta paylaş
  • SHARP, tek bir görüntüyü girdi olarak alıp 3D Gaussian gösterimine dönüştürerek gerçekçi 3D görünümler üreten bir model
  • Standart bir GPU’da 1 saniyeden kısa sürede, tek bir sinir ağı çıkarımıyla 3D sahne parametrelerini tahmin ediyor
  • Üretilen 3D gösterim gerçek zamanlı render edilebiliyor ve mutlak ölçek içeren metrik kamera hareketini destekliyor
  • Birden fazla veri kümesinde LPIPS %25–34, DISTS %21–43 iyileşme ile birlikte mevcut modellere kıyasla üç haneli katlarda daha hızlı sentez hızı sağlıyor
  • Açık kaynak olarak yayınlandığı için geliştiriciler CLI tabanlı tahmin ve render işlemlerini doğrudan çalıştırabiliyor ve çeşitli 3D render araçlarıyla entegre edebiliyor

SHARP genel bakış

  • SHARP (Sharp Monocular View Synthesis), tek bir fotoğraftan fotogerçekçi 3D görünümler üreten bir yaklaşım
    • Girilen görüntüye dayanarak 3D Gaussian gösteriminin parametrelerini regresyon yoluyla tahmin ediyor
    • Standart bir GPU’da yalnızca tek bir feed-forward geçişi ile 1 saniyeden kısa işlem süresine ulaşıyor
  • Üretilen 3D Gaussian gösterimi gerçek zamanlı render edilebiliyor ve yakın çevredeki bakış açılarından yüksek çözünürlüklü görüntüler sunuyor
  • Gösterim, mutlak ölçek içeren metrik bir yapı olduğundan gerçek kamera hareketini destekliyor

Performans ve genelleme

  • Deney sonuçlarına göre SHARP, çeşitli veri kümelerinde zero-shot genelleme performansı gösteriyor
  • Mevcut en iyi modellere kıyasla LPIPS %25–34, DISTS %21–43 düşüş sağlıyor
  • Sentez süresi üç haneli katlarda kısalıyor; yani önceki yaklaşımlara göre yaklaşık 1000 kat daha hızlı işlem yapıyor

Kurulum ve çalıştırma

  • Python 3.13 ortamında çalışabiliyor; bağımlılıklar pip install -r requirements.txt ile kuruluyor
  • Komut satırı arayüzünde (CLI) tahmin şu şekilde çalıştırılıyor
    • sharp predict -i 입력경로 -o 출력경로
    • İlk çalıştırmada model checkpoint’i otomatik olarak indiriliyor ve yerel önbelleğe kaydediliyor
    • Manuel indirme durumunda -c seçeneğiyle belirtilebiliyor
  • Çıktı sonuçları, 3D Gaussian Splat (3DGS) biçiminde .ply dosyaları olarak kaydediliyor ve herkese açık 3DGS render araçlarıyla uyumlu

Render özellikleri

  • CUDA GPU ortamında kamera yörüngesini izleyerek video render almak mümkün
    • Tahmin ve render işlemini aynı anda yapmak için --render seçeneği kullanılabiliyor
    • Ya da ara sonuç (.ply) kullanılarak ayrı bir render işlemi çalıştırılabiliyor
  • OpenCV koordinat sistemini (x sağ, y aşağı, z ileri) izliyor; harici render araçları kullanılırken ölçek ve rotasyon düzeltmesi gerekiyor

Değerlendirme ve referans materyalleri

  • Nicel ve nitel değerlendirme sonuçları makalede yer alıyor
  • Proje sayfasında karşılaştırmalı video örnekleri görülebiliyor

Lisans ve atıf

  • Kod ve model, sırasıyla LICENSE ve LICENSE_MODEL dosyalarındaki koşullara göre kullanılabiliyor
  • Araştırmaya atıf yapılacaksa arXiv makalesi “Sharp Monocular View Synthesis in Less Than a Second (2025)” referans alınmalı
  • Kod tabanı, çeşitli açık kaynak katkıları temel alınarak oluşturulmuş

1 yorum

 
GN⁺ 2025-12-28
Hacker News yorumları
  • HN’de Apple’ın SHARP projesi yeniden gündeme geldi
    İlgili tartışma önceki başlıkta da yapılmıştı

    • “SHARP, an approach to photorealistic view synthesis from a single image” başlığıyla tanıtılan yazı yeniden paylaşıldı
    • Yapay zeka ile ilgili GitHub kurulum rehberinin düzgün çalışmadığına dikkat çekildi. Çoğu rehber geliştirme ortamının zaten kurulmuş olduğunu varsaydığı için, yeni başlayanlar açısından giriş eşiği yüksek
  • SHARP’ın resmi materyallerine proje sayfası ve makale(arXiv) üzerinden ulaşılabiliyor

    • Bir kullanıcı, resmi sayfadan çok Bradley’nin demo videosunu daha etkileyici bulduğunu söyledi
    • Başka bir kullanıcı ise yazarların hepsinin yabancı kökenli göründüğünü söyleyerek, STEM iş gücü yapısındaki değişim hakkında merakını dile getirdi
  • Model lisansında “yalnızca araştırma amaçlı” ifadesi yer aldığı için bunun gerçekte açık kaynak olmadığı belirtildi

    • README’de de açık kaynak olduğuna dair bir ifade yok; yalnızca açık kaynak temeli üzerine inşa edildiği yazıyor
    • Meta’nın “açık kaynak” kavramının anlamını bulanıklaştırmasının etkisiyle, artık sadece ağırlıkların yayımlanması = açık kaynak gibi algılanma eğilimi oluştuğu vurgulandı
    • Bir kullanıcı, “ağırlıklar telif hakkına tabi olmayabilir” diyerek, sonuçta Apple’ın zorlayabileceği hukuki geçerliliğin asıl mesele olduğunu söyledi
    • Ana lisansın kısıtlamaları belirtmemesi yüzünden kafa karışıklığı oluşmuş gibi görünüyor
    • Bir kullanıcı da “Bununla kârlı bir ürün geliştirip geliştiremeyeceğimi araştıracağım” dedi
  • Bir kullanıcı projeyi zaten MPS üzerinde render edilebilir hâle getirecek şekilde fork ettiğini söyleyip kendi GitHub deposunu paylaştı

    • Başka bir kullanıcı da “İyi görünüyor” diyerek teşekkür etti
  • Birisi şaka yollu “VR porno için büyük gün” yorumunu yaptı

    • Buna karşılık başka bir kullanıcı, gerçekte VR içerik kalitesi sınırlarının oldukça net olduğunu açıkladı
      Model yalnızca tek bir eksende çıkarım yapıyor, çözünürlük de 768px + 2 katmanla sınırlı ve gerçek zamanlı işleme de mümkün değil
      Bu yıl asıl büyük yeniliklerin görüntü düzenleme ve video modelleri tarafında yaşandığını da ekledi
    • Bir başka kullanıcı ise “Gaussian splat” ifadesinin kulağa bambaşka bir anlamda geldiği yönünde şaka yaptı
  • “Büyük şirketler her model yayımladığında açık kaynak tanımı tartışması tekrar ediyor” denilerek, yapay zeka modellerindeki ‘kaynak’ kavramının yazılımdakinden farklı olduğuna dikkat çekildi
    Apple’ın akademik güvenilirlik kazanırken ticari seçeneklerini de korumaya çalıştığı yorumu yapıldı

    • Başka bir kullanıcı, “Teknolojinin kendisi bu kadar etkileyiciyken lisans tartışmasının en üste çıkması üzücü” dedi ve
      bu teknolojinin eski fotoğrafları VR içinde deneyimlemeyi mümkün kılmasının Apple’ın asıl gücü olduğunu değerlendirdi
    • Bir başka kullanıcı, “which isn’t unsurprising” ifadesinin gereksiz derecede karmaşık olduğunu söyleyerek şaka yaptı
    • Ardından “şaşırtıcı olmaması şaşırtıcı” tarzı espriler de devam etti
  • “İnsanlar aynı nesnenin birden fazla fotoğrafını sıkça çekiyor, yani fiilen stereo görüntü verisi sağlamış oluyorlar” denildi

    • Başka bir kullanıcı da “Live Photo kareleri de kullanılabilir” diye ekledi
  • Bir kullanıcı, Conda’dan hoşlanmadığı için denemekte tereddüt ettiğini söyledi

    • Başka bir kullanıcı pixi önerdi ve aslında Conda olmadan da yalnızca Python 3.13 ile uv kullanarak yeterli olduğunu belirterek ayrıntılı kurulum komutları paylaştı
    • Bir diğer kullanıcı ise “Bu hiç de mantıksız bir hoşnutsuzluk değil” diyerek destek verdi
  • Bir kullanıcı, tatildeyken StereoCrafter ve GeometryCrafter gibi ilgili projeleri denediğini söyledi
    bunları videoya uygulamanın zamansal tutarlılık (temporal consistency) sorunu nedeniyle çok daha zor ve hesaplama açısından pahalı olduğunu,
    ancak Kore Savaşı döneminden eski ev videolarını uzamsallaştırmayı denediğinde şaşırtıcı derecede iyi sonuç aldığını anlattı
    StereoCrafter bağlantısı, GeometryCrafter bağlantısı

    • Başka bir kullanıcı da “O örneği gerçekten görmek isterim” diye yanıtladı