- SHARP, tek bir görüntüyü girdi olarak alıp 3D Gaussian gösterimine dönüştürerek gerçekçi 3D görünümler üreten bir model
- Standart bir GPU’da 1 saniyeden kısa sürede, tek bir sinir ağı çıkarımıyla 3D sahne parametrelerini tahmin ediyor
- Üretilen 3D gösterim gerçek zamanlı render edilebiliyor ve mutlak ölçek içeren metrik kamera hareketini destekliyor
- Birden fazla veri kümesinde LPIPS %25–34, DISTS %21–43 iyileşme ile birlikte mevcut modellere kıyasla üç haneli katlarda daha hızlı sentez hızı sağlıyor
- Açık kaynak olarak yayınlandığı için geliştiriciler CLI tabanlı tahmin ve render işlemlerini doğrudan çalıştırabiliyor ve çeşitli 3D render araçlarıyla entegre edebiliyor
SHARP genel bakış
- SHARP (Sharp Monocular View Synthesis), tek bir fotoğraftan fotogerçekçi 3D görünümler üreten bir yaklaşım
- Girilen görüntüye dayanarak 3D Gaussian gösteriminin parametrelerini regresyon yoluyla tahmin ediyor
- Standart bir GPU’da yalnızca tek bir feed-forward geçişi ile 1 saniyeden kısa işlem süresine ulaşıyor
- Üretilen 3D Gaussian gösterimi gerçek zamanlı render edilebiliyor ve yakın çevredeki bakış açılarından yüksek çözünürlüklü görüntüler sunuyor
- Gösterim, mutlak ölçek içeren metrik bir yapı olduğundan gerçek kamera hareketini destekliyor
Performans ve genelleme
- Deney sonuçlarına göre SHARP, çeşitli veri kümelerinde zero-shot genelleme performansı gösteriyor
- Mevcut en iyi modellere kıyasla LPIPS %25–34, DISTS %21–43 düşüş sağlıyor
- Sentez süresi üç haneli katlarda kısalıyor; yani önceki yaklaşımlara göre yaklaşık 1000 kat daha hızlı işlem yapıyor
Kurulum ve çalıştırma
- Python 3.13 ortamında çalışabiliyor; bağımlılıklar
pip install -r requirements.txt ile kuruluyor
- Komut satırı arayüzünde (CLI) tahmin şu şekilde çalıştırılıyor
sharp predict -i 입력경로 -o 출력경로
- İlk çalıştırmada model checkpoint’i otomatik olarak indiriliyor ve yerel önbelleğe kaydediliyor
- Manuel indirme durumunda
-c seçeneğiyle belirtilebiliyor
- Çıktı sonuçları, 3D Gaussian Splat (3DGS) biçiminde
.ply dosyaları olarak kaydediliyor ve herkese açık 3DGS render araçlarıyla uyumlu
Render özellikleri
- CUDA GPU ortamında kamera yörüngesini izleyerek video render almak mümkün
- Tahmin ve render işlemini aynı anda yapmak için
--render seçeneği kullanılabiliyor
- Ya da ara sonuç (
.ply) kullanılarak ayrı bir render işlemi çalıştırılabiliyor
- OpenCV koordinat sistemini (x sağ, y aşağı, z ileri) izliyor; harici render araçları kullanılırken ölçek ve rotasyon düzeltmesi gerekiyor
Değerlendirme ve referans materyalleri
- Nicel ve nitel değerlendirme sonuçları makalede yer alıyor
- Proje sayfasında karşılaştırmalı video örnekleri görülebiliyor
Lisans ve atıf
- Kod ve model, sırasıyla LICENSE ve LICENSE_MODEL dosyalarındaki koşullara göre kullanılabiliyor
- Araştırmaya atıf yapılacaksa arXiv makalesi “Sharp Monocular View Synthesis in Less Than a Second (2025)” referans alınmalı
- Kod tabanı, çeşitli açık kaynak katkıları temel alınarak oluşturulmuş
1 yorum
Hacker News yorumları
HN’de Apple’ın SHARP projesi yeniden gündeme geldi
İlgili tartışma önceki başlıkta da yapılmıştı
SHARP’ın resmi materyallerine proje sayfası ve makale(arXiv) üzerinden ulaşılabiliyor
Model lisansında “yalnızca araştırma amaçlı” ifadesi yer aldığı için bunun gerçekte açık kaynak olmadığı belirtildi
Bir kullanıcı projeyi zaten MPS üzerinde render edilebilir hâle getirecek şekilde fork ettiğini söyleyip kendi GitHub deposunu paylaştı
Birisi şaka yollu “VR porno için büyük gün” yorumunu yaptı
Model yalnızca tek bir eksende çıkarım yapıyor, çözünürlük de 768px + 2 katmanla sınırlı ve gerçek zamanlı işleme de mümkün değil
Bu yıl asıl büyük yeniliklerin görüntü düzenleme ve video modelleri tarafında yaşandığını da ekledi
“Büyük şirketler her model yayımladığında açık kaynak tanımı tartışması tekrar ediyor” denilerek, yapay zeka modellerindeki ‘kaynak’ kavramının yazılımdakinden farklı olduğuna dikkat çekildi
Apple’ın akademik güvenilirlik kazanırken ticari seçeneklerini de korumaya çalıştığı yorumu yapıldı
bu teknolojinin eski fotoğrafları VR içinde deneyimlemeyi mümkün kılmasının Apple’ın asıl gücü olduğunu değerlendirdi
“İnsanlar aynı nesnenin birden fazla fotoğrafını sıkça çekiyor, yani fiilen stereo görüntü verisi sağlamış oluyorlar” denildi
Bir kullanıcı, Conda’dan hoşlanmadığı için denemekte tereddüt ettiğini söyledi
uvkullanarak yeterli olduğunu belirterek ayrıntılı kurulum komutları paylaştıBir kullanıcı, tatildeyken StereoCrafter ve GeometryCrafter gibi ilgili projeleri denediğini söyledi
bunları videoya uygulamanın zamansal tutarlılık (temporal consistency) sorunu nedeniyle çok daha zor ve hesaplama açısından pahalı olduğunu,
ancak Kore Savaşı döneminden eski ev videolarını uzamsallaştırmayı denediğinde şaşırtıcı derecede iyi sonuç aldığını anlattı
StereoCrafter bağlantısı, GeometryCrafter bağlantısı