Apple, 2D fotoğrafları anında 3D görünüme dönüştüren açık kaynak modeli yayınladı

(github.com/apple)

6 puan yazan GN⁺ 2025-12-28 | 1 yorum | WhatsApp'ta paylaş

SHARP, tek bir görüntüyü girdi olarak alıp 3D Gaussian gösterimine dönüştürerek gerçekçi 3D görünümler üreten bir model
Standart bir GPU’da 1 saniyeden kısa sürede, tek bir sinir ağı çıkarımıyla 3D sahne parametrelerini tahmin ediyor
Üretilen 3D gösterim gerçek zamanlı render edilebiliyor ve mutlak ölçek içeren metrik kamera hareketini destekliyor
Birden fazla veri kümesinde LPIPS %25–34, DISTS %21–43 iyileşme ile birlikte mevcut modellere kıyasla üç haneli katlarda daha hızlı sentez hızı sağlıyor
Açık kaynak olarak yayınlandığı için geliştiriciler CLI tabanlı tahmin ve render işlemlerini doğrudan çalıştırabiliyor ve çeşitli 3D render araçlarıyla entegre edebiliyor

SHARP genel bakış

SHARP (Sharp Monocular View Synthesis), tek bir fotoğraftan fotogerçekçi 3D görünümler üreten bir yaklaşım
- Girilen görüntüye dayanarak 3D Gaussian gösteriminin parametrelerini regresyon yoluyla tahmin ediyor
- Standart bir GPU’da yalnızca tek bir feed-forward geçişi ile 1 saniyeden kısa işlem süresine ulaşıyor
Üretilen 3D Gaussian gösterimi gerçek zamanlı render edilebiliyor ve yakın çevredeki bakış açılarından yüksek çözünürlüklü görüntüler sunuyor
Gösterim, mutlak ölçek içeren metrik bir yapı olduğundan gerçek kamera hareketini destekliyor

Performans ve genelleme

Deney sonuçlarına göre SHARP, çeşitli veri kümelerinde zero-shot genelleme performansı gösteriyor
Mevcut en iyi modellere kıyasla LPIPS %25–34, DISTS %21–43 düşüş sağlıyor
Sentez süresi üç haneli katlarda kısalıyor; yani önceki yaklaşımlara göre yaklaşık 1000 kat daha hızlı işlem yapıyor

Kurulum ve çalıştırma

Python 3.13 ortamında çalışabiliyor; bağımlılıklar pip install -r requirements.txt ile kuruluyor
Komut satırı arayüzünde (CLI) tahmin şu şekilde çalıştırılıyor
- sharp predict -i 입력경로 -o 출력경로
- İlk çalıştırmada model checkpoint’i otomatik olarak indiriliyor ve yerel önbelleğe kaydediliyor
- Manuel indirme durumunda -c seçeneğiyle belirtilebiliyor
Çıktı sonuçları, 3D Gaussian Splat (3DGS) biçiminde .ply dosyaları olarak kaydediliyor ve herkese açık 3DGS render araçlarıyla uyumlu

Render özellikleri

CUDA GPU ortamında kamera yörüngesini izleyerek video render almak mümkün
- Tahmin ve render işlemini aynı anda yapmak için --render seçeneği kullanılabiliyor
- Ya da ara sonuç (.ply) kullanılarak ayrı bir render işlemi çalıştırılabiliyor
OpenCV koordinat sistemini (x sağ, y aşağı, z ileri) izliyor; harici render araçları kullanılırken ölçek ve rotasyon düzeltmesi gerekiyor

Değerlendirme ve referans materyalleri

Nicel ve nitel değerlendirme sonuçları makalede yer alıyor
Proje sayfasında karşılaştırmalı video örnekleri görülebiliyor

Lisans ve atıf

Kod ve model, sırasıyla LICENSE ve LICENSE_MODEL dosyalarındaki koşullara göre kullanılabiliyor
Araştırmaya atıf yapılacaksa arXiv makalesi “Sharp Monocular View Synthesis in Less Than a Second (2025)” referans alınmalı
Kod tabanı, çeşitli açık kaynak katkıları temel alınarak oluşturulmuş

1 yorum

GN⁺ 2025-12-28

Hacker News yorumları

HN’de Apple’ın SHARP projesi yeniden gündeme geldi
İlgili tartışma önceki başlıkta da yapılmıştı
- “SHARP, an approach to photorealistic view synthesis from a single image” başlığıyla tanıtılan yazı yeniden paylaşıldı
- Yapay zeka ile ilgili GitHub kurulum rehberinin düzgün çalışmadığına dikkat çekildi. Çoğu rehber geliştirme ortamının zaten kurulmuş olduğunu varsaydığı için, yeni başlayanlar açısından giriş eşiği yüksek
SHARP’ın resmi materyallerine proje sayfası ve makale(arXiv) üzerinden ulaşılabiliyor
- Bir kullanıcı, resmi sayfadan çok Bradley’nin demo videosunu daha etkileyici bulduğunu söyledi
- Başka bir kullanıcı ise yazarların hepsinin yabancı kökenli göründüğünü söyleyerek, STEM iş gücü yapısındaki değişim hakkında merakını dile getirdi
Model lisansında “yalnızca araştırma amaçlı” ifadesi yer aldığı için bunun gerçekte açık kaynak olmadığı belirtildi
- README’de de açık kaynak olduğuna dair bir ifade yok; yalnızca açık kaynak temeli üzerine inşa edildiği yazıyor
- Meta’nın “açık kaynak” kavramının anlamını bulanıklaştırmasının etkisiyle, artık sadece ağırlıkların yayımlanması = açık kaynak gibi algılanma eğilimi oluştuğu vurgulandı
- Bir kullanıcı, “ağırlıklar telif hakkına tabi olmayabilir” diyerek, sonuçta Apple’ın zorlayabileceği hukuki geçerliliğin asıl mesele olduğunu söyledi
- Ana lisansın kısıtlamaları belirtmemesi yüzünden kafa karışıklığı oluşmuş gibi görünüyor
- Bir kullanıcı da “Bununla kârlı bir ürün geliştirip geliştiremeyeceğimi araştıracağım” dedi
Bir kullanıcı projeyi zaten MPS üzerinde render edilebilir hâle getirecek şekilde fork ettiğini söyleyip kendi GitHub deposunu paylaştı
- Başka bir kullanıcı da “İyi görünüyor” diyerek teşekkür etti
Birisi şaka yollu “VR porno için büyük gün” yorumunu yaptı
- Buna karşılık başka bir kullanıcı, gerçekte VR içerik kalitesi sınırlarının oldukça net olduğunu açıkladı
  Model yalnızca tek bir eksende çıkarım yapıyor, çözünürlük de 768px + 2 katmanla sınırlı ve gerçek zamanlı işleme de mümkün değil
  Bu yıl asıl büyük yeniliklerin görüntü düzenleme ve video modelleri tarafında yaşandığını da ekledi
- Bir başka kullanıcı ise “Gaussian splat” ifadesinin kulağa bambaşka bir anlamda geldiği yönünde şaka yaptı
“Büyük şirketler her model yayımladığında açık kaynak tanımı tartışması tekrar ediyor” denilerek, yapay zeka modellerindeki ‘kaynak’ kavramının yazılımdakinden farklı olduğuna dikkat çekildi
Apple’ın akademik güvenilirlik kazanırken ticari seçeneklerini de korumaya çalıştığı yorumu yapıldı
- Başka bir kullanıcı, “Teknolojinin kendisi bu kadar etkileyiciyken lisans tartışmasının en üste çıkması üzücü” dedi ve
  bu teknolojinin eski fotoğrafları VR içinde deneyimlemeyi mümkün kılmasının Apple’ın asıl gücü olduğunu değerlendirdi
- Bir başka kullanıcı, “which isn’t unsurprising” ifadesinin gereksiz derecede karmaşık olduğunu söyleyerek şaka yaptı
- Ardından “şaşırtıcı olmaması şaşırtıcı” tarzı espriler de devam etti
“İnsanlar aynı nesnenin birden fazla fotoğrafını sıkça çekiyor, yani fiilen stereo görüntü verisi sağlamış oluyorlar” denildi
- Başka bir kullanıcı da “Live Photo kareleri de kullanılabilir” diye ekledi
Bir kullanıcı, Conda’dan hoşlanmadığı için denemekte tereddüt ettiğini söyledi
- Başka bir kullanıcı pixi önerdi ve aslında Conda olmadan da yalnızca Python 3.13 ile uv kullanarak yeterli olduğunu belirterek ayrıntılı kurulum komutları paylaştı
- Bir diğer kullanıcı ise “Bu hiç de mantıksız bir hoşnutsuzluk değil” diyerek destek verdi
Bir kullanıcı, tatildeyken StereoCrafter ve GeometryCrafter gibi ilgili projeleri denediğini söyledi
bunları videoya uygulamanın zamansal tutarlılık (temporal consistency) sorunu nedeniyle çok daha zor ve hesaplama açısından pahalı olduğunu,
ancak Kore Savaşı döneminden eski ev videolarını uzamsallaştırmayı denediğinde şaşırtıcı derecede iyi sonuç aldığını anlattı
StereoCrafter bağlantısı, GeometryCrafter bağlantısı
- Başka bir kullanıcı da “O örneği gerçekten görmek isterim” diye yanıtladı

Apple, 2D fotoğrafları anında 3D görünüme dönüştüren açık kaynak modeli yayınladı

SHARP genel bakış

Performans ve genelleme

Kurulum ve çalıştırma

Render özellikleri

Değerlendirme ve referans materyalleri

Lisans ve atıf

İlgili okumalar

1 yorum

Hacker News yorumları