24 puan yazan xguru 2024-10-07 | 5 yorum | WhatsApp'ta paylaş
  • Apple’ın yapay zeka araştırma ekibi, makinelerin derinliği algılama biçimini büyük ölçüde ilerletebilecek yeni model Depth Pro’yu geliştirdi
  • Artırılmış gerçeklikten otonom araçlara kadar çeşitli sektörlerde yenilik yaratabilir

Depth Pro’nun başlıca özellikleri

  • Daha önce gerekli olan kamera verilerine bağlı kalmadan, tek bir 2D görüntüden ultra hızlı biçimde ayrıntılı 3D derinlik haritaları üretir
  • Monocular depth estimation alanında büyük bir sıçrama sağlıyor
  • Gerçek zamanlı mekânsal algının önemli olduğu alanlarda geniş ölçekte uygulanabilir

Meta veri olmadan da hızlı ve doğru derinlik tahmini

  • Monocular depth estimation, geleneksel olarak çoklu görüntüler veya odak uzaklığı gibi meta veriler gerektirdiği için zor bir problemdi
  • Ancak Depth Pro bu gereksinimleri aşarak standart bir GPU’da 0,3 saniyede yüksek çözünürlüklü bir derinlik haritası üretiyor
  • 2,25 megapiksellik haritaları olağanüstü netlikle üretirken, diğer yöntemlerin kolayca gözden kaçırabileceği saç veya bitki gibi ince ayrıntıları da yakalıyor
  • Araştırmacılar, "bu özelliklerin yoğun tahmin için verimli çok ölçekli bir vision transformer da dahil olmak üzere çeşitli teknik katkılar sayesinde mümkün olduğunu" açıklıyor
  • Bu mimari, görüntünün genel bağlamını ve ince ayrıntılarını aynı anda işleyebildiği için, önceki yavaş ve hatalı modellere kıyasla büyük bir sıçrama anlamına geliyor

Metric depth ve zero-shot learning farkı

  • Depth Pro’yu gerçekten farklı kılan nokta, hem göreli derinliği hem de mutlak derinliği tahmin edebilen "metric depth" özelliği
  • Bu, modelin gerçek ölçümler sunabildiği anlamına geliyor ve sanal nesnelerin fiziksel uzay içinde doğru konumlara yerleştirilmesi gereken artırılmış gerçeklik (AR) gibi uygulamalar için kritik önem taşıyor
  • Depth Pro, doğru tahminler için alanlara özel veri kümeleri üzerinde kapsamlı eğitim gerektirmiyor; buna "zero-shot learning" deniyor
  • Bu sayede modelin genelliği çok yükseliyor ve derinlik tahmin modellerinde yaygın olarak gereken kameraya özel veriler olmadan da farklı görüntülere uygulanabiliyor
  • Yazarlar, "Depth Pro, kamera iç parametreleri gibi meta veriler olmadan 'vahşi doğadaki' rastgele görüntüler için mutlak ölçekli metric depth haritaları üretir" diyor
  • Bu esneklik, AR deneyimlerini geliştirmekten otonom araçların engel algılama ve kaçınma yeteneklerini iyileştirmeye kadar birçok olasılığın önünü açıyor

Gerçek kullanım örnekleri

  • E-ticarette tüketiciler, akıllı telefon kameralarıyla odalarını göstererek mobilyaların nasıl duracağını görebilir
  • Otonom araçlarda, tek bir kameradan gerçek zamanlı yüksek çözünürlüklü derinlik haritası üretilmesi; sürüş ortamının algılanmasına ve güvenliğin artırılmasına katkı sağlayabilir
  • Araştırmacılar, "ideal olarak bu zero-shot düzende nesnelerin şeklini, sahne düzenini ve mutlak ölçeği doğru biçimde yeniden üreten metric depth haritaları oluşturulmalı" diye vurgularken, bunun geleneksel yapay zeka modeli eğitimindeki zaman ve maliyetleri azaltma potansiyeline de dikkat çekiyor

Derinlik tahminindeki zorluğun çözümü

  • Derinlik tahminindeki en zor problemlerden biri, "flying pixels" olarak bilinen olguyla başa çıkmak
    • "Flying pixels", derinlik eşleme hataları nedeniyle havada asılıymış gibi görünen pikselleri ifade ediyor
  • Depth Pro bu sorunu doğrudan ele alıyor ve özellikle doğruluğun en kritik olduğu 3D yeniden yapılandırma veya sanal ortamlar gibi uygulamalarda etkili oluyor
  • Ayrıca Depth Pro, sınır takibinde de üstün performans sergiliyor; nesneleri ve kenarlarını net biçimde betimleme kabiliyeti önceki modelleri geride bırakıyor
  • Araştırmacılar, Depth Pro’nun "sınır doğruluğunda diğer sistemleri katlarca aştığını" öne sürüyor; bu da image matting veya tıbbi görüntüleme gibi hassas nesne ayrıştırması gerektiren uygulamalar için kritik

Açık kaynak yayını ve ölçeklenebilirlik

  • Apple, teknolojinin benimsenmesini hızlandırmak için Depth Pro’yu açık kaynak olarak yayımladı
  • Kod ve önceden eğitilmiş model ağırlıkları GitHub’da sunuluyor; böylece geliştiriciler ve araştırmacılar kolayca deney yapıp iyileştirme gerçekleştirebiliyor
  • Robotik, üretim ve sağlık hizmetleri gibi alanlarda potansiyelinin keşfedilmesi teşvik ediliyor

Yapay zekada derinlik algısının geleceği

  • Depth Pro, monocular depth estimation alanında hız ve doğruluk için yeni bir çıta koyuyor
  • Tek bir görüntüden yüksek kaliteli gerçek zamanlı derinlik haritaları üretme yeteneği, mekânsal algıya dayanan sektörlerin genelinde büyük etki yaratacak
  • Açık kaynak olarak yayımlanan Depth Pro, otonom sürüşten artırılmış gerçekliğe kadar farklı sektörlerde temel bir teknoloji haline gelecek

5 yorum

 
plaaat0102 2024-10-07

Bir şekilde... Apple yerine Meta yazıyor olması gerekiyormuş gibi bir his veriyor..

 
savvykang 2024-10-07

Microsoft Photosynth (2006) aklıma geliyor

 
is9117 2024-10-07

Bildiğim kadarıyla Tesla AI, multi-view ve NeRF kullanarak occupancy network modelini uygulayıp bu tür derinlik algısı sorunlarını çözüyor. Bu tür ticari şirketlerin söz konusu modeli nasıl kullanacağı ve onu nasıl daha da geliştireceği gerçekten merak uyandırıyor.

 
nemorize 2024-10-07

vay be..

 
eususu 2024-10-07

LLM’ler çok popülerken ortalıkta sessizlerdi; ne yaptıklarını merak ediyordum, meğer burayı kazıyorlarmış.