Meta, Segment Anything Model 2'yi tanıttı

(ai.meta.com)

2 puan yazan GN⁺ 2024-08-02 | 1 yorum | WhatsApp'ta paylaş

Meta FAIR’in Segment Anything Model 2(SAM 2) modeli, görüntü ve videolarda nesneleri hızlıca seçip segmentlere ayırmak için birleşik bir segmentasyon modelidir
Kullanıcılar tıklama, kutu ve maskeyi istem olarak vererek nesneleri belirleyebilir; ek istemlerle maske tahmini düzeltilebilir
Videolarda oturum bazlı bellek modülü, önceki karelerdeki nesne bilgisini koruyarak nesne kısa süreliğine gizlense bile tüm kareler boyunca takibi sürdürür
SAM 2, mevcut SAM’e kıyasla görüntü segmentasyonunu iyileştirirken, video nesne segmentasyonunda özellikle kısmi takip ve etkileşim süresi tarafını öne çıkarıyor
Meta; önceden eğitilmiş modeli, kodu, demoyu ve SA-V veri kümesini yayımladı; SA-V yaklaşık 51K video ve 600K’den fazla masklet içeriyor

Görüntü ve videoyu birlikte ele alan segmentasyon

SAM 2, görüntü ve video genelinde nesneleri segmentlere ayıran ilk birleşik modeldir
Kullanıcılar görüntüde ya da video karelerinde tıklama, kutu ve maske girdileriyle nesne seçebilir
Videoda bir veya birden fazla nesne belirtilebilir; herhangi bir karede ek istemlerle tahminler daha hassas biçimde düzeltilebilir
Eğitim sırasında görülmemiş nesneler, görüntüler ve videolarda da güçlü zero-shot performansı sunacak şekilde tasarlandığı için çeşitli gerçek dünya uygulamalarında kullanılabilir
Streaming çıkarım sayesinde videoyu verimli işler ve gerçek zamanlı, etkileşimli uygulamaları destekler

Performans ve etkileşimli kullanım deneyimi

SAM 2, video ve görüntü nesne segmentasyonunda alanın en iyi modellerinden daha iyi performans gösteren bir model olarak sunuluyor
Başlıca performans noktaları
- Görüntü segmentasyonunda mevcut SAM modeline göre geliştirilmiş
- Mevcut video nesne segmentasyonu modellerinden daha iyi; özellikle kısmi takip konusunda güçlü
- Mevcut etkileşimli video segmentasyonu yöntemlerine göre daha az etkileşim süresi gerektiriyor
Demoda yalnızca tek bir karede bir kez tıklamak bile videonun tamamında nesneyi etkileşimli olarak takip etmeye ve efektler oluşturmaya yetiyor
Demo SAM 2 demo adresinde sunuluyor

Video takibi için model mimarisi

SAM’in istem tabanlı seçim özelliğini video alanına genişleten bir mimariye sahip
Video içindeki hedef nesne bilgisini saklayan oturum bazlı bir bellek modülü eklenmiş
- Seçilen nesne tüm video kareleri boyunca takip edilebiliyor
- Nesne geçici olarak görüş alanından çıksa bile önceki karelerin bağlamından yararlanılıyor
Herhangi bir karede ek istem girilerek maske tahmini düzeltilebiliyor
Streaming mimarisi video karelerini her seferinde birer birer işliyor
Görüntülere uygulandığında bellek modülü boş oluyor ve model SAM gibi davranıyor

SA-V veri kümesi

SAM 2, büyük ölçekli ve çeşitli videolar ile masklet üzerinde eğitildi
- masklet, zaman içindeki nesne maskesini ifade eder
- Veri, SAM 2’nin model-in-the-loop veri motorunda etkileşimli biçimde uygulanmasıyla üretildi
Eğitim verisine açık kaynak olarak yayımlanan SA-V veri kümesi de dahil
SA-V veri kümesinin temel sayıları
- Yaklaşık 51K video üzerinden 600K’den fazla masklet toplandı
- 47 ülkeden toplanmış, coğrafi olarak çeşitli gerçek dünya senaryolarını içeriyor
- Tüm nesneler, nesne parçaları ve zorlu örtülme durumları için açıklamalar içeriyor
SA-V veri kümesiyle ilgili sorunlar veya sorular için support@segment-anything.com adresiyle iletişime geçilebilir
Veri kümesi Explore the dataset adresinden incelenebilir

Yayımlanan kaynaklar ve kullanım potansiyeli

Meta, araştırma topluluğunun devam çalışmalarını sürdürebilmesi için önceden eğitilmiş Segment Anything 2 modeli, SA-V veri kümesi, demo ve kodu yayımladı
Yayımlanan kaynaklarla birlikte şu noktalar vurgulanıyor
- SAM 2 eğitim verisi konusunda şeffaflık sağlanması
- Gerçek dünyayı temsil etmek için SA-V veri kümesinin coğrafi çeşitliliğine öncelik verilmesi
- SAM 2 için adillik değerlendirmeleri yapılması
Model ve koda Download the model adresinden ulaşılabilir
Araştırma makalesi Read the research paper adresinde bulunabilir
SAM 2 tek başına kullanılabileceği gibi, gelecekte diğer modellerle birleştirilmiş daha büyük sistemlerin bir parçası olarak da kullanılabilir
- Video nesne segmentasyonu çıktısı, en yeni video üretim modelleri gibi diğer yapay zeka sistemlerine girdi olarak verilerek hassas düzenleme yetenekleri sağlayabilir
- Gelecekte farklı türde giriş istemlerine genişletilerek gerçek zamanlı veya canlı videolarda nesnelerle etkileşime girmenin yaratıcı yollarını destekleyebilir

1 yorum

GN⁺ 2024-08-02

Hacker News görüşleri

Meta gerçekten iyi iş çıkarıyor. Google, yapay zeka araştırmalarında ve toplulukla paylaşılan faydalı çıktılarda geride kalıyor gibi görünüyor.
Llama ve diğer projelerin yeni yaratımları, şirketleri ve ilerlemeleri yukarı taşıyacağından eminim. Kodu ve araştırmayı açık biçimde paylaşma yaklaşımı da eninde sonunda Meta’nın iş değerine geri dönecektir.
Kurucu tarafından yönetilen şirket ile piyasanın sürüklediği şirket arasındaki fark burada ortaya çıkıyor. Google daha çok kötü bir çeyrek sonucu yaşamamak ya da VR gibi hemen gelir getireceği görünmeyen projelerde büyük sermaye harcamalarının yazılmasından kaçınmak gibi kısa vadeli hedeflere odaklanıyor gibi.
Meta, VR’ın killer app’ini bulduğu anda diğer şirketler o kadar geride kalmış olabilir ki Meta’dan yazılım satın almak zorunda kalabilir ya da yeni pazar payından neredeyse hiç alamayabilir. Bu, yapay zeka çiplerinde Nvidia’nın öne geçmesine benziyor; kimsenin yeterince yatırım yapmadığı bir alandı.
- Google hâlâ yapay zeka araştırmalarında önde. Kısa vadeli hareket etmenin neredeyse tam tersi; böyle görünmemesinin nedeni, çalışmaların çoğunun temel araştırma olması, kimya/fizik alanlarıyla ilgili olması ya da Facebook gibi kamuya açık olmayan alanlarda yürütülmesi olabilir.
  Ancak araştırmayı ürüne dönüştürme konusunda geride. Şimdiye kadar eğitilmiş modelleri ürünlere aktarma sürecinde yalnızca asgari çabayı gösteriyor gibi görünüyor.
- Emin değilim ama fark belki de şudur. Meta şunu bunu deneyip daha sonra killer application’ı bulabilir.
  Buna karşılık Google, aramanın mutlaka killer application olması gerektiğini varoluşsal olarak hissediyor ve her şeyi zorla oraya sığdırmaya çalışıyor. Bu sırada başarı çıtasını çok yükseğe koyup gerçek teknolojinin seviyesinin nerede olduğunu görmezden geliyor gibi.
- Meta’nın neyi bu kadar iyi yaptığını bilmiyorum. WhatsApp veya Instagram’a giren yapay zeka entegrasyonları neredeyse işe yaramaz ve Meta’yı bir yapay zeka şirketi gibi göstermek için piyasayı kandırma amacıyla eklenmiş gibi duruyor.
  Zuckerberg’in CEO’lar arasında hayal gücü en zayıf olanlardan biri olduğunu düşünüyorum. Meta’da Portal cihazı dışında özgün ürün neredeyse yok; çoğu satın alınmış ürünler. İnovasyon konusunda son derece zayıf bir şirket.
  Zuckerberg imaj temizleme amaçlı bir PR savaşı yürütmüş gibi görünüyor ama Facebook hâlâ şüpheli biri tarafından yönetilen şüpheli bir şirket ve çürük özü değişmiş değil. Daha bu hafta Texas’ta milyarlarca dolarlık ceza aldı.
  Meta, “kurucu odaklı şirket” olmaktan çok uzak. Satın aldığı uygulamaların kurucuları kısa süre sonra ayrılıyor ve yönetim Adam Mosseri gibi yönetim danışmanı tiplerine kalıyor.
  Kullanıcı büyümesinin yavaşladığı bir dönemde Meta’yı yenilikçi bir şirket gibi göstermek için Zuckerberg’in ortaya attığı metaverse hamlesine insanların hâlâ inanması üzücü. O metaverse dolandırıcılığının neden SEC ihlali sayılmadığını hâlâ anlamıyorum.
- “Kurucu odaklı şirket ile piyasa odaklı şirket arasındaki fark” deniyor ama gerçekten bu kadar farklı mı emin değilim.
  Facebook, Llama gibi gelirleştirme yolu belirsiz pahalı şeyleri de ortaya atıyor. Google da Waymo, Google Glass, Google Fiber, Stadia ve https://killedbygoogle.com üzerinde yer alan şeyler gibi gelirleştirme yolu belirsiz pahalı şeyleri denedi.
  Facebook, metaverse vizyonu için şirketin tüm yönünü ciddi biçimde değiştirdi ve başarısız oldu; Google da Google Plus vizyonu için şirketin tüm yönünü ciddi biçimde değiştirdi ve başarısız oldu.
  Facebook adını Meta olarak değiştirdi, Google da adını Alphabet olarak değiştirdi.
  Facebook’ta Fransız-Amerikalı bir bilgisayar bilimi profesörü ve Turing Ödülü sahibi tarafından kurulmuş bir yapay zeka araştırma organizasyonu var; Google’da da İngiliz-Kanadalı bir bilgisayar bilimi profesörü ve Turing Ödülü sahibi tarafından kurulmuş bir yapay zeka araştırma organizasyonu var.
  Facebook, PyTorch adlı camelCase isimli, yaygın kullanılan açık kaynaklı bir Python makine öğrenimi kütüphanesi çıkardı; Google da TensorFlow adlı camelCase isimli, yaygın kullanılan açık kaynaklı bir Python makine öğrenimi kütüphanesi çıkardı.
  Belki de ikisi de aynı oyun kitabını izliyor ve son dönemde Facebook’un kumarı şans eseri tutmuş olabilir.
- Kurucu olmak herkes için aynı anlama gelmez. Bazı kurucular, hemen paraya ihtiyaçları olmasa bile hisse fiyatının düşmesinden hiç hoşlanmaz.
  Ayrıca sonuçlar karışık. Kişisel olarak Zuckerberg’in VR konusunda yanıldığını ama yapay zeka konusunda haklı olduğunu düşünüyorum.
Önceki tartışma: https://news.ycombinator.com/item?id=41104523
- Bu kadar büyük bir haberin ilk sayfadan bu kadar hızlı düşmesi şaşırtıcı. Hacker News, siteyi günde birkaç kez kontrol eden kişiler için optimize edilmiş gibi görünüyor.
Daha sadece 10 yıl önce biri Facebook’un en açık biçimde inovasyon yapan şirketlerden biri olacağını ve Mark Zuckerberg’in nispeten aklı başında milyarderlerden biri sayılacağını söyleseydi gerçekten güler geçerdim.
Ama şimdi durum değişti. VR ve yapay zeka girişimleri gerçekte ne kadar başarılı olursa olsun, tarihte şimdiden bir ölçüde yer bırakacak gibi görünüyor.
- Adil olmak gerekirse Meta’nın, kurum içi yazılımlarını açık kaynak olarak yayımlayıp bunların sektör standardına dönüşmesi konusunda oldukça uzun bir geçmişi var. Bu hiç de yeni bir şey değil.
  Özellikle veritabanı teknolojilerinde böyle; rocksdb, zstd compression, presto, Cassandra, Hive, Velox bunların hepsi Meta’nın yaptığı şeyler.
  Bunlar yalnızca popüler olanlar; yayımlanmış ama fazla ünlenmemiş veritabanı bağlantılı projeler çok daha fazla.
  Şirket olarak şikâyet edilecek çok yanı var ama açık kaynak ekosistemine her zaman büyük katkı sağlayanlardan biri oldu.
- Oculus’u seviyorum ama VR henüz kültürel yaygınlığa ulaşmadı.
Böyle şeyleri görünce aklıma hep The Expanse’teki holografik yörünge haritası UI geliyor.
Düşünebildiğimiz her şeye bağlanacak geleceğin kâğıdı gibi; dünyayı keşfetmek için gerçekten güçlü bir araç olabilir.
Kurgu ve motion graphics işleri yaptığım dönemde böyle bir şey olsaydı, gerçekten çok isterdim.
After Effects’in Roto Brush’ı da benzer ama kalitesi hep yetersizdi ve işlem süresi çok uzundu.
- After Effects’in Roto Brush’ı hayat kurtaran bir araç ama sınırları var. SAM kesinlikle oyunun kurallarını değiştiren bir araç.
Kodu yayımladıkları söyleniyor ama örnek kod dışında bir şey bulamadım. Eğitim kodunu da yayımladılar mı?
- “Önceden eğitilmiş Segment Anything 2 modellerinin ve kodun yayımlanması” derken kastedilen depo bu gibi görünüyor: https://github.com/facebookresearch/segment-anything-2
Sonuçlar etkileyici. Mercer Labs içinde çekilmiş bir test videosu: https://youtu.be/W7kM0ISXkpQ?feature=shared
- Neye baktığımı ve bunun SAM2 ile nasıl ilişkili olduğunu bilmiyorum.
Firefox desteklenmiyor gibi görünüyor.
Sıkıcı ve tekrarlayan veri seti işlerini yapan binlerce Afrikalı işçiye de teşekkür etmek gerek.

Meta, Segment Anything Model 2'yi tanıttı

Görüntü ve videoyu birlikte ele alan segmentasyon

Performans ve etkileşimli kullanım deneyimi

Video takibi için model mimarisi

SA-V veri kümesi

Yayımlanan kaynaklar ve kullanım potansiyeli

İlgili okumalar

1 yorum

Hacker News görüşleri