Meta, Segment Anything Model 2'yi Tanıttı
(ai.meta.com)Meta Segment Anything Model 2 (SAM 2) Tanıtımı
Başlıca özellikler
-
Tüm videolar ve görsellerde nesne segmentasyonu
- SAM 2, görseller ve videolarda nesneleri segmentlere ayıran ilk birleşik modeldir
- Tıklama, kutu ve maskeyi girdi olarak kullanarak bir görselde veya video karesinde nesne seçebilirsiniz
-
Video kareleri arasında nesne seçimi ve ayarlama
- SAM 2 ile video karelerinde bir veya birden fazla nesne seçebilirsiniz
- Model tahminlerini ek prompt'larla ince ayar yapabilirsiniz
-
Görülmemiş videolarda da güçlü segmentasyon performansı
- SAM 2, eğitim sırasında görmediği nesne, görsel ve videolarda da güçlü zero-shot performans sergiler
- Çeşitli gerçek dünya uygulamalarında kullanılabilir
-
Gerçek zamanlı etkileşim ve sonuçlar
- SAM 2, streaming inference sayesinde gerçek zamanlı etkileşimli uygulamaları mümkün kılar
-
En ileri düzey nesne segmentasyon performansı
- SAM 2, video ve görsellerde nesne segmentasyonunda en iyi modellerden daha yüksek performans gösterir
Öne çıkanlar
- Görsel segmentasyonda SAM'e göre daha iyi performans
- Mevcut video nesne segmentasyon modellerinden daha iyi performans, özellikle kısmi takipte
- Mevcut etkileşimli video segmentasyon yöntemlerine göre daha az etkileşim süresi gerektirir
Hemen deneyin
- Videonun tek bir karesinde tek tıklamayla nesne takibi yapabilir ve eğlenceli efektler oluşturabilirsiniz
- Demoyu deneyin
Model mimarisi
- Meta Segment Anything Model 2 tasarımı
- SAM 2 modeli, oturum bazlı bir bellek modülü eklenerek video alanına genişletildi
- Bu modül, videodaki hedef nesnelere ilişkin bilgileri yakalayarak nesne geçici olarak görünmese bile tüm video karelerinde takip edilmesini sağlar
- Ek prompt'lara göre maske tahminlerini düzeltebilme özelliğini de destekler
- SAM 2'nin streaming mimarisi, video karelerini tek tek işleyerek video alanına doğal biçimde genellenir
Segment Anything Video Dataset
-
Büyük ölçekli ve çeşitli video segmentasyon veri kümesi
- SAM 2, büyük ölçekli ve çeşitli videolar ile masklet (zaman içinde nesne maskeleri) kümeleri üzerinde eğitildi
- Eğitim verileri, açık kaynaklı SA-V veri kümesini içerir
-
Öne çıkanlar
- Yaklaşık 51.000 videodan 600.000'den fazla masklet toplandı
- 47 ülkeye yayılan, coğrafi olarak çeşitli gerçek dünya senaryoları
- Tam nesneler, parçalar ve zorlu örtülme durumlarını içeren açıklamalı veriler
Araştırmanın yayınlanması
-
Açık inovasyon
- Araştırma topluluğunun bu çalışma üzerine inşa edebilmesi için önceden eğitilmiş Segment Anything 2 modeli, SA-V veri kümesi, demo ve kodlar yayımlandı
-
Öne çıkanlar
- SAM 2 eğitim verileri konusunda şeffaflık sağlanması
- Gerçek dünyayı temsil etmek için SA-V veri kümesinde coğrafi çeşitliliğe öncelik verilmesi
- SAM 2 için adillik değerlendirmesi yapılması
Olası model uygulamaları
-
Ölçeklenebilir çıktı
- SAM 2'nin video nesne segmentasyonu çıktıları, modern video üretim modelleri gibi diğer yapay zeka sistemlerine girdi olarak kullanılabilir
-
Ölçeklenebilir girdi
- SAM 2, gerçek zamanlı veya canlı videoda nesnelerle etkileşimi mümkün kılan yaratıcı kullanım biçimleri için başka tür girdi prompt'larını da kabul edebilir
Ek kaynakları inceleyin
GN⁺ özeti
- SAM 2, görseller ve videolarda nesne segmentasyonu yapan birleşik bir model olarak gerçek zamanlı etkileşim ve güçlü zero-shot performans sunuyor
- Çeşitli gerçek dünya senaryolarında kullanılmak üzere tasarlandı ve araştırma topluluğu için yayımlanan veri kümesi ile kodları içeriyor
- Video nesne takibi ve segmentasyonunda mevcut modellerden daha iyi performans gösteriyor ve daha kısa etkileşim süresiyle yüksek doğruluk sağlıyor
- SAM 2, video üretim modelleri gibi diğer yapay zeka sistemleriyle birleştirilerek yeni deneyimlerin önünü açabilir
Henüz yorum yok.