2 puan yazan GN⁺ 2024-08-02 | Henüz yorum yok. | WhatsApp'ta paylaş

Meta Segment Anything Model 2 (SAM 2) Tanıtımı

Başlıca özellikler

  • Tüm videolar ve görsellerde nesne segmentasyonu

    • SAM 2, görseller ve videolarda nesneleri segmentlere ayıran ilk birleşik modeldir
    • Tıklama, kutu ve maskeyi girdi olarak kullanarak bir görselde veya video karesinde nesne seçebilirsiniz
  • Video kareleri arasında nesne seçimi ve ayarlama

    • SAM 2 ile video karelerinde bir veya birden fazla nesne seçebilirsiniz
    • Model tahminlerini ek prompt'larla ince ayar yapabilirsiniz
  • Görülmemiş videolarda da güçlü segmentasyon performansı

    • SAM 2, eğitim sırasında görmediği nesne, görsel ve videolarda da güçlü zero-shot performans sergiler
    • Çeşitli gerçek dünya uygulamalarında kullanılabilir
  • Gerçek zamanlı etkileşim ve sonuçlar

    • SAM 2, streaming inference sayesinde gerçek zamanlı etkileşimli uygulamaları mümkün kılar
  • En ileri düzey nesne segmentasyon performansı

    • SAM 2, video ve görsellerde nesne segmentasyonunda en iyi modellerden daha yüksek performans gösterir

Öne çıkanlar

  • Görsel segmentasyonda SAM'e göre daha iyi performans
  • Mevcut video nesne segmentasyon modellerinden daha iyi performans, özellikle kısmi takipte
  • Mevcut etkileşimli video segmentasyon yöntemlerine göre daha az etkileşim süresi gerektirir

Hemen deneyin

  • Videonun tek bir karesinde tek tıklamayla nesne takibi yapabilir ve eğlenceli efektler oluşturabilirsiniz
  • Demoyu deneyin

Model mimarisi

  • Meta Segment Anything Model 2 tasarımı
    • SAM 2 modeli, oturum bazlı bir bellek modülü eklenerek video alanına genişletildi
    • Bu modül, videodaki hedef nesnelere ilişkin bilgileri yakalayarak nesne geçici olarak görünmese bile tüm video karelerinde takip edilmesini sağlar
    • Ek prompt'lara göre maske tahminlerini düzeltebilme özelliğini de destekler
    • SAM 2'nin streaming mimarisi, video karelerini tek tek işleyerek video alanına doğal biçimde genellenir

Segment Anything Video Dataset

  • Büyük ölçekli ve çeşitli video segmentasyon veri kümesi

    • SAM 2, büyük ölçekli ve çeşitli videolar ile masklet (zaman içinde nesne maskeleri) kümeleri üzerinde eğitildi
    • Eğitim verileri, açık kaynaklı SA-V veri kümesini içerir
  • Öne çıkanlar

    • Yaklaşık 51.000 videodan 600.000'den fazla masklet toplandı
    • 47 ülkeye yayılan, coğrafi olarak çeşitli gerçek dünya senaryoları
    • Tam nesneler, parçalar ve zorlu örtülme durumlarını içeren açıklamalı veriler

Araştırmanın yayınlanması

  • Açık inovasyon

    • Araştırma topluluğunun bu çalışma üzerine inşa edebilmesi için önceden eğitilmiş Segment Anything 2 modeli, SA-V veri kümesi, demo ve kodlar yayımlandı
  • Öne çıkanlar

    • SAM 2 eğitim verileri konusunda şeffaflık sağlanması
    • Gerçek dünyayı temsil etmek için SA-V veri kümesinde coğrafi çeşitliliğe öncelik verilmesi
    • SAM 2 için adillik değerlendirmesi yapılması

Olası model uygulamaları

  • Ölçeklenebilir çıktı

    • SAM 2'nin video nesne segmentasyonu çıktıları, modern video üretim modelleri gibi diğer yapay zeka sistemlerine girdi olarak kullanılabilir
  • Ölçeklenebilir girdi

    • SAM 2, gerçek zamanlı veya canlı videoda nesnelerle etkileşimi mümkün kılan yaratıcı kullanım biçimleri için başka tür girdi prompt'larını da kabul edebilir

Ek kaynakları inceleyin

GN⁺ özeti

  • SAM 2, görseller ve videolarda nesne segmentasyonu yapan birleşik bir model olarak gerçek zamanlı etkileşim ve güçlü zero-shot performans sunuyor
  • Çeşitli gerçek dünya senaryolarında kullanılmak üzere tasarlandı ve araştırma topluluğu için yayımlanan veri kümesi ile kodları içeriyor
  • Video nesne takibi ve segmentasyonunda mevcut modellerden daha iyi performans gösteriyor ve daha kısa etkileşim süresiyle yüksek doğruluk sağlıyor
  • SAM 2, video üretim modelleri gibi diğer yapay zeka sistemleriyle birleştirilerek yeni deneyimlerin önünü açabilir

Henüz yorum yok.

Henüz yorum yok.