- Görüntü ve videolarda metin·örnek görsel·görsel istemler ile istenen nesneyi bulup bölütleyen ve izleyen SAM 3 duyuruldu
- Model checkpoint'leri, değerlendirme veri kümesi ve fine-tuning koduyla birlikte, herkesin kolayca deney yapabilmesi için Segment Anything Playground üzerinden bir ortam sunuluyor
- SA-Co adlı yeni büyük ölçekli kavram bölütleme benchmark'ı ve SAM 3D ile 2D·3D genelini kapsayan kavram bölütleme ekosistemi genişletiliyor
- Marketplace·Instagram Edits·Meta AI gibi Meta hizmetlerinin genelinde, nesne bölütleme tabanlı yeni medya üretimi·düzenleme özellikleri uygulanıyor
- Metin·örnek tabanlı kavram bölütlemeyi birleştiren bir model olarak, çeşitli araştırma·endüstri·koruma·robotik alanlarında genel amaçlı algı tabanlı bir araç olarak kullanım potansiyeli büyüyor
SAM 3'e genel bakış
- Metin·görsel örnek·maske·kutu·nokta gibi çeşitli istemleri alıp görüntü ve videolarda kavramları tespit eden, bölütleyen ve izleyen birleşik bir model
- Kısa isim öbeklerine dayalı open-vocabulary bölütlemeyi varsayılan olarak destekliyor
- “people sitting down but not holding a gift box” gibi karmaşık istemler MLLM ile birleştirilerek işlenebiliyor
- Önceki SAM'in belirli etiket kümelerine bağlı kalan sınırlarını aşarak rastgele kavram (promptable concept) bölütleme yönünde genişletildi
- Yeni benchmark SA-Co (Segment Anything with Concepts) ile görüntü ve videolarda büyük ölçekli kavram tanıma performansı ölçülüyor
Başlıca özellikler
- Metin istemi tabanlı kavram tespiti ve tüm instance'ların bölütlenmesi destekleniyor
- “striped red umbrella” gibi ayrıntılı betimlemeler de işlenebiliyor
- Görsel örnek (exemplar) ile gerçek nesneye dayalı kavram tanımı yapılabiliyor
- SAM 1·2'de sunulan kutu/nokta/maske istemleri korunuyor
- MLLM, bir araç gibi kullanılarak karmaşık sorgular için yinelemeli arama (SAM 3 Agent) gerçekleştiriliyor
Veri motoru
- SAM 3 + insan + AI annotator (Llama 3.2v tabanlı) birleşimiyle hibrit veri üretim hattı kuruldu
- Otomatik captioning → metin etiketi oluşturma → başlangıç maskesi üretimi → AI/insan doğrulaması
- Negatif istemlerde (olmayan kavram) 5 kat daha hızlı işleme, pozitif istemlerde de %36 hız artışı
- 4 milyondan fazla benzersiz kavram içeren büyük ölçekli bir eğitim seti oluşturuldu
- Wiki tabanlı kavram ontolojisi ile nadir kavram kapsamı genişletildi
Model mimarisi
- Metin/görsel encoder'ı Meta Perception Encoder tabanlı
- Nesne tespiti için DETR, izleme için SAM 2'nin memory bank + tracker yapısı kullanılıyor
- Birden fazla görevi (tespit·izleme·bölütleme) tek modelde çalıştırmak için çakışmayı önleyen bir eğitim reçetesi tasarlamak temel unsur
Performans
- Görüntü ve videoda mevcut modellere kıyasla cgF1 2 kat arttı
- Gemini 2.5 Pro, GLEE, OWLv2, LLMDet gibi uzman modellere karşı üstün sonuçlar verdi
- Kullanıcı tercih değerlendirmesinde SAM 3 sonuçları 3:1 oranında önde
- Tek görüntüde 30 ms, videoda da 5 nesne ölçütünde neredeyse gerçek zamanlı işleme
- zero-shot LVIS·CountBench gibi testlerde de daha iyi performans doğrulandı
Bilimsel ve gerçek kullanım örnekleri
- SA-FARI: 100'den fazla tür ve 10 binden fazla vahşi yaşam kamera tuzağı videosu içeren açık veri kümesi
- FathomNet: deniz canlıları için instance segmentation alanında yeni bir benchmark sunuyor
- Marketplace “View in Room”: aydınlatma·mobilya gibi iç mekân yerleşimi görselleştirmesi SAM 3 ve SAM 3D ile uygulanıyor
- Instagram Edits·Meta AI uygulaması·meta.ai içinde nesne tabanlı video efektleri uygulama özelliği planlanıyor
SAM 3D
- Tek görüntüden 3D nesne·insan yeniden oluşturma için model, kod ve veri yayımlandı
- Gerçek mekânsal bağlamı dikkate alan grounded reconstruction sunuyor
Sınırlamalar ve bundan sonraki görevler
- İnce uzmanlık alanı kavramlarında (platelet vb.) zero-shot genelleme sınırlı
- Az miktarda veriyle fine-tuning yapıldığında hızlıca uyum sağlayabiliyor
- Açık kaynak fine-tuning tarifleri sunuluyor
- Kısa cümleler varsayılan olarak destekleniyor, ancak “top shelf second to last book” gibi karmaşık anlatımlar için MLLM entegrasyonu gerekiyor
- Videoda nesne sayısı arttıkça işlem maliyeti doğrusal olarak artıyor
- Nesneler arası ilişki bilgisinin paylaşılması gelecekteki iyileştirme noktası
Segment Anything Playground
- Teknik bilgi olmadan da SAM 3'ü deneyebilmeyi sağlayan web tabanlı platform
- Yüz/plaka/ekran pikselleştirme, spotlight, motion trail, belirli nesneyi büyütme gibi şablonlar sunuyor
- Veri anotasyonu ve stres testlerinde de kullanılabiliyor
- Aria Gen 2 giyilebilir cihazının birinci şahıs videolarında da kararlı bölütleme ve izleme sağlıyor
- İnsan bakış açısı temelli robotik ve algı araştırmalarında kullanılabilir
1 yorum
Hacker News görüşleri
Meta'nın hâlâ açık kaynağa katkı yapması ve bu tür modelleri yayımlaması takdire değer
Şirkete yönelik eleştirel bakışların olduğunu biliyorum ama bu tür adımlar herkesin yararına
Şimdi topluluk odaklı bir yöne ciddi biçimde kaymış gibi görünüyor
Diğer büyük araştırma laboratuvarları modelleri bu şekilde yayımlamıyor
İlk denememde edindiğim izlenim, bu modelin inanılmaz derecede iyi olduğu yönünde
“zero-shot” metin tabanlı tespit, önceki nesil modellerin ya da Gemini, Qwen gibi güncel VLM'lerin çok önünde
İnsan gözetimiyle birlikte öğretmen model olarak da fazlasıyla kullanılabilir gibi duruyor
Daha önce tırmanış tutamağı tespiti için YOLO'yu ince ayar yapmıştım; SAM3, eğitim olmadan bile o sonucun %90'ına ulaşıyor
Yine de düşük kontrastlı ahşap tutamakları ya da küçük ayak basma parçalarını kaçırıyor
Artık insanlar modele yardım etmiyor; model insanlara yardım eden bir yapıya dönüşüyor
İlgili yazıya Roboflow blogunda bakabilirsiniz
3D mesh oluşturucu da gerçekten harika
SAM3D demosuna bakınca, sandalyede oturan bir insan gibi örtülü nesne ayrıştırma işini de iyi yaptığını ve hızlı olduğunu görebiliyorsunuz
Ben sadece video alabildim; acaba token satın almak mı gerekiyor diye merak ettim
Benim kullanım senaryom devre kartı üzerindeki iz takibi ve model bu konuda hâlâ zayıf
Kumsaldaki at gibi görüntülerde iyi ama endüstriyel veriye daha az uyuyor
Fine-tuning ile iyileşebilir gibi geliyor ama henüz denemedim
Çocukların çizimlerinde arka plan kaldırma için SAM3'ü denedim
(ilgili proje tanıtımı)
Ama BiRefNet v2 hâlâ biraz daha isabetli çalışıyor
SAM3, çizgilerin üzerinden keserken biraz hatalı davranıyor ve kâğıdın beyaz kısmından biraz bırakıyor
Buna rağmen SAM3, basit arka plan kaldırmanın ötesinde çizimin anlamını kavrama becerisine sahip
Çocukların çizdiği şeyleri tanıyıp bunları oyundaki eylemlere bağlamak da mümkün olabilir
Şu anda en yüksek performanslı modelin o olduğunu düşünüyor musun? Başka alternatifleri de merak ediyorum
Makale yazar listesinde “Core contributor (Alphabetical, Equal Contribution)” gibi ifadelerin yer alması hoşuma gitti
Eşit katkı gösterimi etkileyici
Son 5 yılda bilgisayarlı görüdeki ilerleme hızı yavaştı
Dil anlama LLM'ler sayesinde insan seviyesine yaklaşmış olsa da görsel taraf hâlâ geride
Nesne segmentasyonu ya da bilimsel görüntülerde genelleme zor kalıyor; yeterli veri olmasına rağmen sanki eksik bir şey var
Belki de 3D ortamlarda etkenlik ya da daha zengin öğrenme sinyallerine ihtiyaç vardır
İnsanlar yalnızca görsel bilgiyle karar vermez; bağlam ve deneyimle bunu tamamlar
Örneğin gece karanlıkta bir şekil gördüğünüzde, bunun at mı çit mi olduğunu geçmiş deneyim ve çevresel ipuçlarıyla çıkarırsınız
İşte bu tür bağlamsal akıl yürütme, mevcut modellerde eksik
Benim alanım tıbbi görüntülemede 3D hacim segmentasyonu
SAM2'yi 2D dilim yaklaşımıyla denedim ama mevcut standart olan nnUNet ile rekabet edemedi
Ama LLM + VLM birleşiminin yeni yön olabileceğini düşünüyorum
Hatta bu demoyu test ettim ve oldukça iyi çalıştı
SAM3 harika bir model
Zaten chat.vlm.run üzerinde daha etkileşimli bir şekilde kullanılabiliyor
ve ekibimizin yeni Orion modeli üzerinde SAM ve diğer görsel modellerle birleştirilebiliyor
Yakında video segmentasyonu ve takip özelliği de eklenecek
Sonuç örneği
Ortalama 4 saniyelik gecikme (latency) yüzünden gerçek zamanlı video için henüz zor olabilir diye düşünüyorum
(Kaynak olarak roboflow.com'daki ilgili yazıyı gördüm)
Bloga göre H200 GPU üzerinde, 100'den fazla nesne içeren tek bir görüntüyü işlemek yalnızca 30ms sürüyor