Meta, Segment Anything Model 3'ü (SAM 3) duyurdu

(ai.meta.com)

7 puan yazan GN⁺ 2025-11-20 | 1 yorum | WhatsApp'ta paylaş

Görüntü ve videolarda metin·örnek görsel·görsel istemler ile istenen nesneyi bulup bölütleyen ve izleyen SAM 3 duyuruldu
Model checkpoint'leri, değerlendirme veri kümesi ve fine-tuning koduyla birlikte, herkesin kolayca deney yapabilmesi için Segment Anything Playground üzerinden bir ortam sunuluyor
SA-Co adlı yeni büyük ölçekli kavram bölütleme benchmark'ı ve SAM 3D ile 2D·3D genelini kapsayan kavram bölütleme ekosistemi genişletiliyor
Marketplace·Instagram Edits·Meta AI gibi Meta hizmetlerinin genelinde, nesne bölütleme tabanlı yeni medya üretimi·düzenleme özellikleri uygulanıyor
Metin·örnek tabanlı kavram bölütlemeyi birleştiren bir model olarak, çeşitli araştırma·endüstri·koruma·robotik alanlarında genel amaçlı algı tabanlı bir araç olarak kullanım potansiyeli büyüyor

SAM 3'e genel bakış

Metin·görsel örnek·maske·kutu·nokta gibi çeşitli istemleri alıp görüntü ve videolarda kavramları tespit eden, bölütleyen ve izleyen birleşik bir model
- Kısa isim öbeklerine dayalı open-vocabulary bölütlemeyi varsayılan olarak destekliyor
- “people sitting down but not holding a gift box” gibi karmaşık istemler MLLM ile birleştirilerek işlenebiliyor
Önceki SAM'in belirli etiket kümelerine bağlı kalan sınırlarını aşarak rastgele kavram (promptable concept) bölütleme yönünde genişletildi
Yeni benchmark SA-Co (Segment Anything with Concepts) ile görüntü ve videolarda büyük ölçekli kavram tanıma performansı ölçülüyor

Başlıca özellikler

Metin istemi tabanlı kavram tespiti ve tüm instance'ların bölütlenmesi destekleniyor
- “striped red umbrella” gibi ayrıntılı betimlemeler de işlenebiliyor
Görsel örnek (exemplar) ile gerçek nesneye dayalı kavram tanımı yapılabiliyor
SAM 1·2'de sunulan kutu/nokta/maske istemleri korunuyor
MLLM, bir araç gibi kullanılarak karmaşık sorgular için yinelemeli arama (SAM 3 Agent) gerçekleştiriliyor

Veri motoru

SAM 3 + insan + AI annotator (Llama 3.2v tabanlı) birleşimiyle hibrit veri üretim hattı kuruldu
- Otomatik captioning → metin etiketi oluşturma → başlangıç maskesi üretimi → AI/insan doğrulaması
- Negatif istemlerde (olmayan kavram) 5 kat daha hızlı işleme, pozitif istemlerde de %36 hız artışı
4 milyondan fazla benzersiz kavram içeren büyük ölçekli bir eğitim seti oluşturuldu
Wiki tabanlı kavram ontolojisi ile nadir kavram kapsamı genişletildi

Model mimarisi

Metin/görsel encoder'ı Meta Perception Encoder tabanlı
Nesne tespiti için DETR, izleme için SAM 2'nin memory bank + tracker yapısı kullanılıyor
Birden fazla görevi (tespit·izleme·bölütleme) tek modelde çalıştırmak için çakışmayı önleyen bir eğitim reçetesi tasarlamak temel unsur

Performans

Görüntü ve videoda mevcut modellere kıyasla cgF1 2 kat arttı
Gemini 2.5 Pro, GLEE, OWLv2, LLMDet gibi uzman modellere karşı üstün sonuçlar verdi
Kullanıcı tercih değerlendirmesinde SAM 3 sonuçları 3:1 oranında önde
Tek görüntüde 30 ms, videoda da 5 nesne ölçütünde neredeyse gerçek zamanlı işleme
zero-shot LVIS·CountBench gibi testlerde de daha iyi performans doğrulandı

Bilimsel ve gerçek kullanım örnekleri

SA-FARI: 100'den fazla tür ve 10 binden fazla vahşi yaşam kamera tuzağı videosu içeren açık veri kümesi
FathomNet: deniz canlıları için instance segmentation alanında yeni bir benchmark sunuyor
Marketplace “View in Room”: aydınlatma·mobilya gibi iç mekân yerleşimi görselleştirmesi SAM 3 ve SAM 3D ile uygulanıyor
Instagram Edits·Meta AI uygulaması·meta.ai içinde nesne tabanlı video efektleri uygulama özelliği planlanıyor

SAM 3D

Tek görüntüden 3D nesne·insan yeniden oluşturma için model, kod ve veri yayımlandı
Gerçek mekânsal bağlamı dikkate alan grounded reconstruction sunuyor

Sınırlamalar ve bundan sonraki görevler

İnce uzmanlık alanı kavramlarında (platelet vb.) zero-shot genelleme sınırlı
- Az miktarda veriyle fine-tuning yapıldığında hızlıca uyum sağlayabiliyor
- Açık kaynak fine-tuning tarifleri sunuluyor
Kısa cümleler varsayılan olarak destekleniyor, ancak “top shelf second to last book” gibi karmaşık anlatımlar için MLLM entegrasyonu gerekiyor
Videoda nesne sayısı arttıkça işlem maliyeti doğrusal olarak artıyor
- Nesneler arası ilişki bilgisinin paylaşılması gelecekteki iyileştirme noktası

Segment Anything Playground

Teknik bilgi olmadan da SAM 3'ü deneyebilmeyi sağlayan web tabanlı platform
- Yüz/plaka/ekran pikselleştirme, spotlight, motion trail, belirli nesneyi büyütme gibi şablonlar sunuyor
- Veri anotasyonu ve stres testlerinde de kullanılabiliyor
Aria Gen 2 giyilebilir cihazının birinci şahıs videolarında da kararlı bölütleme ve izleme sağlıyor
- İnsan bakış açısı temelli robotik ve algı araştırmalarında kullanılabilir

1 yorum

GN⁺ 2025-11-20

Hacker News görüşleri

Meta'nın hâlâ açık kaynağa katkı yapması ve bu tür modelleri yayımlaması takdire değer
Şirkete yönelik eleştirel bakışların olduğunu biliyorum ama bu tür adımlar herkesin yararına
- Ben de katılıyorum. Eskiden, yaklaşık 2005 civarında bir güvenlik açığı bildirmiştim; o dönemde şirket kültürü bugünkünden farklıydı
  Şimdi topluluk odaklı bir yöne ciddi biçimde kaymış gibi görünüyor
- Sosyal medya tarafını pek sevmiyorum ama Meta'nın model yayımlama yaklaşımını teslim etmek lazım
  Diğer büyük araştırma laboratuvarları modelleri bu şekilde yayımlamıyor
İlk denememde edindiğim izlenim, bu modelin inanılmaz derecede iyi olduğu yönünde
“zero-shot” metin tabanlı tespit, önceki nesil modellerin ya da Gemini, Qwen gibi güncel VLM'lerin çok önünde
İnsan gözetimiyle birlikte öğretmen model olarak da fazlasıyla kullanılabilir gibi duruyor
Daha önce tırmanış tutamağı tespiti için YOLO'yu ince ayar yapmıştım; SAM3, eğitim olmadan bile o sonucun %90'ına ulaşıyor
Yine de düşük kontrastlı ahşap tutamakları ya da küçük ayak basma parçalarını kaçırıyor
- Acaba Stokt uygulaması gibi bir şey üzerinde çalıştın mı? O uygulama şu anda tırmanış dünyasında epey biliniyor
- Ben 1 milyar görselin etiketlendiği bir platformda çalışıyorum ve SAM3'ün bunların %90'ından fazlasını otomatikleştirebileceğini düşünüyorum
  Artık insanlar modele yardım etmiyor; model insanlara yardım eden bir yapıya dönüşüyor
  İlgili yazıya Roboflow blogunda bakabilirsiniz
3D mesh oluşturucu da gerçekten harika
SAM3D demosuna bakınca, sandalyede oturan bir insan gibi örtülü nesne ayrıştırma işini de iyi yaptığını ve hızlı olduğunu görebiliyorsunuz
- Gerçekten etkileyici. Ama 3D mesh'i doğrudan dışa aktarmak (export) mümkün mü?
  Ben sadece video alabildim; acaba token satın almak mı gerekiyor diye merak ettim
Benim kullanım senaryom devre kartı üzerindeki iz takibi ve model bu konuda hâlâ zayıf
Kumsaldaki at gibi görüntülerde iyi ama endüstriyel veriye daha az uyuyor
Fine-tuning ile iyileşebilir gibi geliyor ama henüz denemedim
- İlginç bir kullanım örneği. Paylaşabileceğin, bakmaya değer bir örnek bağlantı var mı?
Çocukların çizimlerinde arka plan kaldırma için SAM3'ü denedim
(ilgili proje tanıtımı)
Ama BiRefNet v2 hâlâ biraz daha isabetli çalışıyor
SAM3, çizgilerin üzerinden keserken biraz hatalı davranıyor ve kâğıdın beyaz kısmından biraz bırakıyor
Buna rağmen SAM3, basit arka plan kaldırmanın ötesinde çizimin anlamını kavrama becerisine sahip
Çocukların çizdiği şeyleri tanıyıp bunları oyundaki eylemlere bağlamak da mümkün olabilir
- BiRefNet ile arka plan kaldırmayı denemiş olman ilginç
  Şu anda en yüksek performanslı modelin o olduğunu düşünüyor musun? Başka alternatifleri de merak ediyorum
Makale yazar listesinde “Core contributor (Alphabetical, Equal Contribution)” gibi ifadelerin yer alması hoşuma gitti
Eşit katkı gösterimi etkileyici
Son 5 yılda bilgisayarlı görüdeki ilerleme hızı yavaştı
Dil anlama LLM'ler sayesinde insan seviyesine yaklaşmış olsa da görsel taraf hâlâ geride
Nesne segmentasyonu ya da bilimsel görüntülerde genelleme zor kalıyor; yeterli veri olmasına rağmen sanki eksik bir şey var
Belki de 3D ortamlarda etkenlik ya da daha zengin öğrenme sinyallerine ihtiyaç vardır
- Uzman değilim ama eksik olan şeyin dünya modeli (world model) olduğunu hissediyorum
  İnsanlar yalnızca görsel bilgiyle karar vermez; bağlam ve deneyimle bunu tamamlar
  Örneğin gece karanlıkta bir şekil gördüğünüzde, bunun at mı çit mi olduğunu geçmiş deneyim ve çevresel ipuçlarıyla çıkarırsınız
  İşte bu tür bağlamsal akıl yürütme, mevcut modellerde eksik
- “LLM'ler metni insan seviyesinde anlıyor” ifadesinin de hâlâ sınırları var
Benim alanım tıbbi görüntülemede 3D hacim segmentasyonu
SAM2'yi 2D dilim yaklaşımıyla denedim ama mevcut standart olan nnUNet ile rekabet edemedi
- Unet son 10 yıldır tıbbi görüntülemede en yaygın kullanılan model
  Ama LLM + VLM birleşiminin yeni yön olabileceğini düşünüyorum
  Hatta bu demoyu test ettim ve oldukça iyi çalıştı
SAM3 harika bir model
Zaten chat.vlm.run üzerinde daha etkileşimli bir şekilde kullanılabiliyor
ve ekibimizin yeni Orion modeli üzerinde SAM ve diğer görsel modellerle birleştirilebiliyor
Yakında video segmentasyonu ve takip özelliği de eklenecek
- Bizzat test ettim; aynı sohbet oturumunda insanı ve köpeği ayrı ayrı segmentleyebildi
  Sonuç örneği
Ortalama 4 saniyelik gecikme (latency) yüzünden gerçek zamanlı video için henüz zor olabilir diye düşünüyorum
(Kaynak olarak roboflow.com'daki ilgili yazıyı gördüm)
- O rakam muhtemelen hesaplama kaynaklarıyla ilgilidir
  Bloga göre H200 GPU üzerinde, 100'den fazla nesne içeren tek bir görüntüyü işlemek yalnızca 30ms sürüyor

Meta, Segment Anything Model 3'ü (SAM 3) duyurdu

SAM 3'e genel bakış

Başlıca özellikler

Veri motoru

Model mimarisi

Performans

Bilimsel ve gerçek kullanım örnekleri

SAM 3D

Sınırlamalar ve bundan sonraki görevler

Segment Anything Playground

İlgili okumalar

1 yorum

Hacker News görüşleri