7 puan yazan GN⁺ 2025-11-20 | 1 yorum | WhatsApp'ta paylaş
  • Görüntü ve videolarda metin·örnek görsel·görsel istemler ile istenen nesneyi bulup bölütleyen ve izleyen SAM 3 duyuruldu
  • Model checkpoint'leri, değerlendirme veri kümesi ve fine-tuning koduyla birlikte, herkesin kolayca deney yapabilmesi için Segment Anything Playground üzerinden bir ortam sunuluyor
  • SA-Co adlı yeni büyük ölçekli kavram bölütleme benchmark'ı ve SAM 3D ile 2D·3D genelini kapsayan kavram bölütleme ekosistemi genişletiliyor
  • Marketplace·Instagram Edits·Meta AI gibi Meta hizmetlerinin genelinde, nesne bölütleme tabanlı yeni medya üretimi·düzenleme özellikleri uygulanıyor
  • Metin·örnek tabanlı kavram bölütlemeyi birleştiren bir model olarak, çeşitli araştırma·endüstri·koruma·robotik alanlarında genel amaçlı algı tabanlı bir araç olarak kullanım potansiyeli büyüyor

SAM 3'e genel bakış

  • Metin·görsel örnek·maske·kutu·nokta gibi çeşitli istemleri alıp görüntü ve videolarda kavramları tespit eden, bölütleyen ve izleyen birleşik bir model
    • Kısa isim öbeklerine dayalı open-vocabulary bölütlemeyi varsayılan olarak destekliyor
    • “people sitting down but not holding a gift box” gibi karmaşık istemler MLLM ile birleştirilerek işlenebiliyor
  • Önceki SAM'in belirli etiket kümelerine bağlı kalan sınırlarını aşarak rastgele kavram (promptable concept) bölütleme yönünde genişletildi
  • Yeni benchmark SA-Co (Segment Anything with Concepts) ile görüntü ve videolarda büyük ölçekli kavram tanıma performansı ölçülüyor

Başlıca özellikler

  • Metin istemi tabanlı kavram tespiti ve tüm instance'ların bölütlenmesi destekleniyor
    • “striped red umbrella” gibi ayrıntılı betimlemeler de işlenebiliyor
  • Görsel örnek (exemplar) ile gerçek nesneye dayalı kavram tanımı yapılabiliyor
  • SAM 1·2'de sunulan kutu/nokta/maske istemleri korunuyor
  • MLLM, bir araç gibi kullanılarak karmaşık sorgular için yinelemeli arama (SAM 3 Agent) gerçekleştiriliyor

Veri motoru

  • SAM 3 + insan + AI annotator (Llama 3.2v tabanlı) birleşimiyle hibrit veri üretim hattı kuruldu
    • Otomatik captioning → metin etiketi oluşturma → başlangıç maskesi üretimi → AI/insan doğrulaması
    • Negatif istemlerde (olmayan kavram) 5 kat daha hızlı işleme, pozitif istemlerde de %36 hız artışı
  • 4 milyondan fazla benzersiz kavram içeren büyük ölçekli bir eğitim seti oluşturuldu
  • Wiki tabanlı kavram ontolojisi ile nadir kavram kapsamı genişletildi

Model mimarisi

  • Metin/görsel encoder'ı Meta Perception Encoder tabanlı
  • Nesne tespiti için DETR, izleme için SAM 2'nin memory bank + tracker yapısı kullanılıyor
  • Birden fazla görevi (tespit·izleme·bölütleme) tek modelde çalıştırmak için çakışmayı önleyen bir eğitim reçetesi tasarlamak temel unsur

Performans

  • Görüntü ve videoda mevcut modellere kıyasla cgF1 2 kat arttı
  • Gemini 2.5 Pro, GLEE, OWLv2, LLMDet gibi uzman modellere karşı üstün sonuçlar verdi
  • Kullanıcı tercih değerlendirmesinde SAM 3 sonuçları 3:1 oranında önde
  • Tek görüntüde 30 ms, videoda da 5 nesne ölçütünde neredeyse gerçek zamanlı işleme
  • zero-shot LVIS·CountBench gibi testlerde de daha iyi performans doğrulandı

Bilimsel ve gerçek kullanım örnekleri

  • SA-FARI: 100'den fazla tür ve 10 binden fazla vahşi yaşam kamera tuzağı videosu içeren açık veri kümesi
  • FathomNet: deniz canlıları için instance segmentation alanında yeni bir benchmark sunuyor
  • Marketplace “View in Room”: aydınlatma·mobilya gibi iç mekân yerleşimi görselleştirmesi SAM 3 ve SAM 3D ile uygulanıyor
  • Instagram Edits·Meta AI uygulaması·meta.ai içinde nesne tabanlı video efektleri uygulama özelliği planlanıyor

SAM 3D

  • Tek görüntüden 3D nesne·insan yeniden oluşturma için model, kod ve veri yayımlandı
  • Gerçek mekânsal bağlamı dikkate alan grounded reconstruction sunuyor

Sınırlamalar ve bundan sonraki görevler

  • İnce uzmanlık alanı kavramlarında (platelet vb.) zero-shot genelleme sınırlı
    • Az miktarda veriyle fine-tuning yapıldığında hızlıca uyum sağlayabiliyor
    • Açık kaynak fine-tuning tarifleri sunuluyor
  • Kısa cümleler varsayılan olarak destekleniyor, ancak “top shelf second to last book” gibi karmaşık anlatımlar için MLLM entegrasyonu gerekiyor
  • Videoda nesne sayısı arttıkça işlem maliyeti doğrusal olarak artıyor
    • Nesneler arası ilişki bilgisinin paylaşılması gelecekteki iyileştirme noktası

Segment Anything Playground

  • Teknik bilgi olmadan da SAM 3'ü deneyebilmeyi sağlayan web tabanlı platform
    • Yüz/plaka/ekran pikselleştirme, spotlight, motion trail, belirli nesneyi büyütme gibi şablonlar sunuyor
    • Veri anotasyonu ve stres testlerinde de kullanılabiliyor
  • Aria Gen 2 giyilebilir cihazının birinci şahıs videolarında da kararlı bölütleme ve izleme sağlıyor
    • İnsan bakış açısı temelli robotik ve algı araştırmalarında kullanılabilir

1 yorum

 
GN⁺ 2025-11-20
Hacker News görüşleri
  • Meta'nın hâlâ açık kaynağa katkı yapması ve bu tür modelleri yayımlaması takdire değer
    Şirkete yönelik eleştirel bakışların olduğunu biliyorum ama bu tür adımlar herkesin yararına

    • Ben de katılıyorum. Eskiden, yaklaşık 2005 civarında bir güvenlik açığı bildirmiştim; o dönemde şirket kültürü bugünkünden farklıydı
      Şimdi topluluk odaklı bir yöne ciddi biçimde kaymış gibi görünüyor
    • Sosyal medya tarafını pek sevmiyorum ama Meta'nın model yayımlama yaklaşımını teslim etmek lazım
      Diğer büyük araştırma laboratuvarları modelleri bu şekilde yayımlamıyor
  • İlk denememde edindiğim izlenim, bu modelin inanılmaz derecede iyi olduğu yönünde
    “zero-shot” metin tabanlı tespit, önceki nesil modellerin ya da Gemini, Qwen gibi güncel VLM'lerin çok önünde
    İnsan gözetimiyle birlikte öğretmen model olarak da fazlasıyla kullanılabilir gibi duruyor
    Daha önce tırmanış tutamağı tespiti için YOLO'yu ince ayar yapmıştım; SAM3, eğitim olmadan bile o sonucun %90'ına ulaşıyor
    Yine de düşük kontrastlı ahşap tutamakları ya da küçük ayak basma parçalarını kaçırıyor

    • Acaba Stokt uygulaması gibi bir şey üzerinde çalıştın mı? O uygulama şu anda tırmanış dünyasında epey biliniyor
    • Ben 1 milyar görselin etiketlendiği bir platformda çalışıyorum ve SAM3'ün bunların %90'ından fazlasını otomatikleştirebileceğini düşünüyorum
      Artık insanlar modele yardım etmiyor; model insanlara yardım eden bir yapıya dönüşüyor
      İlgili yazıya Roboflow blogunda bakabilirsiniz
  • 3D mesh oluşturucu da gerçekten harika
    SAM3D demosuna bakınca, sandalyede oturan bir insan gibi örtülü nesne ayrıştırma işini de iyi yaptığını ve hızlı olduğunu görebiliyorsunuz

    • Gerçekten etkileyici. Ama 3D mesh'i doğrudan dışa aktarmak (export) mümkün mü?
      Ben sadece video alabildim; acaba token satın almak mı gerekiyor diye merak ettim
  • Benim kullanım senaryom devre kartı üzerindeki iz takibi ve model bu konuda hâlâ zayıf
    Kumsaldaki at gibi görüntülerde iyi ama endüstriyel veriye daha az uyuyor
    Fine-tuning ile iyileşebilir gibi geliyor ama henüz denemedim

    • İlginç bir kullanım örneği. Paylaşabileceğin, bakmaya değer bir örnek bağlantı var mı?
  • Çocukların çizimlerinde arka plan kaldırma için SAM3'ü denedim
    (ilgili proje tanıtımı)
    Ama BiRefNet v2 hâlâ biraz daha isabetli çalışıyor
    SAM3, çizgilerin üzerinden keserken biraz hatalı davranıyor ve kâğıdın beyaz kısmından biraz bırakıyor
    Buna rağmen SAM3, basit arka plan kaldırmanın ötesinde çizimin anlamını kavrama becerisine sahip
    Çocukların çizdiği şeyleri tanıyıp bunları oyundaki eylemlere bağlamak da mümkün olabilir

    • BiRefNet ile arka plan kaldırmayı denemiş olman ilginç
      Şu anda en yüksek performanslı modelin o olduğunu düşünüyor musun? Başka alternatifleri de merak ediyorum
  • Makale yazar listesinde “Core contributor (Alphabetical, Equal Contribution)” gibi ifadelerin yer alması hoşuma gitti
    Eşit katkı gösterimi etkileyici

  • Son 5 yılda bilgisayarlı görüdeki ilerleme hızı yavaştı
    Dil anlama LLM'ler sayesinde insan seviyesine yaklaşmış olsa da görsel taraf hâlâ geride
    Nesne segmentasyonu ya da bilimsel görüntülerde genelleme zor kalıyor; yeterli veri olmasına rağmen sanki eksik bir şey var
    Belki de 3D ortamlarda etkenlik ya da daha zengin öğrenme sinyallerine ihtiyaç vardır

    • Uzman değilim ama eksik olan şeyin dünya modeli (world model) olduğunu hissediyorum
      İnsanlar yalnızca görsel bilgiyle karar vermez; bağlam ve deneyimle bunu tamamlar
      Örneğin gece karanlıkta bir şekil gördüğünüzde, bunun at mı çit mi olduğunu geçmiş deneyim ve çevresel ipuçlarıyla çıkarırsınız
      İşte bu tür bağlamsal akıl yürütme, mevcut modellerde eksik
    • “LLM'ler metni insan seviyesinde anlıyor” ifadesinin de hâlâ sınırları var
  • Benim alanım tıbbi görüntülemede 3D hacim segmentasyonu
    SAM2'yi 2D dilim yaklaşımıyla denedim ama mevcut standart olan nnUNet ile rekabet edemedi

    • Unet son 10 yıldır tıbbi görüntülemede en yaygın kullanılan model
      Ama LLM + VLM birleşiminin yeni yön olabileceğini düşünüyorum
      Hatta bu demoyu test ettim ve oldukça iyi çalıştı
  • SAM3 harika bir model
    Zaten chat.vlm.run üzerinde daha etkileşimli bir şekilde kullanılabiliyor
    ve ekibimizin yeni Orion modeli üzerinde SAM ve diğer görsel modellerle birleştirilebiliyor
    Yakında video segmentasyonu ve takip özelliği de eklenecek

    • Bizzat test ettim; aynı sohbet oturumunda insanı ve köpeği ayrı ayrı segmentleyebildi
      Sonuç örneği
  • Ortalama 4 saniyelik gecikme (latency) yüzünden gerçek zamanlı video için henüz zor olabilir diye düşünüyorum
    (Kaynak olarak roboflow.com'daki ilgili yazıyı gördüm)

    • O rakam muhtemelen hesaplama kaynaklarıyla ilgilidir
      Bloga göre H200 GPU üzerinde, 100'den fazla nesne içeren tek bir görüntüyü işlemek yalnızca 30ms sürüyor