Görüntü etiketleme maliyetini %96 azaltma: İnsanların yapacağı işi sisteme devret yaklaşımının, bütçe ve zamanın kısıtlı olduğu ortamlarda bile insanın tekrar eden emeğini bir yazılım hattıyla değiştirerek temel işlevi hayata geçiren pratik bir mühendislik örneğini ele alıyor.
Temel özet
• Sorunun tespiti: Ünlü karakter pelüşlerini otomatik olarak tanıyıp kaydedecek işleve uygun mevcut bir model yoktu ve insan etiketleme maliyet, hız ve ölçeklenebilirlik açısından net sınırlara sahipti.
• Yaklaşım: “Daha fazla insan mı ekleyelim?” sorusu yerine, insanın karar verme sürecini sisteme ayırıp bir pipeline haline getirmek.
4 aşamalı otomasyon pipeline tasarımı
1. CLIP filtreleme – anlamsız çok sayıdaki görüntüyü ayıklayarak LLM maliyetini düşürme
2. YOLO tespiti – yalnızca ana nesneyi crop ederek analiz kapsamını daraltma
3. LVM etiketleme – yüksek performanslı VLM’i yalnızca arındırılmış veriye uygulama
4. LVM doğrulama – güven skoruna dayalı koşullu doğrulamayla çağrı sayısını daha da azaltma
Sonuçlar:
• İnsan etiketleme maliyeti yaklaşık 2,16 milyon won → 90 bin won
• Yaklaşık %95,7 maliyet düşüşü, çalışma süresi ise birkaç günden → birkaç saate
• Asıl değer: tek seferlik tasarruf değil, yeniden kullanılabilir bir sistemin elde edilmesi
Sermayenin sınırlarının teknolojiyle aşılabileceğini ve yazılımın maliyet sorununu yapısal bir soruna dönüştürebilen bir araç olduğunu kanıtlıyor
9 yorum
İyi içeriği paylaştığınız için teşekkürler.
Aaa, keyifle okudum. Ek doğrulamanın yapılıp yapılmayacağına güven skoruna göre karar verdiğinizi söylemişsiniz; bu güven skorunun hangi değer üzerinden ölçüldüğünü de merak ediyorum.
Bu arada, gpt-4o-mini modeli görüntü girdilerinde giriş token’ları açısından aşırı pahalı olduğundan, başka hafif modelleri de değerlendirmenizi tavsiye ederim!
Merhaba winterjung, çalışmama ilgi gösterdiğiniz için teşekkür ederim. Güvenilirlik için VLM'nin (GPT-4o) doğrudan döndürdüğü
confidencedeğerini kullanıyorum. Dediğiniz gibi, GPT-4o'nunconfidencehesaplama dayanağının belirsiz olması ve yeniden üretilememesi gibi bir sınırlama var. Ancak pratik açıdan, VLM'nin döndürdüğüconfidencedeğerinin belli ölçüde doğru olduğu varsayımıyla, son doğrulama (Verifier) aşamasında doğrulama yapılıp yapılmayacağına threshold tabanlı olarak karar verecek şekilde uyguladım.gpt-4o-mini modelinde görüntü giriş token'larının aşırı pahalı olduğu gerçeğini hiç bilmiyordum, haber verdiğiniz için teşekkürler. Hemen koda yansıttım haha
4o mini fiyatının neden öyle olduğu gerçekten merak konusu; bildiğim kadarıyla normal 4o daha ucuzdu hahaha
VLM kullanarak sorunu çok iyi çözmüşsünüz, keyifle okudum.
Yazıyı okurken aklıma takılan bir nokta oldu:
Bu süreci nasıl eklediğinizi merak ediyorum.
Yazıyı okurken, VLM’in performansının YOLO’dan daha iyi olacağını; bu yüzden kırpma yapılırsa YOLO modelinin yanlış karar verip daha VLM’e geçmeden önemli bilgilerin kaybolması gibi bir sorun doğabileceğini düşündüm.
Kırpma fikri hangi problemden yola çıkarak ortaya çıktı ve bunu hangi şekilde doğruluk açısından doğrulayıp sürece dahil ettiniz, merak ediyorum.
Merhaba, yazıyı ilgiyle okuduğunuz için teşekkür ederim!
Belirttiğiniz noktaya katılıyorum. VLM, YOLO'dan daha iyi performans gösterse de YOLO'nun yanlış tahmini nedeniyle önemli bilgilerin kaybolabileceği yönündeki tespitiniz doğru. Ancak aşağıdaki nedenlerden dolayı crop aşamasını ekledik.
İlk olarak maliyet meselesi var. VLM'de tüm görüntüyü doğrudan kullanınca yüksek çözünürlüklü görüntü işlemeden dolayı maliyet hızla artıyor. Crop kullanımına geçmemizin en büyük nedeni buydu.
İkinci olarak işlem hızı meselesi.
Büyük veri kümelerini gerçekçi bir süre içinde işleyebilmek için bu hız artışı zorunluydu.
Üçüncü olarak doğruluk artışı.
Crop, tersine, VLM'nin karar doğruluğunu artırıyor. Tüm görüntüde karmaşık arka plan, birden fazla karakter, metinler, süs öğeleri vb. birlikte bulunduğu için VLM hangi nesneyi değerlendirmesi gerektiği konusunda karışabiliyor. Örneğin arka plandaki posterde yer alan karakter mi, ana figür mü, yoksa yanındaki başka bir karakter mi olduğu net olmayabiliyor. Buna karşılık crop kullanıldığında hedef nesne açık biçimde ayrıştırılıyor ve VLM'nin yalnızca o nesneye odaklanarak karar vermesi mümkün oluyor.
Elbette YOLO'nun kaçırdığı tespitler veya yanlış tespitler sorunu tamamen çözülmüş olmuyor. Ancak YOLO'nun confidence threshold değerini 0.5 olarak ayarlayıp recall'u yükselttik; ardından CLIP filtreleme ve Verifier doğrulama aşamalarında yanlış tespitleri eleyerek bu sorunu hafiflettik. Ayrıca büyük hacimli veriyi işlediğimiz için, bazı kaçırılan tespitler olsa bile istatistiksel olarak yeterli miktarda yüksek kaliteli veri elde edebildik.
Sonuç olarak amaç, maliyet, hız ve doğruluk arasında bir denge noktası bularak pratik bir pipeline kurmaktı; crop aşaması da bu üç açıdan da olumlu etki sağladı.
Yanıtınız için teşekkür ederim.
Benim de aklıma maliyet konusu gelmişti; gerçekten de girdi görselinin çözünürlüğüne göre maliyet ciddi şekilde değişiyormuş. Ayrıca girdi görselinin boyutu ile işleme hızı arasındaki ilişkiyi hiç düşünmemiştim, bu da çok ilginç. Demek ki crop yapınca işleme hızı da artıyormuş.
Ayrıca doğruluk artışı gerçekten şaşırtıcı!
VLM performansı çok gelişmiş olsa da, yine de şimdilik tek bir amaç için eğitilmiş YOLO modelinin performansını aşamıyor mu?
Gerçek durumlarda edindiğiniz pratik bilgileri yazıya döktüğünüz için teşekkür ederim.
Ben de benzer bir sorunla karşılaşırsam kullandığınız yöntemleri mutlaka referans alacağım.
Bunu yapısal bir soruna dönüştürüp çözmekten ziyade yeni bir model oluşturmuşsunuz gibi görünüyor.
İyi tespit, teşekkür ederim!
"Yapısal bir probleme dönüştürmek" ifadesi biraz soyut kalmış olabilir.
Yazıda söylemek istediğim şey şuydu:
Before: "Etiketleme = insan dahil olur = maliyetle orantılı"
After: "Etiketleme = pipeline = ilk kurulumdan sonra değişken maliyetin en aza indirilmesi"
Yani tek seferlik bir maliyet problemini sistem kurma problemine dönüştürmüş oldum.
"Yeni bir çalışma modeli oluşturdu" ifadesi de doğru!
Daha da net söylemek gerekirse, bunu "insan emeğini bir yazılım pipeline'ıyla değiştirmek" olarak ifade edebilirim haha