Benim söylemek istediğim şey, bunun fazlasıyla yapay zeka işi gibi durduğu ve herhangi bir referans da içermediği için böyle bir yazının paylaşılmamasının daha iyi olacağı yönündeki görüştür.
Benim de aklıma maliyet konusu gelmişti; gerçekten de girdi görselinin çözünürlüğüne göre maliyet ciddi şekilde değişiyormuş. Ayrıca girdi görselinin boyutu ile işleme hızı arasındaki ilişkiyi hiç düşünmemiştim, bu da çok ilginç. Demek ki crop yapınca işleme hızı da artıyormuş.
Ayrıca doğruluk artışı gerçekten şaşırtıcı!
VLM performansı çok gelişmiş olsa da, yine de şimdilik tek bir amaç için eğitilmiş YOLO modelinin performansını aşamıyor mu?
Gerçek durumlarda edindiğiniz pratik bilgileri yazıya döktüğünüz için teşekkür ederim.
Ben de benzer bir sorunla karşılaşırsam kullandığınız yöntemleri mutlaka referans alacağım.
Ben de bunu bu aralar çok hissediyorum..
Birçok blog yazısının, yazarın kendi deneyimi + yapay zekanın yardımıyla
yazıldığını tahmin ediyorum.
Yazılar fazla mantıklı ve düzenli, ayrıca okunması çok kolay yazılmış gibi geliyor bana.
1) Yazının güvenilirliğine dair şüphe: pazarlama/AI üretimi kokuyor
Özet
“Bu fazla ibretlik hikâye gibi kusursuz kurgulanmış” → HN’in seveceği türden bir ‘ahlak oyunu’na optimize edilmiş cümleler olduğu şüphesi doğuyor
Metinde ücretli kaynak bağlantıları fazlasıyla serpiştirilmiş olduğu için “sonuçta bu bir satış yazısı değil mi?” görüşü güçlü
Liste bombardımanı ve emoji benzeri üslubun “AI slop (özensizce üretilmiş AI içeriği)” sinyali olduğu da söyleniyor
Sert alıntı (çeviri)
“Bence bütün yazı sadece bağlantısı verilen ücretli kaynakları satmak için var. Ve onca liste yüzünden AI slop gibi hissettiriyor.”
(Orijinal: Seems like the whole thing is just there to sell you on the linked resources. And it feels like AI slop with all the lists.)
Tek cümlelik yorum
“İçeriğin doğru ya da yanlış olmasından önce, satış kokusu + AI kokusu fazla baskın” ilk tepki buydu.
2) Liderlik/mimar eleştirisi: sorun teknoloji değil, ‘karar alma yapısı’ydı
Özet
“4 kişilik ekipte mimar mı olur?” diyen çok kişi var; daha baştan işlerin ters gittiği düşünülüyor
Özellikle kod yazmayan mimar / ayrı DevOps rolü yaklaşımı “darboğaz + CV optimizasyonu” olarak görülüyor
Ton genel olarak, şirketi batıranın mikroservis değil “kimsenin dağıtımdan/operasyondan/kriz toplamadan sorumluluk almadığı yapı” olduğu yönünde
Can yakan alıntı (çeviri)
“Gerçekte hiçbir şey implement etmeden ‘kurallar’ ve ‘pattern’lar tanımlayan mimarlar neredeyse her zaman kötü fikirdir. Sadece ürünü çıkarın... 10 satır kod bile yazmayacak birinin kararları tekeline alması felaket getirir.”
(Orijinal: Architects who's job it is to define 'rules' and 'patterns' without actually implementing anything are almost always a bad idea. Just focus on shipping...)
Tek cümlelik yorum
Birçok kişiye göre sorun MSA değil, “yetkisi var ama sorumluluğu yok” rol tasarımıydı.
3) İş perspektifi: startup’ın başarısızlık nedeni gerçekten MSA mıydı?
Özet
“Mimari yüzünden battı” çerçevesine inanmayan yorumlar da var
Temel argüman şu: PMF/talep/müşteri kilidi zayıfsa hangi stack’i kullanırsanız kullanın batabilirsiniz
Özellikle “müşteri iki gün yavaşladı diye hemen gider mi?” gibi ayrıntılar üzerinden, aslında ürün değer önerisinin zayıf olup olmadığı sorgulanıyor
Yazının kendi içindeki çelişki de işaret ediliyor: “MSA startup’ı öldürdü” deniyor ama sonuçta “kurtuldu mu?” → anlatının abartılmış olabileceği şüphesi
Sert alıntı (çeviri)
“Startup’ı öldüren şey insanların istemediği bir ürün yapmanızdı. Bu, Python yerine Go kullanmanın startup’ı öldürdüğünü söylemek kadar anlamsız.”
(Orijinal: Pretty sure making a product that people don’t want killed your startup. This is like saying using Python vs Go killed your startup...)
Tek cümlelik yorum
“Mimari bahane olabilir; asıl neden pazar/ürün/nakit akışı olabilir” görüşü net biçimde mevcut.
4) Teknik içgörü: monolith vs MSA konusunda deneyime dayalı tavsiyeler (gerçekten faydalı kısım)
Özet
“MSA’nın sabit bir genel gider vergisi (operasyonel karmaşıklık) vardır” → küçük ekipler için ölümcül olabilir diyen çok kişi var
Anahtar kavramlar: Premature distribution (fazla erken dağıtım), modüler monolith/modulith, “sınırları (boundary) hak ederek kazan”
MSA’nın gerçekten gerektiği koşullar da daha gerçekçi biçimde anlatılıyor: ekip büyüyüp çakışma/dağıtım/organizasyon sorunları fiilen ortaya çıktığında
Buna karşılık performans/ölçeklenme sorunlarında çözümün çoğu zaman “MSA’ya geçmek” değil; önce algoritma/darboğaz/sharding/partitioning tarafına bakmak gerektiği de söyleniyor
Can yakan alıntı (çeviri)
“Startup’ı öldüren şey mikroservisler değil, ‘fazla erken dağıtım’dı. Gerçek sınırlar oluşmadan sistemi böldünüz; karşılığında sadece latency ve koordinasyon maliyeti ödediniz. Modüler bir monolith ile başlayın, sınırlarınızı hak ederek kazanın, sonra ayırın.”
(Orijinal: Premature distribution killed the startup, not microservices... Start with a modular monolith, earn your boundaries, then extract.)
Tek cümlelik yorum
Topluluğun gerçekten benimsediği ders şuydu: “Monolith ile başlayın, ancak sınırlar ‘doğal olarak’ oluştuğunda servisleri ayırın.”
Topluluk genel değerlendirmesi, tek cümleyle
Çoğu kişi “Biz Netflix değiliz” fikrine katıldı; ama aynı anda “bu yazının kendisi de Netflix hastalığını pazarlayan bir anlatı (= pazarlama/AI) olabilir” şüphesi de oldukça güçlüydü.
"Yapısal bir probleme dönüştürmek" ifadesi biraz soyut kalmış olabilir.
Yazıda söylemek istediğim şey şuydu:
Before: "Etiketleme = insan dahil olur = maliyetle orantılı"
After: "Etiketleme = pipeline = ilk kurulumdan sonra değişken maliyetin en aza indirilmesi"
Yani tek seferlik bir maliyet problemini sistem kurma problemine dönüştürmüş oldum.
"Yeni bir çalışma modeli oluşturdu" ifadesi de doğru!
Daha da net söylemek gerekirse, bunu "insan emeğini bir yazılım pipeline'ıyla değiştirmek" olarak ifade edebilirim haha
Merhaba, yazıyı ilgiyle okuduğunuz için teşekkür ederim!
Belirttiğiniz noktaya katılıyorum. VLM, YOLO'dan daha iyi performans gösterse de YOLO'nun yanlış tahmini nedeniyle önemli bilgilerin kaybolabileceği yönündeki tespitiniz doğru. Ancak aşağıdaki nedenlerden dolayı crop aşamasını ekledik.
İlk olarak maliyet meselesi var. VLM'de tüm görüntüyü doğrudan kullanınca yüksek çözünürlüklü görüntü işlemeden dolayı maliyet hızla artıyor. Crop kullanımına geçmemizin en büyük nedeni buydu.
İkinci olarak işlem hızı meselesi.
Büyük veri kümelerini gerçekçi bir süre içinde işleyebilmek için bu hız artışı zorunluydu.
Üçüncü olarak doğruluk artışı.
Crop, tersine, VLM'nin karar doğruluğunu artırıyor. Tüm görüntüde karmaşık arka plan, birden fazla karakter, metinler, süs öğeleri vb. birlikte bulunduğu için VLM hangi nesneyi değerlendirmesi gerektiği konusunda karışabiliyor. Örneğin arka plandaki posterde yer alan karakter mi, ana figür mü, yoksa yanındaki başka bir karakter mi olduğu net olmayabiliyor. Buna karşılık crop kullanıldığında hedef nesne açık biçimde ayrıştırılıyor ve VLM'nin yalnızca o nesneye odaklanarak karar vermesi mümkün oluyor.
Elbette YOLO'nun kaçırdığı tespitler veya yanlış tespitler sorunu tamamen çözülmüş olmuyor. Ancak YOLO'nun confidence threshold değerini 0.5 olarak ayarlayıp recall'u yükselttik; ardından CLIP filtreleme ve Verifier doğrulama aşamalarında yanlış tespitleri eleyerek bu sorunu hafiflettik. Ayrıca büyük hacimli veriyi işlediğimiz için, bazı kaçırılan tespitler olsa bile istatistiksel olarak yeterli miktarda yüksek kaliteli veri elde edebildik.
Sonuç olarak amaç, maliyet, hız ve doğruluk arasında bir denge noktası bularak pratik bir pipeline kurmaktı; crop aşaması da bu üç açıdan da olumlu etki sağladı.
Merhaba winterjung, çalışmama ilgi gösterdiğiniz için teşekkür ederim. Güvenilirlik için VLM'nin (GPT-4o) doğrudan döndürdüğü confidence değerini kullanıyorum. Dediğiniz gibi, GPT-4o'nun confidence hesaplama dayanağının belirsiz olması ve yeniden üretilememesi gibi bir sınırlama var. Ancak pratik açıdan, VLM'nin döndürdüğü confidence değerinin belli ölçüde doğru olduğu varsayımıyla, son doğrulama (Verifier) aşamasında doğrulama yapılıp yapılmayacağına threshold tabanlı olarak karar verecek şekilde uyguladım.
gpt-4o-mini modelinde görüntü giriş token'larının aşırı pahalı olduğu gerçeğini hiç bilmiyordum, haber verdiğiniz için teşekkürler. Hemen koda yansıttım haha
Bu, ürünün gerçekte nasıl kurgulandığını ve mimarisini açıklamak için yazılmış bir yazı.
1.0v ile kararlı hale getirip docs'u düzenlemişken, ben de yazıyı toparladım.
Doğrudan C3 diline geçmek de iyi bir seçenek. C dilinin sözdizimini en az değişiklikle koruyup modern özellikler ekleyen bir proje olduğu için geçiş de kolay.
Her yıl kasımda paylaşılıyor ama bu yıl paylaşmam biraz gecikmiş sanırım
Amazon CTO’sunun 2025 ve sonrası için teknoloji öngörüleri
Amazon CTO’sunun 2024 ve sonrası için teknoloji öngörüleri
Amazon CTO’sunun 2023 ve sonrası için teknoloji öngörüleri
Amazon CTO’sunun 2022 ve sonrası için teknoloji öngörüleri
Benim söylemek istediğim şey, bunun fazlasıyla yapay zeka işi gibi durduğu ve herhangi bir referans da içermediği için böyle bir yazının paylaşılmamasının daha iyi olacağı yönündeki görüştür.
Harika ^^
Yanıtınız için teşekkür ederim.
Benim de aklıma maliyet konusu gelmişti; gerçekten de girdi görselinin çözünürlüğüne göre maliyet ciddi şekilde değişiyormuş. Ayrıca girdi görselinin boyutu ile işleme hızı arasındaki ilişkiyi hiç düşünmemiştim, bu da çok ilginç. Demek ki crop yapınca işleme hızı da artıyormuş.
Ayrıca doğruluk artışı gerçekten şaşırtıcı!
VLM performansı çok gelişmiş olsa da, yine de şimdilik tek bir amaç için eğitilmiş YOLO modelinin performansını aşamıyor mu?
Gerçek durumlarda edindiğiniz pratik bilgileri yazıya döktüğünüz için teşekkür ederim.
Ben de benzer bir sorunla karşılaşırsam kullandığınız yöntemleri mutlaka referans alacağım.
Ben de bunu bu aralar çok hissediyorum..
Birçok blog yazısının, yazarın kendi deneyimi + yapay zekanın yardımıyla
yazıldığını tahmin ediyorum.
Yazılar fazla mantıklı ve düzenli, ayrıca okunması çok kolay yazılmış gibi geliyor bana.
Hmm... Bir şeyler garip görünüyor.
Bu yazı sanki yapay zekayla yazılmış gibi.
1) Yazının güvenilirliğine dair şüphe: pazarlama/AI üretimi kokuyor
Özet
Sert alıntı (çeviri)
Tek cümlelik yorum
2) Liderlik/mimar eleştirisi: sorun teknoloji değil, ‘karar alma yapısı’ydı
Özet
Can yakan alıntı (çeviri)
Tek cümlelik yorum
3) İş perspektifi: startup’ın başarısızlık nedeni gerçekten MSA mıydı?
Özet
Sert alıntı (çeviri)
Tek cümlelik yorum
4) Teknik içgörü: monolith vs MSA konusunda deneyime dayalı tavsiyeler (gerçekten faydalı kısım)
Özet
Can yakan alıntı (çeviri)
Tek cümlelik yorum
“Monolith ile başlayın, ancak sınırlar ‘doğal olarak’ oluştuğunda servisleri ayırın.”
Topluluk genel değerlendirmesi, tek cümleyle
Çoğu kişi “Biz Netflix değiliz” fikrine katıldı; ama aynı anda “bu yazının kendisi de Netflix hastalığını pazarlayan bir anlatı (= pazarlama/AI) olabilir” şüphesi de oldukça güçlüydü.
Çünkü ABD'nin hâlâ yeterince IPv4'ü var. Bizde de öyle.
iptime yönlendirici IPv6'yı desteklemiyor, değil mi?
IPv4 fiyatlarına bakınca içim çekiliyor, ama yeterli galiba...
Düşündüğümden daha kullanışlı ama üçüncü taraf desteği Mac'te daha iyi olduğu için kullanmıyorum.. haha
İyi tespit, teşekkür ederim!
"Yapısal bir probleme dönüştürmek" ifadesi biraz soyut kalmış olabilir.
Yazıda söylemek istediğim şey şuydu:
Before: "Etiketleme = insan dahil olur = maliyetle orantılı"
After: "Etiketleme = pipeline = ilk kurulumdan sonra değişken maliyetin en aza indirilmesi"
Yani tek seferlik bir maliyet problemini sistem kurma problemine dönüştürmüş oldum.
"Yeni bir çalışma modeli oluşturdu" ifadesi de doğru!
Daha da net söylemek gerekirse, bunu "insan emeğini bir yazılım pipeline'ıyla değiştirmek" olarak ifade edebilirim haha
Merhaba, yazıyı ilgiyle okuduğunuz için teşekkür ederim!
Belirttiğiniz noktaya katılıyorum. VLM, YOLO'dan daha iyi performans gösterse de YOLO'nun yanlış tahmini nedeniyle önemli bilgilerin kaybolabileceği yönündeki tespitiniz doğru. Ancak aşağıdaki nedenlerden dolayı crop aşamasını ekledik.
İlk olarak maliyet meselesi var. VLM'de tüm görüntüyü doğrudan kullanınca yüksek çözünürlüklü görüntü işlemeden dolayı maliyet hızla artıyor. Crop kullanımına geçmemizin en büyük nedeni buydu.
İkinci olarak işlem hızı meselesi.
Büyük veri kümelerini gerçekçi bir süre içinde işleyebilmek için bu hız artışı zorunluydu.
Üçüncü olarak doğruluk artışı.
Crop, tersine, VLM'nin karar doğruluğunu artırıyor. Tüm görüntüde karmaşık arka plan, birden fazla karakter, metinler, süs öğeleri vb. birlikte bulunduğu için VLM hangi nesneyi değerlendirmesi gerektiği konusunda karışabiliyor. Örneğin arka plandaki posterde yer alan karakter mi, ana figür mü, yoksa yanındaki başka bir karakter mi olduğu net olmayabiliyor. Buna karşılık crop kullanıldığında hedef nesne açık biçimde ayrıştırılıyor ve VLM'nin yalnızca o nesneye odaklanarak karar vermesi mümkün oluyor.
Elbette YOLO'nun kaçırdığı tespitler veya yanlış tespitler sorunu tamamen çözülmüş olmuyor. Ancak YOLO'nun confidence threshold değerini 0.5 olarak ayarlayıp recall'u yükselttik; ardından CLIP filtreleme ve Verifier doğrulama aşamalarında yanlış tespitleri eleyerek bu sorunu hafiflettik. Ayrıca büyük hacimli veriyi işlediğimiz için, bazı kaçırılan tespitler olsa bile istatistiksel olarak yeterli miktarda yüksek kaliteli veri elde edebildik.
Sonuç olarak amaç, maliyet, hız ve doğruluk arasında bir denge noktası bularak pratik bir pipeline kurmaktı; crop aşaması da bu üç açıdan da olumlu etki sağladı.
Merhaba winterjung, çalışmama ilgi gösterdiğiniz için teşekkür ederim. Güvenilirlik için VLM'nin (GPT-4o) doğrudan döndürdüğü
confidencedeğerini kullanıyorum. Dediğiniz gibi, GPT-4o'nunconfidencehesaplama dayanağının belirsiz olması ve yeniden üretilememesi gibi bir sınırlama var. Ancak pratik açıdan, VLM'nin döndürdüğüconfidencedeğerinin belli ölçüde doğru olduğu varsayımıyla, son doğrulama (Verifier) aşamasında doğrulama yapılıp yapılmayacağına threshold tabanlı olarak karar verecek şekilde uyguladım.gpt-4o-mini modelinde görüntü giriş token'larının aşırı pahalı olduğu gerçeğini hiç bilmiyordum, haber verdiğiniz için teşekkürler. Hemen koda yansıttım haha
Sırf eleştirmek için eleştiriyormuş gibi bir his
Bu, ürünün gerçekte nasıl kurgulandığını ve mimarisini açıklamak için yazılmış bir yazı. 1.0v ile kararlı hale getirip docs'u düzenlemişken, ben de yazıyı toparladım.
Doğrudan C3 diline geçmek de iyi bir seçenek. C dilinin sözdizimini en az değişiklikle koruyup modern özellikler ekleyen bir proje olduğu için geçiş de kolay.
Bu, ShowGN'de paylaşılan Show GN: 자연어 명령을 Intent → Effect → Snapshot으로 실행하는 AI Task 데모 için hazırlanmış bir açıklama yazısı gibi görünüyor.
Başlığa bakıp tıklamazsınız gibi geliyor ama… son zamanlarda okuduğum ABD-Çin ilişkileri yazıları arasında en keyifle okuduğum buydu.
Bu ilginçmiş…