9 puan yazan xguru 2024-12-05 | 5 yorum | WhatsApp'ta paylaş
  • ELT (Extract, Load, Transform), kuruluş içinde veri analizi ile yazılım geliştirme arasındaki "silo"ları bağlamak için kullanılır; ancak sorunun kökü bizzat bu silo yapısının kendisidir
  • ELT, yalnızca silolar arasındaki bir köprüdür. Siloların olmadığı dünya ise bir "Graph"tır

ELT düşünce yapısının sınırları

  • Bir siloda yazılımın, diğerinde veri analizinin bulunduğu bir dünyada ELT oldukça anlamlıdır
  • ELT, silo yapısını ön kabul olarak alır
    • Yazılım geliştirme ekibi ile veri analizi ekibinin ayrıldığı durumda "Extract" işi ortaya çıkar
    • Yazılım ekibi veri ekibinin yaptığı işle ilgilenmez; veri ekibi ise veritabanı yetkilerini kullanarak veriyi gelişigüzel çeker
    • Ancak veriyi çektikten sonra veri kalitesi ve modelleme gibi mühendislik ilkeleri uygulanır; ama bu noktada artık çok geçtir
  • Conway yasası burada işler
    • "Kuruluşların tasarladığı sistemler, bu kuruluşların iletişim yapılarının bir kopyasıdır"
  • Silo odaklı düşünce yapısı nedeniyle ETL/ELT/Reverse ETL, modern veri mimarisinin karmaşıklığını ele almak için yetersiz kalır
    • Veri artık yalnızca operasyonel sistemlerde ve analitik sistemlerde değil, SaaS ile temsil edilen üçüncü bir veri alanına da yayılmıştır
    • Veri; bölgelerle cloud arasında, backend ile SaaS arasında akar
    • Artık geçmişe göre 100 kat daha fazla uygulama var; kuruluşlar yazılımlaşırken yazılım sistemleri arasındaki ilişki ağı giderek daha karmaşık hale geliyor

Graph düşünce yapısına neden ihtiyaç var

  • Yazılım ekibi ile veri ekibi uyum içinde çalışabilirse, ELT'deki gibi veriyi çıkarıp depolayan model yerine graph modeline geçilebilir
    • Veriyi "Consume" eden düğümlerden oluşan bir graph hayal edin
    • Her düğüm veri üretir ya da tüketir ve doğal olarak bir ağ veya graph oluşur
  • Graph düşünce yapısının faydaları:
    • Veri extraction azalır, consumption artar
    • Yüksek kaliteli veri setleri etrafında veri modelleme artar
    • Veri temizleme, ham veri depolama ve pipeline hatalarını düzeltme ihtiyacı azalır
    • Batch süreçlerinin yerini artımlı işleme ve streaming kaynaklarının kullanımı alır
    • Analitik, yalnızca stratejik karar alma araçlarıyla sınırlı kalmaz; operasyonel kullanıma da genişler
    • Ekipler arası iş birliği ve hizalanma artar, silolar azalır

Sonuç

  • ELT düşünce yapısı, yazılım ve veri ekipleri arasındaki kopukluğu yansıtan Conway yasasının bir sonucudur
  • Mevcut ETL/ELT araçlarının tamamını çöpe atmak gerekmez; ancak odak veri tüketimi ve güvenilir türetilmiş veri setleri oluşturma üzerinde olmalıdır
  • Gerçekçi olarak bakıldığında Shift Left hâlâ aspirational bir aşamadadır; mevcut legacy altyapı ve entegrasyon sorunları da varlığını sürdürmektedir
    • Shift Left: önemli geliştirme pratiklerini yazılım geliştirme yaşam döngüsünün (SDLC) erken aşamalarına entegre etme stratejisi
  • Graph düşünce yapısını benimseyen kuruluşlar, veri kullanımı, AI ROI ve iş sonuçlarında en büyük faydayı elde edecektir

"Extract yoktur. Yalnızca Consume vardır." – Veri Yoda

5 yorum

 
udopeanut 2024-12-18

Data Mesh kitabını okuyunca birçok şey daha anlaşılır geliyor.

 
softer 2024-12-05

Sürekli olarak grafik tabanlı karar alma üzerine fikir geliştiriyorum; benimle aynı şekilde düşünen insanların bir araya gelebilmesi güzel olurdu.

 
kimsk 2024-12-06

Demek ki bunun için kullanılan terim ideation imiş. Yeni bir şey öğrendim. Kişisel olarak çok ilgilendiğim bir konu. Bir araya gelebilirsek gerçekten harika olur.

 
jwseo 2024-12-05

Bunu biraz daha açıklayabilecek biri var mı? Yazarın kastettiği şey, grafikten türetilen veri kümelerinin tamamını ayrı ayrı depolayıp yönettikleri mi? Eğer öyle değilse, bunun ETL'den ne farkı olduğunu pek anlayamıyorum.

 
rlaehdus2003 2024-12-05

Mevcut operasyon alanı ile analiz alanının ayrılmış olduğu yapının silo hâline gelmiş yapısal bir sorunu olduğunu; veri mimarisi kurulurken bu ikisinin ayrı ayrı ele alınmaması, bunun yerine veri üreticileri ve tüketicileri olarak düşünülmesi gerektiğini söylüyor.

Artık operasyon verisi ile analiz verisi arasındaki sınır belirsizleştiği için grafiksel düşünme biçiminin (graph thinking, ya da graph mindset) benimsenmesi gerektiğini ifade ediyor.

Benim hissettiğim kadarıyla, operasyon verisi ile analiz verisinin açık biçimde ayrılmasından ziyade, veri üreticileri ve tüketicilerini operasyon verisinin bir uzantısı olarak ayırıp veri erişimini veri akışı perspektifinden ele alıyor gibi görünüyor (roller ayrılmış olsa bile).

Sanki operasyon verisiyle analiz yapılıp bunun tekrar operasyona dönmesi, ardından yeniden analize gitmesi gibi bir akışı veri mimarisi açısından anlatıyor.