25 puan yazan xguru 2022-04-25 | 4 yorum | WhatsApp'ta paylaş

2020’de yayımlanan yazının 2.0 güncellemesi

Changelog

  • Yeni hızla büyüyen 2 alan
    • veri keşfi, gözlemlenebilirlik, ML model denetimi gibi temel veri süreçleri ve iş akışlarını destekleyen araçlar
    • veri ekipleri ile iş kullanıcılarının veriden değer üretmesini sağlayan, veri workspace’leri, reverse ETL, ML uygulama framework’leri gibi yeni uygulamalar
  • BI’ye eklenenler
    • Metrics Layer: Transform, Supergrain gibi yeni saf araçlar. Ayrıca dbt’nin bu alana genişlemesi
    • Reverse ETL: Hightouch, Census
    • Data Workspace: Hex, Mode, Deepnote
    • Data Discovery & Observability: Monte Carlo ve Big Eye büyük yatırımlar aldı. Seed aşamasında Select Star, Metaphor, Stemma, Secoda, Castor gibi çok sayıda şirket de var
  • Multimodal Data Processing’e eklenenler
    • Lakehouse mimarisine yönelik yaklaşım
    • Storage Layer yükseltildi: Delta/Iceberg/Hudi daha fazla benimseniyor ve ticarileşiyor.
    • stream processing benimsenmesi artıyor: gerçek zamanlı analitik veri işleme. Materialize/Upsolver
  • AI & ML’ye eklenenler
    • veri merkezli yaklaşımla bütünleşiyor
      • veri etiketleme: Scale, Labelbox. Closed-loop Data Engine’e ilgi artıyor
      • feature store benimsenmesi artıyor: Tecton, Feast, Databricks
      • Low-Code ML çözümleri: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • Pre-Trained modellerin kullanımı varsayılan hale geliyor. Özellikle NLP’de. OpenAI & Hugging Face
    • MLOps olgunlaşıyor ve ML Monitoring odaklı kullanım örnekleri ile bütçeler artıyor
    • ML modellerinin uygulamalara nasıl entegre edileceğine de yoğun ilgi var. Hazır API’ler (OpenAI), vector database’ler (Pinecone) vb.

Veri platformu hipotezi

  • Son 1 yılda veri altyapısı stack’inde çekirdek sistemler ve destek araçları hızla yayıldı; bunun neden olduğunu açıklamak için "veri platformu" fikri ortaya konuyor
  • Platform nedir?
    • veri ekosisteminde "platform" terimi aşırı yüklenmiş durumda. İç ekipler bunu tüm tech stack’i ifade etmek için ya da vendor’lar gevşek bağlı ürün paketlerini satarken kullanıyor
    • yazılımda platform, başka geliştiricilerin onun üzerinde bir şeyler inşa edebildiği yapı demektir
    • platformu tanımlayan özellik, endüstriyel açıdan (teknik ve ekonomik olarak) etkili platform sağlayıcıları ile third-party geliştirici havuzu arasındaki "karşılıklı bağımlılık"tır
  • Veri platformu nedir?
    • tarihsel olarak veri stack’i platform tanımına uymuyordu
    • ETL, data warehouse ve raporlama vendor’ları arasında karşılıklı bağımlılık vardı ama entegrasyon modeli 1:çok yerine çoğunlukla 1:1 olma eğilimindeydi. Bunu da genelde profesyonel hizmetler tamamlıyordu
    • çok sayıda veri profesyoneliyle yapılan görüşmelere göre bu değişmeye başlıyor olabilir
    • platform hipotezi, veri stack’inin "backend"inin (veri ingestion, depolama, işleme ve transform’a uzanan) bazı bulut tabanlı vendor’larda birleşmeye başladığını öne sürüyor
    • bunun sonucunda müşteri veri setleri standart bir sistem kümesinde toplanıyor ve vendor’lar bu veriyi diğer geliştiricilerin kolayca erişebileceği hale getiriyor (Databricks’in temel tasarım ilkeleri, SQL standardı ve Snowflake’in Snowpark gibi API’leri aracılığıyla)
    • frontend geliştiriciler tek noktalı entegrasyondan nasıl fayda gördüyse, artık altyapının alt katmanlarıyla uğraşmadan entegre veriye erişmek mümkün oluyor
    • finans/ürün analitiği gibi geleneksel enterprise sistemlerin de "Warehouse-native" mimariyle yeniden geliştirildiği örnekler ortaya çıkmaya başladı
    • bu, OLTP DB’lerin ya da diğer kritik backend teknolojilerinin yakında ortadan kalkacağı anlamına gelmiyor
    • ancak OLAP sistemleriyle native entegrasyon, uygulama geliştirmede çekirdek bir bileşen haline gelebilir
    • giderek daha fazla iş mantığı ve uygulama işlevi bu modele kayabilir
  • Veri uygulamalarının ortaya çıkışı?
    • bu veri platformu hipotezinin hâlâ çok tartışılması gerekiyor
    • yine de veri platformunun üzerinde yatay bir katman olarak karmaşık dikey SaaS çözümlerinin arttığını görüyoruz
    • Snowflake, Databricks gibi şirketler bu veri stack’inin kalıcı parçaları haline gelecek
      • mükemmel ürünler, güçlü satış ekipleri ve düşük sürtünmeli dağıtım modeli gibi nedenlerle
      • müşteriler bu sistemlerin üzerinde veri uygulamaları inşa ettiğinde veya entegre ettiğinde başka bir şeye geçmek mantıklı olmuyor
    • son birkaç yılda veri altyapısı ürünlerinin inşa edilmesi ve hâlâ ortaya çıkmaya devam etmesi platformlarla ilişkili olabilir
    • platform hipotezi, rekabet dinamiklerini öngörülebilir kılan bir güce sahip
      • ölçek büyükse platformlar çok değerlidir
      • çekirdek veri sistemi vendor’ları, bugünkü bütçelerden çok uzun vadeli platform konumu elde etmek için agresif biçimde rekabet ediyor olabilir
    • veri ingestion & transformation şirketlerinin ya da Metrics Layer ve Reverse ETL alanlarının yüksek değerlemeleri, onların yeni veri platformunun çekirdek parçaları olduğu düşünülürse daha anlamlı olabilir
  • İleriye bakış
    • analitik ve operasyonel veri platformlarını tanımlamanın henüz erken aşamasındayız ve bu platformları oluşturan parçalar değişmeye devam ediyor
    • bu nedenle bunu katı bir tanımdan çok bir metafor olarak kullanmak daha yararlı
    • ancak bu hipotez, Signal’i Noise’dan ayıran bir araç olarak da yararlı ve pazarın neden böyle hareket ettiğini anlamaya yardımcı oluyor
    • veri ekipleri artık DB’nin icadından bu yana herhangi bir zamandakinden daha fazla araca, kaynağa ve organizasyonel momentuma sahip
    • bu yeni platform üzerinde uygulama katmanının nasıl evrileceğini izlemek çok heyecan verici

4 yorum

 
sungwoo 2023-01-10

Daha önce yüklediğiniz YouTube ders videolarını da günceller misiniz..? ^^;
https://youtube.com/watch/…

Her zaman teşekkürler~

 
xguru 2023-01-10

Video üretimi de yapıyordum ama bırakınca artık daha da yapamaz oldum ağlama
Sanırım yakın zamanda güncelleme yapmak zor olacak.

 
sungwoo 2023-01-10

Anlıyorum. Daha önce paylaştığınız içerikler bile çok yardımcı oldu.
Bu vesileyle teşekkür ederim.

 
xguru 2022-04-25

Modern veri altyapısı için yeni mimari yazısının güncellenmiş sürümüdür.

Toparlayıp sonra paylaşayım derken, Techit'te de bu 2.0 yazısının tam çevirisinin yapıldığını gördüm. Birlikte referans alarak incelemenizi öneririm.
Modern veri mimarisi ve yeni mimari çağı