8 puan yazan GN⁺ 2025-04-01 | 2 yorum | WhatsApp'ta paylaş
  • Kurumsal veri altyapısı, teknolojik gelişmelere paralel olarak evrilerek yeni ürün ve hizmetleri mümkün kılıyor
  • Veri altyapısı, geleneksel şirket içi veri ambarlarından bulut tabanlı veri ambarları ve veri göllerine doğru gelişti
  • Son dönemde yapay zekadaki hızlı ilerlemeyle birlikte data lakehouse adı verilen yeni bir mimari öne çıkıyor ve Data 3.0 çağına giriliyor
  • Lakehouse, analitik ve yapay zeka iş yükleri gibi çeşitli kullanım alanlarını destekleyen yüksek performanslı, birlikte çalışabilir birleşik bir platform olarak kurumsal veri altyapısının özünü yeniden tasarlıyor
  • Bunun sonucunda milyarlarca dolarlık yeni veri altyapısı şirketlerinin ortaya çıkma olasılığı artıyor

Lakehouse yeniliğinin arka planı

  • 2019'dan 2024'e kadar kurumsal veri altyapısı yatırımları yaklaşık 180 milyar dolardan 350 milyar dolara çıkarak iki katına ulaştı
  • Mevcut veri ambarları ve veri gölleri, yapay zekanın gereksinimlerini tam olarak karşılayamıyor
  • Yapay zeka odaklı iş yükleri şu gereksinimlere sahip:
    • Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verilerin tümünü işleyebilmek
    • Gerçek zamanlı, çok modlu ve birleştirilebilir veri işleme yeteneğine sahip olmak
    • Geleneksel veritabanları ile vektör veritabanları arasında birlikte çalışabilirlik gereksinimi
  • Kurumsal müşterilerdeki talep değişimi:
    • Veri tekrarını ortadan kaldırma ihtiyacı
    • Veri yönetişimi karmaşıklığının artması
    • Tedarikçi bağımlılığından çıkma ve esneklik ihtiyacı
    • Yapay zekaya uygun çözümleri bulmanın zorluğu

Açık tablo formatları lakehouse'u mümkün kılıyor

  • Delta Lake, Iceberg ve Hudi gibi açık tablo formatları (OTF) lakehouse'un temelini oluşturuyor
  • Başlıca işlevler:
    • ACID transaction desteği: veri tutarlılığı ve güvenilirliğini sağlar
    • Batch ve streaming işleme desteği
    • Şema ve partition esnekliği sunma
    • Time travel özelliği ile önceki duruma geri dönebilme
    • Ölçeklenebilir metadata yönetimi

Lakehouse paradigmasının ortaya çıkışı

  • Data lakehouse, veri ambarlarının performansını veri göllerinin esnekliğiyle birleştiren yeni bir mimari
  • Yapay zeka tabanlı uygulamalar, gerçek zamanlı analitik ve kurumsal zekâ için yeni nesil altyapı olarak öne çıkıyor
  • Büyük şirketler ve startup'lar lakehouse dönüşümünü hızlandırıyor; bununla bağlantılı yeni bir pazar da şekilleniyor

Thesis 1: Yapay zeka odaklı alım ve dönüşümle akıllı gerçek zamanlı pipeline'lar kurmak

  • Geleneksel ETL araçları, yapay zeka ölçeğinde verimsiz kalıyor
  • Prefect, Windmill, dltHub gibi araçlar kod tabanlı veri pipeline'ları ve orkestrasyonu destekliyor
  • Tobiko gibi araçlar SQL otomasyonu, veri lineage'ı ve bağımlılık takibi sağlıyor
  • Anthropic'in Model Context Protocol (MCP) yaklaşımı, yapay zeka workflow'larında bağlamı korumak için standartlaştırılmış bir arayüz sunuyor
  • Apache Kafka ve Flink, gerçek zamanlı model eğitimi ve çıkarım için kritik mesajlaşma ve streaming işleme yetenekleri sunuyor
  • Chalk AI, hızlı karar alma için gerçek zamanlı çıkarım platformu sağlıyor
  • Metadata katmanı, yapay zeka çağında önemli bir source of truth olarak öne çıkıyor

Thesis 2: Metadata katmanının stratejik öneminin yükselmesi

  • Metadata artık yalnızca bilgi değil, eylemi yönlendiren merkezi bir katman
  • Iceberg, Delta Lake ve Hudi gibi açık tablo formatları metadata inovasyonunu ileri taşıyor
  • Datastrato ve Vakamo gibi lakehouse-native catalog çözümleri ortaya çıkıyor
  • Acryl Data'nın DataHub ürünü, insanların ve yapay zeka ajanlarının veri erişimi ile yönetişimini destekliyor
  • OpenHouse, Apache Amoro ve Ryft gibi projeler, metadata merkezli bir Control Plane sunuyor
  • Flarion.io ve Greybeam gibi şirketler, depolama dışındaki katmanlarda performans optimizasyon araçları geliştiriyor

Thesis 3: Compute ve query engine'lerde dönüşüm

  • Lakehouse'un yaygınlaşmasıyla birlikte mevcut tek platform merkezli yapıdan modüler mimariye geçiş yaşanıyor
  • Snowflake ve Databricks'in yanı sıra DuckDB, ClickHouse ve Druid gibi özelleşmiş çözümler büyüyor
  • Daft, typedef, Mooncake ve Bauplan, yapay zeka odaklı optimizasyon için yeni compute framework'leri geliştiriyor
  • Yapay zekaya optimize edilmiş query engine'ler ve federated compute platformlarının ortaya çıkışı, veri işlemede yeni bir standart oluşturuyor

Thesis 4: Veri mühendisliği ile yazılım mühendisliği arasındaki sınırlar bulanıklaşıyor

  • Yapay zeka merkezli uygulamalar, tüm geliştiricilerin veri odaklı yetkinliklere sahip olduğu bir yöne evriliyor
  • dbt Labs, veri geliştirmeye sürüm kontrolü, test ve CI/CD gibi yazılım mühendisliği pratiklerini getiriyor
  • Gable, kullanıcı dostu arayüzüyle veri pipeline'ları kurmayı destekliyor
  • Temporal ve Inngest, karmaşık dağıtık workflow'larda güvenilirlik ve görünürlük sağlıyor
  • Açık kaynağa yapılan katkılar hızla artarken, GitHub'daki veriyle ilgili projelerin büyüme oranı genel yazılımdan daha yüksek
  • LLM'lerden daha iyi destek alabilmek için açık kaynak benimsenmesi artıyor
  • Yapay zeka ve veri odaklı mühendisliğin birleşmesiyle takım yapıları ve geliştirme biçimleri kökten değişiyor

2 yorum

 
halfenif 2025-04-01

Lakehouse'tan sonra ne geliyor?

Dataland mi?

 
yangeok 2025-04-01

Umarım maliyetler, startup'ların da bunu denemesine imkân verecek kadar düşer haha