- Kurumsal veri altyapısı, teknolojik gelişmelere paralel olarak evrilerek yeni ürün ve hizmetleri mümkün kılıyor
- Veri altyapısı, geleneksel şirket içi veri ambarlarından bulut tabanlı veri ambarları ve veri göllerine doğru gelişti
- Son dönemde yapay zekadaki hızlı ilerlemeyle birlikte data lakehouse adı verilen yeni bir mimari öne çıkıyor ve Data 3.0 çağına giriliyor
- Lakehouse, analitik ve yapay zeka iş yükleri gibi çeşitli kullanım alanlarını destekleyen yüksek performanslı, birlikte çalışabilir birleşik bir platform olarak kurumsal veri altyapısının özünü yeniden tasarlıyor
- Bunun sonucunda milyarlarca dolarlık yeni veri altyapısı şirketlerinin ortaya çıkma olasılığı artıyor
Lakehouse yeniliğinin arka planı
- 2019'dan 2024'e kadar kurumsal veri altyapısı yatırımları yaklaşık 180 milyar dolardan 350 milyar dolara çıkarak iki katına ulaştı
- Mevcut veri ambarları ve veri gölleri, yapay zekanın gereksinimlerini tam olarak karşılayamıyor
- Yapay zeka odaklı iş yükleri şu gereksinimlere sahip:
- Yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verilerin tümünü işleyebilmek
- Gerçek zamanlı, çok modlu ve birleştirilebilir veri işleme yeteneğine sahip olmak
- Geleneksel veritabanları ile vektör veritabanları arasında birlikte çalışabilirlik gereksinimi
- Kurumsal müşterilerdeki talep değişimi:
- Veri tekrarını ortadan kaldırma ihtiyacı
- Veri yönetişimi karmaşıklığının artması
- Tedarikçi bağımlılığından çıkma ve esneklik ihtiyacı
- Yapay zekaya uygun çözümleri bulmanın zorluğu
Açık tablo formatları lakehouse'u mümkün kılıyor
- Delta Lake, Iceberg ve Hudi gibi açık tablo formatları (OTF) lakehouse'un temelini oluşturuyor
- Başlıca işlevler:
- ACID transaction desteği: veri tutarlılığı ve güvenilirliğini sağlar
- Batch ve streaming işleme desteği
- Şema ve partition esnekliği sunma
- Time travel özelliği ile önceki duruma geri dönebilme
- Ölçeklenebilir metadata yönetimi
Lakehouse paradigmasının ortaya çıkışı
- Data lakehouse, veri ambarlarının performansını veri göllerinin esnekliğiyle birleştiren yeni bir mimari
- Yapay zeka tabanlı uygulamalar, gerçek zamanlı analitik ve kurumsal zekâ için yeni nesil altyapı olarak öne çıkıyor
- Büyük şirketler ve startup'lar lakehouse dönüşümünü hızlandırıyor; bununla bağlantılı yeni bir pazar da şekilleniyor
Thesis 1: Yapay zeka odaklı alım ve dönüşümle akıllı gerçek zamanlı pipeline'lar kurmak
- Geleneksel ETL araçları, yapay zeka ölçeğinde verimsiz kalıyor
- Prefect, Windmill, dltHub gibi araçlar kod tabanlı veri pipeline'ları ve orkestrasyonu destekliyor
- Tobiko gibi araçlar SQL otomasyonu, veri lineage'ı ve bağımlılık takibi sağlıyor
- Anthropic'in Model Context Protocol (MCP) yaklaşımı, yapay zeka workflow'larında bağlamı korumak için standartlaştırılmış bir arayüz sunuyor
- Apache Kafka ve Flink, gerçek zamanlı model eğitimi ve çıkarım için kritik mesajlaşma ve streaming işleme yetenekleri sunuyor
- Chalk AI, hızlı karar alma için gerçek zamanlı çıkarım platformu sağlıyor
- Metadata katmanı, yapay zeka çağında önemli bir source of truth olarak öne çıkıyor
Thesis 2: Metadata katmanının stratejik öneminin yükselmesi
- Metadata artık yalnızca bilgi değil, eylemi yönlendiren merkezi bir katman
- Iceberg, Delta Lake ve Hudi gibi açık tablo formatları metadata inovasyonunu ileri taşıyor
- Datastrato ve Vakamo gibi lakehouse-native catalog çözümleri ortaya çıkıyor
- Acryl Data'nın DataHub ürünü, insanların ve yapay zeka ajanlarının veri erişimi ile yönetişimini destekliyor
- OpenHouse, Apache Amoro ve Ryft gibi projeler, metadata merkezli bir Control Plane sunuyor
- Flarion.io ve Greybeam gibi şirketler, depolama dışındaki katmanlarda performans optimizasyon araçları geliştiriyor
Thesis 3: Compute ve query engine'lerde dönüşüm
- Lakehouse'un yaygınlaşmasıyla birlikte mevcut tek platform merkezli yapıdan modüler mimariye geçiş yaşanıyor
- Snowflake ve Databricks'in yanı sıra DuckDB, ClickHouse ve Druid gibi özelleşmiş çözümler büyüyor
- Daft, typedef, Mooncake ve Bauplan, yapay zeka odaklı optimizasyon için yeni compute framework'leri geliştiriyor
- Yapay zekaya optimize edilmiş query engine'ler ve federated compute platformlarının ortaya çıkışı, veri işlemede yeni bir standart oluşturuyor
Thesis 4: Veri mühendisliği ile yazılım mühendisliği arasındaki sınırlar bulanıklaşıyor
- Yapay zeka merkezli uygulamalar, tüm geliştiricilerin veri odaklı yetkinliklere sahip olduğu bir yöne evriliyor
- dbt Labs, veri geliştirmeye sürüm kontrolü, test ve CI/CD gibi yazılım mühendisliği pratiklerini getiriyor
- Gable, kullanıcı dostu arayüzüyle veri pipeline'ları kurmayı destekliyor
- Temporal ve Inngest, karmaşık dağıtık workflow'larda güvenilirlik ve görünürlük sağlıyor
- Açık kaynağa yapılan katkılar hızla artarken, GitHub'daki veriyle ilgili projelerin büyüme oranı genel yazılımdan daha yüksek
- LLM'lerden daha iyi destek alabilmek için açık kaynak benimsenmesi artıyor
- Yapay zeka ve veri odaklı mühendisliğin birleşmesiyle takım yapıları ve geliştirme biçimleri kökten değişiyor
2 yorum
Lakehouse'tan sonra ne geliyor?
Dataland mi?
Umarım maliyetler, startup'ların da bunu denemesine imkân verecek kadar düşer haha