2024’te Veritabanları: Yıla Geriye Dönük Bakış
(cs.cmu.edu)Andy Pavlo’nun (CMU profesörü) 2024 veritabanı sektörüne dair genel değerlendirmesi
Veritabanımı istediğim gibi lisanslarım!
- Veritabanları ve açık kaynak ikilemi:
- Açık kaynak DBMS’ler çoğu zaman VC destekli, kârlı şirketler tarafından geliştiriliyor.
- Bulut sağlayıcılarının popüler DBMS’leri hizmet olarak sunup, geliştiren şirketlerden daha fazla gelir elde etmesi sorunu ortaya çıkıyor.
- MongoDB, bu sorunu çözmeye çalışmak için 2018’de SSPL’ye (Server Side Public License) geçti.
- Redis lisans değişikliği:
- Redis Ltd., 2024’te IPO hazırlıkları kapsamında BSD-3 lisansından SSPL ve kendi Redis Source Available License lisansına geçti.
- Mart 2024’te, RocksDB çatalı olan Speedb’yi satın alırken lisans değişikliğini duyurdu.
- Topluluk tepkisi:
- Aynı hafta Valkey ve Redict adlı çatal projeler duyuruldu.
- Valkey, Amazon’da başlayıp Google, Oracle ve diğerlerinin katılımıyla Linux Foundation’a dahil edildi.
- Redis’in kurucusunun geri dönüş ihtimali:
- Aralık 2024’te Redis’in kurucusu, topluluğu yeniden birleştirmeyi hedefleyerek Redis Ltd. ile birlikte çalışacağını açıkladı.
- Elasticsearch’ün lisans geri dönüşü:
- Elastic N.V., 2021’de SSPL ve Elastic License’a geçtikten sonra Amazon ile çatışma yaşadı.
- Amazon buna OpenSearch çatalıyla karşılık verdi.
- Ağustos 2024’te Elastic N.V., Kendrick Lamar şarkısına da atıf yaparak yeniden AGPL’ye döndü.
- Eylül 2024’te Amazon, OpenSearch projesini Linux Foundation’a devretti.
- Andy’nin görüşü:
- Redis eleştirisi:
- Düşük performans, sahte transaction’lar ve verimsiz sorgu dili gibi sorunlara dikkat çekiyor.
- Çok sayıda alternatifin olduğu Redis’in topluluk tepkisine dayanmasının zor olduğunu belirtiyor.
- Elasticsearch ile benzer örüntü:
- Lisans değişikliği → çatal proje ortaya çıkışı → açık kaynak lisansına geri dönüş.
- Redis ve Elasticsearch neden daha büyük tepki aldı?:
- Redis’te kurucuların asıl yaratıcılar olmaması ve dış katkıcıların fazla olması nedeniyle “meşruiyet eksikliği” tartışması var.
- Bu, HashiCorp’un 2023’te Terraform lisansını değiştirmesine verilen tepkiye benziyor.
- Bulut sağlayıcılarının etkisi:
- Bulut sağlayıcıları, açık kaynak DBMS protokollerini mevcut DBMS’lerine entegre ederek ya da kendi hizmetleriyle ISV’lerin gelir tabanını zayıflatıyor.
- Örneğin AWS, Timestream DBMS’e InfluxDB v2 protokolünü ekledi ve Redis uyumlu hizmetten %30 daha ucuz bir Valkey uyumlu hizmet duyurdu.
- Redis eleştirisi:
- Ek güncellemeler:
- AWS, Influx Data ile iş birliği içinde InfluxDB v2 DBMS için yönetilen hizmet sunuyor.
- ScyllaDB, Aralık 2024’te açık kaynak AGPL sürümünü sonlandırıp kurumsal sürümü “source available” modele çevirdi.
Databricks ve Snowflake’in bitmeyen rekabeti
- Açık LLM rekabeti:
- Databricks:
- Mart 2024’te açık kaynak LLM olan DBRX’i duyurdu.
- 132 milyar parametreli model, 2023’te 1,3 milyar dolara satın alınan Mosaic ekibi tarafından geliştirildi.
- Model geliştirmeye 10 milyon dolar harcandı.
- Snowflake:
- Nisan 2024’te açık kaynak LLM olan Arctic’i duyurdu.
- 480 milyar parametreli modelin, SQL üretimi gibi “kurumsal” görevlerde DBRX’ten daha iyi olduğunu iddia etti.
- Model geliştirmeye 2 milyon dolar harcandı.
- Snowflake’in duyurusu, diğer LLM’lerden çok DBRX ile karşılaştırmaya odaklanarak rekabeti açık biçimde gösterdi.
- Databricks:
- Metadata catalog savaşı:
- Hive’ın HCatalog’u, 2010’larda data lake için standart haline geldi.
- Netflix’in Iceberg’i ve Uber’in Hudi’si 2010’ların sonlarında ortaya çıkıp Apache projelerine dönüştü.
- Databricks:
- DeltaLake platformu ve Unity adlı kapalı kaynak catalog hizmetini sunuyor.
- Haziran 2024’te, Snowflake CEO’sunun Polaris catalog hizmetini duyurduğu gün, Iceberg destekli şirket Tabular’ı 2 milyar dolara satın aldı.
- Ertesi hafta Unity catalog’un açık kaynak yapılacağını açıkladı.
- Snowflake:
- 2022’de Iceberg desteğini duyurduktan sonra bunu kademeli olarak genişletti.
- Tabular satın alma görüşmelerinde Databricks’e fırsatı kaptırdı.
- Andy’nin görüşü:
- Geleneksel rekabetten farkı:
- Geçmişte Oracle ile Informix arasındaki performans rekabetinden farklı olarak, Snowflake ile Databricks çekişmesi ekosistem ve veri yönetim araçlarına odaklanıyor.
- Vektörize yürütme motorları artık temel teknoloji kabul ediliyor.
- Bugün önemli olan; kullanım kolaylığı, araç uyumluluğu ve yapay zeka/LLM entegrasyonu gibi ek nitelikler.
- Tüketici için faydalı:
- Sert rekabet, daha iyi ürünler ve daha iyi teknoloji anlamına geliyor.
- Snowflake’in Polaris’i Apache projesine dönüştü ve teknolojiye erişimi iyileştirdi.
- Sonuç olarak teknolojik ilerleme ve fiyat düşüşü beklenebilir.
- Olumlu karşılaştırma:
- Oracle ve Salesforce CEO’larının basit ego savaşlarının aksine, Snowflake ile Databricks mücadelesi somut inovasyon ve daha güçlü rekabete yol açıyor.
- Geleneksel rekabetten farkı:
DuckDB’yi her yere entegre etme çabası
- DuckDB’nin büyümesi:
- DuckDB, veri analizi sorgularında yeni varsayılan seçenek haline geliyor.
- Daha önce bu rolü Pandas üstleniyordu; ancak DuckDB, üstün taşınabilirliği ve performansıyla onun yerini aldı.
- Birçok DBMS’nin OLAP iş yükü desteğini güçlendirmek için DuckDB’yi entegre etmeye çalıştığı görülüyor.
- 2024’te Postgres ile DuckDB’yi birleştiren 4 yeni extension duyuruldu.
- Postgres-DuckDB extension duyuruları:
- Mayıs 2024 - Crunchy Data:
- Postgres’teki OLAP sorgularını DuckDB’ye yönlendiren kapalı kaynak bir bridge duyurdu.
- Ayrıca DuckDB’nin jeo-uzamsal analiz yeteneklerini kullanarak PostGIS sorgularını hızlandıran bir extension ekledi.
- Haziran 2024 - ParadeDB:
- Açık kaynak extension olan pg_analytics’i duyurdu.
- Daha önce DataFusion tabanlı pg_lakehouse kullanılırken DuckDB’ye geçildi.
- Ağustos 2024 - pg_duck:
- DuckDB Labs GitHub’ında resmî olarak desteklenen bir DuckDB extension’ı.
- MotherDuck, Hydra, Microsoft ve Neon iş birliğiyle başladı; ancak Microsoft ve Neon, geliştirme kontrolü anlaşmazlığı nedeniyle projeden çıkarıldı.
- Şu anda MotherDuck ile Hydra birlikte bakımını yürütüyor.
- Kasım 2024 - pg_mooncake:
- Postgres üzerinden Iceberg tablolarına veri yazan ve transaction desteği sunan bir extension duyuruldu.
- Mayıs 2024 - Crunchy Data:
- Andy’nin görüşü:
- DuckDB’nin avantajları:
- OLAP sorgularının çoğu 100 MB’tan az veri tarıyor; DuckDB bunu tek bir instance ile rahatça işleyebiliyor.
- Yüksek taşınabilirlik ve kullanım kolaylığı sayesinde Postgres topluluğunda hızla yayılıyor.
- Iceberg ve S3 veri erişimi dahil farklı veri ekosistemlerini tek bir extension altında birleştiriyor.
- Yüksek performanslı analitik sunarken pahalı data warehouse’ların yerini alabiliyor.
- Postgres’in genişletilebilirliği:
- Postgres, 1980’lerdeki tasarımından itibaren genişletilebilirlik ve esneklik hedefiyle geliştirildi.
- Postgres’in “hook” API’si (2006’da tanıtıldı) sayesinde en geniş ve en çeşitli extension ekosistemlerinden biri oluştu.
- Ancak extension’ların birbirini etkilemesi ve hatalı çalışmaya yol açması riski de var.
- DuckDB’nin Postgres entegrasyonu:
- Mevcut Postgres extension’ları (Citus, Timescale) yalnızca sütun tabanlı depolama sunarak sorunu kısmen çözüyor.
- DuckDB ise hem sütun tabanlı depolama hem de vektörize sorgu işleme sağlıyor.
- Mecazi ifade:
- “Postgres fili ve DuckDB ile yapılacak bir turducken şakası”na değiniyor, ancak üniversite disiplininden kaçınmak için yapmadığını söylüyor.
- DuckDB’nin avantajları:
Veritabanı dünyasında rastgele gelişmeler
Önemli sürümler:
- Amazon Aurora DSQL:
- AWS yeni bir “Spanner benzeri” DBMS duyurdu.
- Dağıtık log hizmeti ve zaman damgası sıralaması (Time Sync) temelli.
- Aurora adını kullansa da mevcut Aurora Postgres RDS ile ortak kod paylaşmıyor.
- CedarDB:
- Umbra kod tabanının çatallanmasıyla ortaya çıkan ticarileştirilmiş bir DBMS.
- Umbra’nın kurucusu Thomas Neumann hâlâ araştırmaya odaklanıyor ve Clickbench lider tablosunun zirvesini koruyor.
- Google Bigtable:
- NoSQL öncülerinden Bigtable, 2024’te SQL desteği ekledi.
- Limbo:
- Turso, SQLite’ın Rust ile tamamen yeniden yazılmış sürümünü duyurdu.
- SQLite’ın gücü yalnızca kodunda değil, her ortamda doğru çalışmasını garanti eden test mühendisliğinde yatıyor.
- FoundationDB’nin eski mühendisleriyle birlikte deterministik testler devreye alındı.
- Microsoft Garnet:
- Redis uyumlu bir key-value store ve FASTER’ın halefi.
- Sorgu paralelliği, bellek sınırını aşan veritabanı desteği ve gerçek transaction özellikleri sunuyor.
- MySQL v9:
- 6 yıl sonra çıkan yeni sürüm.
- Veritabanında 8.000’den fazla tablo varsa çökme sorunu yaşanıyor.
- Önemli özellikler eksik ve Oracle odağını daha çok MySQL Heatwave hizmetine vermiş durumda.
- Prometheus v3:
- 7 yıl sonraki ilk büyük güncelleme.
- Yerini alabilecek çok sayıda seçenek bulunduğundan OG Prometheus’un kullanım alanı daralıyor.
Önemli satın almalar:
- Alteryx → Private Equity: Kullanımı nadir, bu yüzden özel bir yorumu yok.
- MariaDB → Private Equity: Yönetim sorunlarının çözülmesi umuluyor.
- OrioleDB → Supabase: Postgres’in eski depolama mimarisini iyileştirme hamlesi.
- PeerDB → ClickHouse: Postgres verisini ClickHouse’a ETL ile taşıyan araç.
- PopSQL → Timescale: Gelişmiş SQL editörü arayüzü satın alındı.
- Speedb → Redis Ltd.: RocksDB çatalı; diskte veri depolama özelliği eklenmesini sağlayabilir.
- Rockset → OpenAI: DBaaS hizmeti Eylül 2024’te kapatıldı.
- Tabular → Databricks: Iceberg ekosistemini güçlendirmek için satın alındı.
- Verta.ai → Cloudera: Cloudera’nın hâlâ ayakta olduğunu gösteriyor.
- Warpstream → Confluent: Kafka’nın golang ile yeniden yazılmış ve S3 ile entegre edilmiş sürümü.
Önemli yatırımlar:
- Databricks: 1 milyar dolarlık Series J.
- DBOS: 8,5 milyon dolarlık seed round.
- LanceDB: 8 milyon dolarlık seed round.
- SDF: 9 milyon dolarlık seed round.
- SpiceDB: 12 milyon dolarlık Series A.
- TigerBeetle: 24 milyon dolarlık Series A.
Önemli sonlar:
- Amazon QLDB: Amazon bile bunu kâra dönüştüremedi.
- OtterTune: 10 yıllık araştırma ve startup yolculuğu sona erdi. Belirli bir şirketle yaşanan sorun nedeniyle CMU-DB öğrencilerinin işe alınması yasaklandı.
Andy’nin görüşü:
- Databricks’in dev finansmanı:
- 2024’teki 1 milyar dolarlık Series J ile veritabanı sektöründeki en büyük fonlama rekorunu kırdı.
- Bu para çalışan hisselerini geri almak ve IPO gecikmesi nedeniyle oluşan çalışan memnuniyetsizliğini gidermek için kullanıldı.
- Databricks IPO’sundan sonra başka veritabanı startup’larının da IPO hazırlığına girmesi mümkün.
- Gelecek yıl beklentisi:
- Faizlerin düşmesi, CockroachDB, Starburst ve Imply gibi büyük miktarda fon toplamış şirketlere ek finansman fırsatları yaratabilir.
- dbtLabs’in ise zaten başarılı biçimde konumlandığı değerlendiriliyor.
Larry Ellison durdurulamıyor: 2024’ün şaşırtıcı hamleleri
- Larry Ellison’ın 2024’teki başlıca başarıları:
-
- yaş gününü kutlarken hâlâ cesur adımlar atmayı sürdürüyor.
- Oracle hisselerindeki yükseliş sayesinde dünyanın en zengin 3. kişisi oldu.
- Mart 2024’te Oracle hisselerindeki sert yükselişle bir günde 15 milyar dolar kazandı.
- Temmuz’da, oğluna (üçüncü eşinden olan) hediye olarak Paramount Studio’yu 6 milyar dolara satın aldı.
- Palm Beach’teki bir resort’u 277 milyon dolara alarak lüks varlıklarına bir yenisini ekledi.
-
- Michigan Üniversitesi futbol takımına destek:
- Kasım 2024’te Michigan Üniversitesi futbol destek kampanyasına 12 milyon dolar bağışladı.
- Bu bağış, LSU’dan Michigan’a transfer olan üst düzey quarterback’in alınmasında belirleyici oldu.
- Üniversitenin basın bülteninde “Larry ve eşi Jolin”e teşekkür edildi.
- Üniversite mezuniyeti olmayan Larry’nin Michigan Üniversitesi ile ilk büyük bağı bu oldu.
- Kasım 2024’te Michigan Üniversitesi futbol destek kampanyasına 12 milyon dolar bağışladı.
- “Jolin” kim?:
- Basında çıkan haberlere göre Larry’nin yeni eşinin Jolin (Curran) Zhu olduğu ortaya çıktı.
- Larry tenis maçı izlerken görüntülendi ve Jolin’in Michigan şapkası taktığı görüldü.
- İki hafta sonra evlilik haberi sabah 5 haberlerinde geçince kimliği doğrulanmış oldu.
- Basında çıkan haberlere göre Larry’nin yeni eşinin Jolin (Curran) Zhu olduğu ortaya çıktı.
- Andy’nin bakışı:
- Larry’nin Michigan Üniversitesi’ne desteğinin özel bir anlamı var.
- Andy’nin eski bir CMU-DB öğrencisi şu anda Michigan Üniversitesi veritabanı grubunda profesör olarak görev yapıyor.
- Larry’nin yeni aşkını ve evliliğini kutlarken, modern toplumda aşk bulmanın zorluğuna vurgu yapıyor.
- Daha önce boşanmalar yaşamış olmasına rağmen yeniden aşkı bulmasını, Larry’nin dayanıklılığı ve olumlu tavrının göstergesi olarak görüyor.
- Larry’nin Michigan Üniversitesi’ne desteğinin özel bir anlamı var.
- Larry’nin altıncı evliliği:
- Melanie Craft (2010’da boşanma) ve Nikita Kahn’dan (2020’de ayrılık) sonra yeniden evlenmesi herkesi şaşırttı.
- Jolin Zhu ile evliliği, mutluluğu arama konusundaki kararlılığını bir kez daha gösterdi.
Sonuç
- Yeni yıl planları ve mevcut durum:
- Üç yıl sonra ilk kez yeni yıla sağlıklı girmeyi umuyordu, ancak kızından COVID kapıp yeni yıla yatakta girdi.
- Eylül 2024’teki booster shot ve Paxlovid tedavisi sayesinde ciddi sorun yaşamadan toparlanıyor.
- OtterTune’un sona ermesi:
- OtterTune projesinin bitmesine üzüldüğünü belirtiyor.
- Harika insanlarla birlikte çalışıp çok şey öğrendiğini söylüyor.
- Intel Capital ve Race Capital’a sonuna kadar destek verdikleri için teşekkür ediyor.
- Yeni bir startup fikri üzerinde çalışıyor (ipucu: yine veritabanlarıyla ilgili).
- CMU’da yeni başlangıç:
- Carnegie Mellon University (CMU)’ye dönüp tam zamanlı araştırmaya yeniden başladı.
- Jignesh Patel ile birlikte heyecan verici araştırma projeleri hazırlıyor.
- Bu dönem yeni bir query optimization dersi açmayı planlıyor.
- Eylül 2024’te Wikipedia’nın kendisiyle ilgili maddeyi silmesinin ardından, araştırma makalelerine daha fazla atıf almanın yollarını arıyor.
- DJ Mooshoo’ya destek:
- Cook County’de tutuklu bulunan DJ Mooshoo’yu hâlâ destekliyor.
- 2025’te serbest bırakılmasını umutla bekliyor.
- ByteBase’e değinme:
- ByteBase’in 2024 veritabanı araçları değerlendirme yazısına (
Database Tools in 2024: A Year in Review) teşekkür ediyor. - Önceki yıllarda yıl sonu veritabanı yazılarını Çinceye çevirmek için izin istemişlerdi; bu yıl ise beklemeden benzer konu ve başlıkla kendi yazılarını yayımladılar.
- ByteBase’in 2024 veritabanı araçları değerlendirme yazısına (
3 yorum
Güzel yazı için teşekkürler
2023'ü atlamışım. O zamanlar bu bir OtterTune bağlantısıydı, ancak hizmet kapandığı için şimdi kişisel bloga taşındı.
2022 veritabanları incelemesi
2021 veritabanları incelemesi
Hacker News görüşleri
Andy'nin videosunda Redis komut API'sine yönelik eleştirinin zayıf kaldığı görüşü var. Redis API'si eleştirilebilir, ancak bunun için daha güçlü gerekçelere ihtiyaç olduğu savunuluyor. Redis'in kullanım biçimini ve avantajlarını anlamak gerektiği vurgulanıyor
Greenplum'un kodu kapatıldığında, asıl geliştiriciler Cloudberry adında açık kaynaklı bir fork oluşturdu ve bu daha sonra Apache projesine kabul edildi. Cloudberry, Postgres 14 ile senkronize edildi, ancak Greenplum hâlâ Postgres 12'de kalmış durumda
Redis'e yönelik kişisel eleştiriler içeren bir görüş var. Redis'in yavaş olduğu, sahte transaction'lara sahip olduğu ve sorgu sözdiziminin karmaşık olduğu öne sürülüyor. CMU'da Dragonfly'ın daha iyi performans gösterdiğinden bahsediliyor
DuckDB'nin harika bir araç olduğu görüşü var. DuckDB'nin kurucusunun, CMU'da veri bilimcilerin neden RDBMS kullanmadığını anlattığı konuşmanın etkileyici olduğu söyleniyor
SQL Server ve Azure türevlerinden bahsedilmemesinin garip olduğu görüşü var. Bunların belirli alanlarda baskın olduğu ve DBEngines'ta en popüler üçüncü seçenek olarak değerlendirildiği belirtiliyor
Elastic ve Redis'e yönelik memnuniyetsizliğin MongoDB'den farklı olmasının nedeninin lisans ve katkı sağlayan topluluğun büyüklüğü olduğu görüşü var. AGPL gibi kısıtlayıcı lisanslar gömülü kullanımı zorlaştırıyor ve katkıcı topluluğu yoksa fork yapmak da zor oluyor
MongoDB, Neo4j, Kafka ve CockroachDB'nin lisans değişikliklerine karşı fork girişimlerinin olmamasının sebebinin, insanların bu projeleri çok da önemsememesi olduğu görüşü var
Amazon veritabanını bir hizmet olarak sunabilir, ancak birçok kişinin AWS yönetilen hizmetlerini istemediği görüşü var. k8s tabanlı çözümleri tercih eden çok sayıda ekip olduğu ve ana akım OSS implementasyonlarına yönelim bulunduğu söyleniyor
Alteryx kullanan biriyle hiç karşılaşmadığını söyleyen yoruma karşılık, Alteryx'in neredeyse hiç kod gerektirmeyen grafik tabanlı bir ELT+Analytics aracı olduğu ve yüksek uyumluluğu sayesinde diğer veritabanları ya da dosyalarla birlikte kullanılabildiği açıklanıyor
12M yatırım toplayan bir veritabanı girişiminin 3 yıl içinde başarısız olmasına şaşırıldığı belirtiliyor. Bunun, veritabanı girişimlerinin başarılı olmasının ne kadar zor olduğunu gösteren bir örnek olduğu söyleniyor. Yapay zeka ile DB performansını iyileştirme fikri olmasına rağmen daha fazla yatırımcı bulunamaması da şaşırtıcı bulunuyor