Hyperspace - MS'nin Apache Spark için yayımladığı açık kaynak indeksleme alt sistemi
(microsoft.github.io)Apache Spark'ta indeks tabanlı sorgu hızlandırmasını mümkün kılan bir alt sistem
→ CSV, JSON, Parquet verileri için indeks oluşturur ve yönetir
→ Bu indeksleri otomatik olarak kullanarak, kodda değişiklik yapmadan sorguları/iş yüklerini hızlandırır
- TPC benchmark'larında tekil sorgularda sorgu hızında 11 kata kadar artış
→ genel olarak ise standart donanım kullanıldığında yaklaşık 2 kat sorgu performansı artışı
-
create,refresh,delete,restore,vacuum,cancelgibi basit API'ler -
Scala, Python, .NET desteği
Microsoft Azure bulutundaki Azure Synapse Analytics'te kullanılıyor
( kurumsal veri ambarı ve büyük veri analizini birleştiren sınırsız analiz hizmeti )
1 yorum
Tanıtım yazısı: Apache Spark™ için bir indeksleme alt sistemi olan Hyperspace artık açık kaynak
https://cloudblogs.microsoft.com/opensource/2020/…