DuckDB Kullanımı (DuckDB Python + Jupyter Lab)
(zzsza.github.io)Son dönemde OLAP açık kaynakları arasında öne çıkan DuckDB’nin kullanımını derleyen bir yazı.
Jupyter Lab’de nasıl kullanılabileceğine dair içerikler de var; ayrıca etkileyici bulduğum Extension’ları da ekledim.
S3 üzerindeki Parquet dosyalarını doğrudan sorgulayarak kolayca kullanılabiliyor ve Athena’nın yerini rahatlıkla alabilecek gibi görünüyor. Pandas’ın kullanıldığı alanların da tamamını ikame edebilir.
İçindekiler
- DuckDB’ye giriş, DuckDB nedir?
- BIG DATA IS DEAD
- DuckDB hedefleri & DuckDB’nin avantajları
-
- Simple
-
- Portable
-
- Feature Rich
-
- Fast
-
- Extensible
-
- Free
-
- Thorough Testing
- DuckDB performans benchmark’ı
- DuckDB kurulumu
-
- DuckDB’yi çalıştırma
- Basit çalıştırma (DuckDB Python)
- Veri yükleme
- jupysql kullanarak daha rahat çalıştırma
- SQL sözdizimi
- Secrets Manager
- DuckDB Extension
- bigquery
- h3
- pg_duckdb
- vss(Vector Similarity Search)
- DuckDB kullanım alanları
- BigQuery’de kullanım örneği
- Yerel veri ambarı gibi kullanma (Pandas yerine)
- Gerektiğinde kullanılan hafif analiz motoru olarak kullanım
- ETL, ELT pipeline’larında Transform aşamasında kullanım
- GCS üzerindeki Parquet’i sorgulama
- Özet
- Referanslar
2 yorum
İyi kaynak için teşekkürler.
Yazımı okuduğunuz için teşekkür ederim!!