24 puan yazan zzsza 2024-10-27 | 2 yorum | WhatsApp'ta paylaş

Son dönemde OLAP açık kaynakları arasında öne çıkan DuckDB’nin kullanımını derleyen bir yazı.

Jupyter Lab’de nasıl kullanılabileceğine dair içerikler de var; ayrıca etkileyici bulduğum Extension’ları da ekledim.

S3 üzerindeki Parquet dosyalarını doğrudan sorgulayarak kolayca kullanılabiliyor ve Athena’nın yerini rahatlıkla alabilecek gibi görünüyor. Pandas’ın kullanıldığı alanların da tamamını ikame edebilir.


İçindekiler

  • DuckDB’ye giriş, DuckDB nedir?
    • BIG DATA IS DEAD
  • DuckDB hedefleri & DuckDB’nin avantajları
      1. Simple
      1. Portable
      1. Feature Rich
      1. Fast
      1. Extensible
      1. Free
      1. Thorough Testing
    • DuckDB performans benchmark’ı
    • DuckDB kurulumu
  • DuckDB’yi çalıştırma
    • Basit çalıştırma (DuckDB Python)
    • Veri yükleme
    • jupysql kullanarak daha rahat çalıştırma
    • SQL sözdizimi
    • Secrets Manager
  • DuckDB Extension
    • bigquery
    • h3
    • pg_duckdb
    • vss(Vector Similarity Search)
  • DuckDB kullanım alanları
    • BigQuery’de kullanım örneği
    • Yerel veri ambarı gibi kullanma (Pandas yerine)
    • Gerektiğinde kullanılan hafif analiz motoru olarak kullanım
    • ETL, ELT pipeline’larında Transform aşamasında kullanım
    • GCS üzerindeki Parquet’i sorgulama
  • Özet
  • Referanslar

2 yorum

 
nottiger 2024-10-28

İyi kaynak için teşekkürler.

 
zzsza 2024-10-31

Yazımı okuduğunuz için teşekkür ederim!!