- Apache Parquet formatını doğrudan C ortamında desteklemek için geliştirilmiş, üretim düzeyinde saf C uygulaması bir kütüphane
- C11 standardı tabanlı olarak yazıldı; C++ çalışma zamanı veya istisna işleme olmadan çalışır ve yalnızca zstd ile zlib’i harici bağımlılık olarak kullanır
- Gömülü sistemler, IoT, mikrodenetleyiciler, legacy ortamlar gibi kısıtlı ortamlarda veri işleme için uygundur
- Yaklaşık 200KB ikili boyutuyla, Apache Arrow’a kıyasla 50MB’den fazla daha küçük ve hafif bir derleme sunar
- SIMD optimizasyonları (SSE4.2, AVX2, AVX-512, NEON, SVE) ve çalışma zamanında otomatik algılama özelliğiyle çeşitli mimarileri destekler
- Tüm fiziksel tipleri (BOOLEAN, INT32, DOUBLE vb.) ve çeşitli kodlama ile sıkıştırma codec’lerini (ZSTD, LZ4, SNAPPY, GZIP) destekler
- Big-Endian sistemlerde de (s390x, SPARC, PowerPC vb.) doğru bayt sırası işlemeyi destekler
- Nullable sütunlar, temel iç içe şema, CRC32 sayfa doğrulama, sütun istatistikleri, bellek eşlemeli I/O, OpenMP paralel okuma gibi üretim özellikleri içerir
- Streaming API ile büyük dosyaları belleğe tamamen yüklemeden işleyebilir
- PyArrow ile tamamen uyumlu olup Python ortamında karşılıklı okuma-yazmayı destekler
- Apache Arrow ile karşılaştırıldığında
- ARM ortamında yazma hızı 1.5~5 kat daha hızlıdır, okuma hızı da en fazla 1.3 kat iyileşir
- x86 ortamında okuma hızı biraz daha yavaş olsa da, dosya boyutu yaklaşık 1.4 kat daha küçüktür
- Bağımlılıkların en aza indirilmesi, derlemenin sadeleşmesi ve yalnızca C kullanılan ortamlara entegrasyon başlıca güçlü yanlarıdır
- Karmaşık iç içe tipler, şifreleme, çok iş parçacıklı ZSTD açma desteklenmez
- PyArrow, DuckDB, fastparquet ile karşılıklı test doğrulaması tamamlandı
- Spark, DuckDB üzerinde de Carquet’in oluşturduğu dosyalar doğrudan okunabilir
- Linux, macOS, Windows, POSIX sistemleri desteklenir
- MIT lisansı
Henüz yorum yok.