- Rust tabanlı bir araç olup terminalde büyük CSV dosyalarını hızlı ve verimli şekilde işleyebilir
- Çeşitli veri işleme özelliklerinin yanı sıra görüntüleme, görselleştirme, analiz, web scraping, metin işleme ve ağ analizi de destekler
- Dahili olarak yüksek performans için çoklu iş parçacığı, ifade dili ve paralel işleme kullanır
- Çok büyük CSV (gigabayt ölçeğinde) dosyaları da sorunsuz işleyebilir
- Python veya Lua'dan çok daha hızlı özel bir ifade dili sunar
- Tek komut zincirleme ile karmaşık veri akışları kurulabilir
- Basit istatistiklerden heatmap ve histogram gibi temel görselleştirmelere kadar imkan verir
- Sosyal bilim araştırmacıları ve web verisi analizi için gelişmiş özellikler içerir
- Linux, macOS ve Windows'un tümünü destekler
.tsv, .psv, .ssv, .gz gibi çeşitli formatları otomatik tanır
Temel komut örnekleri
-
Keşif
xan headers: sütun listesini yazdırır
xan view: terminalde tablo biçiminde görüntüler
xan flatten: bir satırdaki tüm değerleri açarak gösterir
xan hist, xan plot, xan heatmap: görselleştirme özellikleri
-
Filtreleme & arama
xan search -s 키워드 파일.csv: belirli bir anahtar kelimeyi içeren satırları bulur
xan filter '조건식' 파일.csv: ifadeyle satır filtreler
-
Dönüştürme
xan select: sütun seçer
xan map: ifadeyle yeni sütun oluşturur
xan transform: mevcut sütunları ifadeyle değiştirir
-
Toplama ve analiz
xan count: satır sayısını sayar
xan frequency: frekans tablosu oluşturur
xan stats: tanımlayıcı istatistikleri yazdırır
xan agg: kullanıcı tanımlı toplama
xan groupby: grup bazında toplama yapar
-
Sıralama & tekrar kaldırma
xan sort -s 컬럼: sıralar
xan dedup -s 컬럼: tekrarları kaldırır
-
Birleştirme
xan join: anahtara göre join yapar
xan merge: sıralanmış dosyaları birleştirir
xan cat: satır veya sütun bazında ekler
-
İfade dili
xan map 'fmt("{} ({})", name, foundation_year)' key
xan filter 'batch > 1'
xan transform name 'split(name, ".") | first | upper'
- İfade dili, CSV işleme için özelleştirilmiş hafif bir DSL'dir; resmi belgelerde cheatsheet, işlev listesi, toplama işlevleri listesi incelenebilir
-
Görselleştirme özellikleri
xan hist: metin tabanlı histogram
xan plot: scatter plot/çizgi grafik
xan heatmap: korelasyon heatmap'i
xan view -p: terminalde tüm tabloyu görüntüler
Gelişmiş özellikler
- Standart girdi/çıktı pipeline desteği tamdır
- gzip sıkıştırılmış dosyaları otomatik işler
- Scraping DSL yerleşik olarak gelir (HTML → CSV dönüşümü)
- lexicometry, fuzzy matching desteği:
tokenize, vocab, cluster
- Ağ/matris dönüşümü:
network, matrix
1 yorum
Bunu nasıl uygulayabilirim diye düşünmüştüm ama sadece
sortya dadropkullanmak bile anlamlı olabilir.