- LogHouse, 1 yıl içinde 19PiB’den 100PB’den fazla log verisi işleyerek yaklaşık 500 trilyon satıra kadar ölçeklendi
- OpenTelemetry(OTel) veri işleme sınırları ve verimsizlik sorunları nedeniyle, temel sistemlere uygun özel bir pipeline’a (SysEx) geçildi
- Bu geçişle birlikte olay işleme hacmi 20 kat artmasına rağmen CPU kullanımı %10’un altında tutulan bir verimlilik sağlandı
- ClickHouse’un HyperDX ve ClickStack kullanıma alınmasıyla UI ve veri entegrasyonu, şema esnekliği ve güçlü bir veri keşif ortamı kuruldu
- Wide events ve yüksek kardinalite modelinin benimsenmesiyle, önceden agregasyon yapmadan tüm olayların saklanması ve analiz edilmesi mümkün hale geldi
Arka plan ve değişim
- ClickHouse Cloud için geliştirilen dahili loglama platformu LogHouse, 1 yıl içinde veri ölçeği 19PiB’den 100PB’nin üzerine, 37 trilyon satırdan neredeyse 500 trilyon satıra çıkan büyük bir sisteme dönüştü
- Başlangıçta tüm telemetri OpenTelemetry(OTel) üzerinden toplanıyordu, ancak büyük veri ortamlarında performans, kaynak sınırları ve veri dönüştürme sürecindeki CPU israfı ile veri kaybı sorunları belirgin hale geldi
OTel’in sınırları ve özel pipeline’a geçiş nedenleri
- OTel pipeline’ında loglar önce JSON’a dönüştürülüyor, ardından yeniden OTel formatına eşleniyor; bu sırada birden fazla dönüşüm ve marshalling tekrarlandığı için verimlilik son derece düşüyordu
- Gerçekte OTel tabanlı olarak saniyede 20 milyon satır işlemek için yaklaşık 8.000 CPU çekirdeği gerekiyordu
- Trafik ani yükseldiğinde Collector aşırı yükleniyor ve log drop yaşanıyor, yani toplanamayan veriler oluşuyordu
SysEx’in kullanıma alınması ve mimarisi
- SysEx(System Tables Exporter), ClickHouse’un system tables verilerini herhangi bir dönüşüm olmadan, özgün tipleriyle doğrudan LogHouse’a taşıyor
- Hash ring yapısıyla dağıtık scraping, zaman gecikmeli buffer ve sliding window yaklaşımıyla veri kaybını önleyip dahili SLA gereksinimlerini karşılıyor
- Go dili ve ClickHouse istemcisindeki özel yetenekler kullanılarak veri marshalling olmadan byte-to-byte aktarım yapılabiliyor
- Değişken şema yapısı için şema hash’i ve dinamik şema yönetimi uygulanıyor; Merge table engine ile birden fazla şema sürümü tek bir mantıksal görünümde birleştiriliyor
- Snapshot tabanlı bellek tablosu toplama sayesinde gelişmiş tanılama ve analiz işleri destekleniyor
Performans ve verimlilik iyileştirmeleri
- SysEx sayesinde OTel Collector saniyede 2 milyon logu 800 CPU ile işlerken, SysEx 70 CPU ile 37 milyon logu işleyebilir hale geldi
- Bu verimlilik artışıyla kaynak kullanımı ciddi biçimde azaldı, olay kaybı önlendi ve gerçek zamanlı destek ortamı sağlandı
OTel’in süregelen rolü
- OTel, standart ve vendor-neutral bir platform sunduğu için servis arızaları ya da anormal durumlarda hâlâ kritik önem taşıyor
- SysEx’in işleyemediği crash ve anormal durumlarda da log yakalama olanağı sağlıyor
- Şu anda trace seviyesinin altındaki loglar çıkarılıyor, yalnızca info seviyesi ve üzeri toplanarak kaynak kullanımı optimize ediliyor
UI, HyperDX ve ClickStack entegrasyonu
- Mevcut özel Grafana UI’dan, kademeli olarak HyperDX tabanlı ve ClickHouse-native bir UI’a geçiliyor
- HyperDX, şemadan bağımsız, Lucene sorgu desteği ve SQL desteğiyle ClickHouse’un geniş veri türleriyle tam uyumluluk sunuyor
- Farklı tablo yapıları ve özel Exporter kaynaklarından gelen veriler de UI değişikliği olmadan entegre edilebiliyor
- Grafana ise Prometheus tabanlı metrikler ve sabit dashboard’lar için kullanılmaya devam ediyor; iki çözüm birbirini tamamlıyor
Wide events ve yüksek kardinalite modelinin benimsenmesi
- Wide events, her satıra sorgu ID’si, Pod adı, sürüm bilgisi gibi çeşitli bağlamları ekleyerek, agregasyon olmadan tüm veriyi saklayan çığır açıcı bir yaklaşım sunuyor
- Bu yaklaşım, Prometheus gibi sistemlerin aksine, önceden agregasyon, label kısıtları veya kardinalite patlaması kaygısı olmadan derin analiz ve esnek sorgulama sağlıyor
- Gerekli agregasyonun veri analiz anında yapılması sayesinde, büyük veri ortamlarında hem performans hem de maliyet kontrol altında tutulabiliyor
Veri görselleştirme ve sorgu esnekliği
- ClickHouse; Plotly, Jupyter notebook gibi araçlarla güçlü entegrasyon sunduğundan farklı görselleştirme araçları serbestçe kullanılabiliyor
- Lucene tabanlı HyperDX’in hızlı keşif yeteneklerine ek olarak, karmaşık ilişki ve koşul sorguları (
SQL, JOIN vb.) ile ileri düzey kök neden analizi doğrudan ClickHouse üzerinde yapılabiliyor
Farklı Wide Event tabanlı veri kaynaklarının artması
- kubenetmon: Kubernetes ağ gözlemi için açık kaynak; L3/L4 trafiği, bağlantılar ve maliyet analizi sağlıyor
- Kubernetes Event Exporter: ClickHouse sink eklenmiş bir fork kullanılıyor; büyük ölçekli küme durum değişimleri izleniyor ve tüm nesnelerin snapshot’ı için deneyler sürüyor
- Control Plane Data, RUM(Real User Monitoring), Istio Access Log gibi farklı katmanlardaki verilerle yorum kapsamı ve korelasyon analizi yetenekleri büyük ölçüde güçlendiriliyor
Operasyonel değerlendirmeler ve gelecek yönü
- SysEx, sorgu sırasında log ve metriklerde görünür olabilir; ancak bellek sınırları ve hata durumunda etkiyi en aza indiren bir yapıyla tasarlandı
- Zero-impact scraping: Tamamen decoupled bir yapı (ör. S3 tabanlı plain rewritable disk kullanımı) ile kümeye etkisini temelden ortadan kaldıran bir yöntem araştırılıyor
- OTel, servisin başlangıç ve anormal durumlarında log toplama açısından hâlâ önemli; ancak gelecekte zero-impact yaklaşımı olgunlaştıkça bağımlılığın daha da azalması bekleniyor
ClickHouse JSON tipinin evrimi ve kullanımı
- JSON tipi resmen GA oldu; alan bazlı dinamik kolon oluşturma, birden fazla tip desteği ve şema patlamasına esnek şekilde yanıt verme imkânı sunuyor
- Çok sayıda kolona sahip JSON sorgularında optimizasyon henüz kusursuz değil; bu yüzden biçime göre paralel saklama ve Map tipinin pratikliği yeniden doğrulanıyor
- HyperDX entegrasyonuyla Map ve JSON alanları otomatik çıkarılıp analiz edilebiliyor; gelecekte JSON’un daha geniş kullanımı planlanıyor
Sonuç ve kültürel değişim
- LogHouse artık performans analizinden gerçek zamanlı debugging’e kadar ClickHouse Cloud operasyonlarının temel gözlemlenebilirlik platformu haline geldi
- Maliyet düşürme başlangıç noktası olsa da, SysEx gibi özel araçlar, OTel ile uyumlu çalışma ve HyperDX tabanlı esnek UI genişlemesi sayesinde teknik ve kültürel bir dönüşüm yaşanıyor
- Büyük ölçekli ve yüksek doğruluklu Wide Event tabanlı veri modeli; mühendislik, destek ve veri analizi dahil tüm alanlarda yeni değer ve verimlilik sağlıyor
- Bundan sonra da 100PB ve 500 trilyon satır ölçeğinde edinilen deneyimle, gözlemlenebilirliğin geleceğine yön vermeye devam etmeyi hedefliyor
1 yorum
Hacker News görüşleri
grepile aramak pratikte imkânsızdır. Log veritabanları ise yalnızca depolama düğümlerini ve alanını artırarak yatay ölçeklenebilir