9 puan yazan xguru 2024-06-05 | 1 yorum | WhatsApp'ta paylaş
  • Verimli veri boru hatları oluşturmak için bir Python çerçevesi
  • Modülerliği ve iş birliğini teşvik ederek basit ve yeniden kullanılabilir bileşenlerle karmaşık boru hatları kurulmasını sağlar
  • Çeşitli veri işleme kütüphaneleri veya çerçeveleriyle sorunsuz çalışacak şekilde tasarlanmıştır
  • Pydantic kullanarak güçlü tip denetimi, veri doğrulama ve yapılandırma yönetimi sunar
  • İyi test edilmiş kod ve zengin özellik setiyle öngörülebilir boru hattı yürütmesini garanti eder

Koheesio'nun diğer kütüphanelerden farkı

  • Veri boru hatları, PySpark entegrasyonu, veri dönüşümü, ETL işleri, veri doğrulama ve büyük ölçekli veri işleme için özel olarak tasarlanmıştır
  • Her tür veri işleme görevi için Reader, Writer ve Transformation işlevleri sunar
  • Veri mühendisliği topluluğu içinde iş birliğini ve inovasyonu teşvik eder

Koheesio'nun temel bileşenleri

  • Step: Koheesio'nun temel iş birimi olup veri boru hattındaki tek bir görevi temsil eder. Girdi alır ve çıktı üretir
  • Context: İşin çalışma ortamını ayarlayan yapılandırma sınıfı. İşler arasında değişken paylaşabilir ve ortama göre işin davranışını ayarlayabilir
  • Logger: Mesajları çeşitli seviyelerde kaydeden sınıf

1 yorum

 
xguru 2024-06-06
Hacker News görüşleri
  • Nike’ın veri mühendisliğinin gerçekte nasıl olduğunu merak ediyorum. LinkedIn profilim yüzünden sık sık düşük ücretli sözleşmeli iş teklifleri geliyor. Bu roller ABD içinde deneyimli kişileri hedefliyor ama ücretleri düşük. Bu rollerin dolandırıcılık olma ihtimali de var.
  • Bu araç, deneyimi daha az geliştiricinin çok olduğu ortamlarda faydalı olabilir. 2-3 geliştirici aracı oluşturur, daha büyük bir ekip ise basit ETL işleri yapar. Araç ekibinin yeni gereksinimleri çözme yükünü üstlenmesi gerekir.
  • Güçlü tipleme veri mühendisliği sorunlarını engelliyor. Dinamik diller kod karmaşıklığını ve bakım yükünü azaltmaya yardımcı oluyor. Tip framework’lerinde ısrar etmek, sektör deneyiminden çok akademik deneyime dayanıyor.
  • ETL, Spark, Storm vb. ile çalıştım ama bu kütüphanenin değer önerisini anlayamıyorum. Veri mühendisliği uzmanı değilim ama bu aracın faydalı olmasını ummuştum.
  • Bu aracın ne olduğu ve neden kullanılması gerektiği konusunda daha iyi bir açıklama lazım. Bağlantı incelenebilir.
  • Birkaç hafta önce Apache Beam kullanarak veri pipeline’ı yazdım. Koheesio bazı özellikleri paylaşıyor ama Apache Beam daha üstün.
  • Luigi’ye benziyor. Güzel!
  • CloudQuery’ye bakmanızı öneririm. Arrow tabanlı bir ELT framework’ü. (Yazarın kendisi)
  • Koheesio başka kütüphanelerle rekabet etmediğini söylüyor ama pratikte ediyor. Workflow orchestration olgun bir kategori. Python kullanması büyük bir avantaj değil.
  • dlt kütüphanesine bakıp bakmadığınızı merak ediyorum. Python’da kullanımı kolay EL sağlıyor. Koheesio ile dlt arasındaki farkların ve birbirlerini tamamlayıp tamamlayamayacaklarının ne olduğunu merak ediyorum.