16 puan yazan xguru 2020-12-17 | 4 yorum | WhatsApp'ta paylaş

130 yıllık bir gazetenin dijital dönüşüm hikâyesi

G1. 2008~2014: Okunan makalelere dayalı haber önerilerine odaklanıldı. SQL Server tabanlı

G2. 2014~2016: ETL'nin devreye alınması. Büyük ölçekli veri analizi ve yeni sorular, veri miktarında artış

→ SQL Server darboğaz hâline geldi. Redshift + ETL Framework'e geçildi

→ SQL'in günde birkaç kez çalıştırılması için zamanlama otomasyonu yapıldı

→ SQL + Python ile karmaşık veri modelleri desteklendi

G3. 2016~2018: FT'de büyük verinin başlangıcı

→ Hedef veri gecikmesini en aza indirmekti. Data Ingestion günde bir kezdi (24h). Bunu azaltmak, trendlere daha hızlı yanıt vermeyi mümkün kılıyordu

→ Okuyucunun tüm etkileşimlerini iletebilen kurum içi bir izleme kütüphanesi geliştirildi

→ Tüm etkinlikler AWS SNS → SQS → Kinesis → Parquet → Redshift hattından geçirildi

→ Raw Event işlemek için bir NodeJS sunucusu oluşturuldu; burada iç ve dış veriler birleştirilerek etkinlikler zenginleştirildi ve ardından Kinesis'e gönderildi

→ Kinesis Firehose kullanılarak etkinlikler CSV'ye dönüştürüldü ve S3'e kaydedildi

→ Etkinliklerde yinelenme yaşanan durumlar olduğu için bunu işlemek üzere ayrı bir Redshift kümesi oluşturuldu, ancak bu yüzden gecikme arttı

G4. 2019: İş değerini artırmaya odaklanarak platform yeniden inşa edildi

→ Veri platformunu PaaS'a dönüştürmek istiyorlardı

→ Kubernetes benimsendi. ECS'den EKS'ye geçildi

→ Airflow devreye alındı

→ AWS SNS → SQS → Kinesis → Parquet → Airflow → Redshift

G5. 2020: Artık gerçek zamanlı verinin çağı

→ G4 iyiydi ama hâlâ gerçek zamanlı değildi

→ SNS, SQS, Kinesis'in karmaşık yapılandırmasından Kafka'ya geçildi (Amazon MSK)

→ Akış işleme platformu olarak Apache Spark kullanıldı

→ kafka → spark → parquet(delta lake, redshift) ↔ airflow

→ Veri doğrulaması için Apache Avro devreye alındı: Data Contract

→ Redshift, S3, Kafka vb. sistemleri sorgulamak için Presto kullanıldı

Gelecek planları

→ Şu anda veri Airflow, Spark ve Kafka olmak üzere 3 bileşenden geliyor; bunun CDC(Change Data Capture) tabanlı yapıya dönüştürülmesi planlanıyor

→ Herkesin gerçek zamanlı verilere erişebilmesi sağlanacak. Data UI geliştirilerek akış işlemenin sürükle-bırak ile yapılabilmesi hedefleniyor

4 yorum

 
kbumsik 2020-12-17

Ah, böyle blog yazılarını seviyorum. Her mimari neslinin kendine özgü değerlendirmeleri yansıtılmış. Demek ki medya kuruluşlarında da bu ölçekte veri platformları tasarlanıyor.

 
kbumsik 2020-12-17

Bu arada, bunu SQS -> Nodejs loop -> Kinesis şeklinde bağlamışlar. Acaba bunu sadece tek bir Kinesis ile halletmek mümkün değil mi diye merak ediyorum. Henüz AWS konusunda çok bilgili sayılmam da o yüzden hüzünlü yüz

 
cbbatte 2020-12-17

Güzel makale özeti için teşekkürler!

 
xguru 2020-12-17

Burada geçen terimlerin açıklamalarını görmek için,

Yukarıdaki yazıya ve GeekNews YouTube kanalındaki "Modern veri altyapısını anlamak" videosuna göz atın.

Ayrıca, benzer şekilde dijital dönüşümde başarıya ulaşan New York Times hikayesine de birlikte göz atın.

Başarısız olmayan New York Times - NYT dijitalleşmede nasıl başarılı oldu?