Financial Times'ın veri platformunu kurma hikâyesi

(medium.com)

16 puan yazan xguru 2020-12-17 | 4 yorum | WhatsApp'ta paylaş

130 yıllık bir gazetenin dijital dönüşüm hikâyesi

G1. 2008~2014: Okunan makalelere dayalı haber önerilerine odaklanıldı. SQL Server tabanlı

G2. 2014~2016: ETL'nin devreye alınması. Büyük ölçekli veri analizi ve yeni sorular, veri miktarında artış

→ SQL Server darboğaz hâline geldi. Redshift + ETL Framework'e geçildi

→ SQL'in günde birkaç kez çalıştırılması için zamanlama otomasyonu yapıldı

→ SQL + Python ile karmaşık veri modelleri desteklendi

G3. 2016~2018: FT'de büyük verinin başlangıcı

→ Hedef veri gecikmesini en aza indirmekti. Data Ingestion günde bir kezdi (24h). Bunu azaltmak, trendlere daha hızlı yanıt vermeyi mümkün kılıyordu

→ Okuyucunun tüm etkileşimlerini iletebilen kurum içi bir izleme kütüphanesi geliştirildi

→ Tüm etkinlikler AWS SNS → SQS → Kinesis → Parquet → Redshift hattından geçirildi

→ Raw Event işlemek için bir NodeJS sunucusu oluşturuldu; burada iç ve dış veriler birleştirilerek etkinlikler zenginleştirildi ve ardından Kinesis'e gönderildi

→ Kinesis Firehose kullanılarak etkinlikler CSV'ye dönüştürüldü ve S3'e kaydedildi

→ Etkinliklerde yinelenme yaşanan durumlar olduğu için bunu işlemek üzere ayrı bir Redshift kümesi oluşturuldu, ancak bu yüzden gecikme arttı

G4. 2019: İş değerini artırmaya odaklanarak platform yeniden inşa edildi

→ Veri platformunu PaaS'a dönüştürmek istiyorlardı

→ Kubernetes benimsendi. ECS'den EKS'ye geçildi

→ Airflow devreye alındı

→ AWS SNS → SQS → Kinesis → Parquet → Airflow → Redshift

G5. 2020: Artık gerçek zamanlı verinin çağı

→ G4 iyiydi ama hâlâ gerçek zamanlı değildi

→ SNS, SQS, Kinesis'in karmaşık yapılandırmasından Kafka'ya geçildi (Amazon MSK)

→ Akış işleme platformu olarak Apache Spark kullanıldı

→ kafka → spark → parquet(delta lake, redshift) ↔ airflow

→ Veri doğrulaması için Apache Avro devreye alındı: Data Contract

→ Redshift, S3, Kafka vb. sistemleri sorgulamak için Presto kullanıldı

Gelecek planları

→ Şu anda veri Airflow, Spark ve Kafka olmak üzere 3 bileşenden geliyor; bunun CDC(Change Data Capture) tabanlı yapıya dönüştürülmesi planlanıyor

→ Herkesin gerçek zamanlı verilere erişebilmesi sağlanacak. Data UI geliştirilerek akış işlemenin sürükle-bırak ile yapılabilmesi hedefleniyor

4 yorum

kbumsik 2020-12-17

Ah, böyle blog yazılarını seviyorum. Her mimari neslinin kendine özgü değerlendirmeleri yansıtılmış. Demek ki medya kuruluşlarında da bu ölçekte veri platformları tasarlanıyor.

kbumsik 2020-12-17

Bu arada, bunu SQS -> Nodejs loop -> Kinesis şeklinde bağlamışlar. Acaba bunu sadece tek bir Kinesis ile halletmek mümkün değil mi diye merak ediyorum. Henüz AWS konusunda çok bilgili sayılmam da o yüzden hüzünlü yüz

cbbatte 2020-12-17

Güzel makale özeti için teşekkürler!

xguru 2020-12-17

Burada geçen terimlerin açıklamalarını görmek için,

Modern veri altyapısı için yeni mimari https://tr.news.hada.io/topic?id=3055

Yukarıdaki yazıya ve GeekNews YouTube kanalındaki "Modern veri altyapısını anlamak" videosuna göz atın.

https://youtube.com/playlist?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

Ayrıca, benzer şekilde dijital dönüşümde başarıya ulaşan New York Times hikayesine de birlikte göz atın.

Başarısız olmayan New York Times - NYT dijitalleşmede nasıl başarılı oldu?

https://youtu.be/K2qiAFTzDLU
(Başarısız olmayan) New York Times https://tr.news.hada.io/topic?id=3172

Financial Times'ın veri platformunu kurma hikâyesi

İlgili okumalar

4 yorum