Financial Times'ın veri platformunu kurma hikâyesi
(medium.com)130 yıllık bir gazetenin dijital dönüşüm hikâyesi
G1. 2008~2014: Okunan makalelere dayalı haber önerilerine odaklanıldı. SQL Server tabanlı
G2. 2014~2016: ETL'nin devreye alınması. Büyük ölçekli veri analizi ve yeni sorular, veri miktarında artış
→ SQL Server darboğaz hâline geldi. Redshift + ETL Framework'e geçildi
→ SQL'in günde birkaç kez çalıştırılması için zamanlama otomasyonu yapıldı
→ SQL + Python ile karmaşık veri modelleri desteklendi
G3. 2016~2018: FT'de büyük verinin başlangıcı
→ Hedef veri gecikmesini en aza indirmekti. Data Ingestion günde bir kezdi (24h). Bunu azaltmak, trendlere daha hızlı yanıt vermeyi mümkün kılıyordu
→ Okuyucunun tüm etkileşimlerini iletebilen kurum içi bir izleme kütüphanesi geliştirildi
→ Tüm etkinlikler AWS SNS → SQS → Kinesis → Parquet → Redshift hattından geçirildi
→ Raw Event işlemek için bir NodeJS sunucusu oluşturuldu; burada iç ve dış veriler birleştirilerek etkinlikler zenginleştirildi ve ardından Kinesis'e gönderildi
→ Kinesis Firehose kullanılarak etkinlikler CSV'ye dönüştürüldü ve S3'e kaydedildi
→ Etkinliklerde yinelenme yaşanan durumlar olduğu için bunu işlemek üzere ayrı bir Redshift kümesi oluşturuldu, ancak bu yüzden gecikme arttı
G4. 2019: İş değerini artırmaya odaklanarak platform yeniden inşa edildi
→ Veri platformunu PaaS'a dönüştürmek istiyorlardı
→ Kubernetes benimsendi. ECS'den EKS'ye geçildi
→ Airflow devreye alındı
→ AWS SNS → SQS → Kinesis → Parquet → Airflow → Redshift
G5. 2020: Artık gerçek zamanlı verinin çağı
→ G4 iyiydi ama hâlâ gerçek zamanlı değildi
→ SNS, SQS, Kinesis'in karmaşık yapılandırmasından Kafka'ya geçildi (Amazon MSK)
→ Akış işleme platformu olarak Apache Spark kullanıldı
→ kafka → spark → parquet(delta lake, redshift) ↔ airflow
→ Veri doğrulaması için Apache Avro devreye alındı: Data Contract
→ Redshift, S3, Kafka vb. sistemleri sorgulamak için Presto kullanıldı
Gelecek planları
→ Şu anda veri Airflow, Spark ve Kafka olmak üzere 3 bileşenden geliyor; bunun CDC(Change Data Capture) tabanlı yapıya dönüştürülmesi planlanıyor
→ Herkesin gerçek zamanlı verilere erişebilmesi sağlanacak. Data UI geliştirilerek akış işlemenin sürükle-bırak ile yapılabilmesi hedefleniyor
4 yorum
Ah, böyle blog yazılarını seviyorum. Her mimari neslinin kendine özgü değerlendirmeleri yansıtılmış. Demek ki medya kuruluşlarında da bu ölçekte veri platformları tasarlanıyor.
Bu arada, bunu
SQS -> Nodejs loop -> Kinesisşeklinde bağlamışlar. Acaba bunu sadece tek birKinesisile halletmek mümkün değil mi diye merak ediyorum. Henüz AWS konusunda çok bilgili sayılmam da o yüzden hüzünlü yüzGüzel makale özeti için teşekkürler!
Burada geçen terimlerin açıklamalarını görmek için,
Yukarıdaki yazıya ve GeekNews YouTube kanalındaki "Modern veri altyapısını anlamak" videosuna göz atın.
Ayrıca, benzer şekilde dijital dönüşümde başarıya ulaşan New York Times hikayesine de birlikte göz atın.
Başarısız olmayan New York Times - NYT dijitalleşmede nasıl başarılı oldu?
https://youtu.be/K2qiAFTzDLU
(Başarısız olmayan) New York Times https://tr.news.hada.io/topic?id=3172