- Ben kimim ve neden ilgileniyorum → BigQuery'nin ilk mühendislerinden biri
- Zorunlu tanıtım slaydı → herkesin atıfta bulunduğu "zaman geçtikçe veri patlayarak artar" grafiği
- Çoğu insanın o kadar çok verisi yok
- Depolama ve işlem ayrıldı; ağırlık depolama tarafında
- İş yükü boyutu, toplam veri boyutundan daha küçük
- Verilerin çoğu neredeyse hiç sorgulanmıyor
- Büyük veri sınırı sürekli geri çekiliyor
- Veri bir yükümlülüktür (Liability)
→ Büyük verinin bir başka tanımı: "Veriyi elde tutmanın maliyeti, neyi atacağını anlamanın maliyetinden daha düşük olduğunda"
- Siz büyük verinin yüzde 1'lik kesiminde misiniz?
- Gerçekten çok büyük miktarda veri mi üretiyorsunuz?
- Eğer öyleyse, gerçekten tek seferde çok büyük miktarda veri kullanmanız mı gerekiyor?
- Eğer öyleyse, veriniz tek bir sisteme sığmayacak kadar büyük mü?
- Eğer öyleyse, sadece bir veri istifçisi (Hoarder) olmadığınızdan emin misiniz?
- Eğer öyleyse, özetlemek daha iyi olmaz mı?
- Yukarıdaki listedeki sorulardan herhangi birine hayır diyorsanız,
bir gün belki sahip olacağınız "korkutucu ölçekte büyük veri" yerine
"gerçekte sahip olduğunuz veri ölçeğini yönetmenizi sağlayan yeni nesil veri araçlarını" kullanmak daha iyi olabilir
1 yorum
Bu yazıyı yazan şirketin MotherDuck olduğunu ve "DuckDB"'yi yapan şirket olduğunu dikkate alarak okumak gerekiyor.
DuckDB - Embedded OLAP DB açık kaynak
Bu şirketin sloganı "Big Data is DEAD. Long live EASY DATA.".
"Your laptop is faster than your data warehouse. Why wait for the Cloud?" diyerek kendi embedded DB'lerini tanıtan bir şirket.
Elbette bu, yazının kötü olduğu anlamına gelmiyor. Genel olarak bir kez okunmaya değer ve yazıdaki birçok noktaya katılıyorum.
Pek de fazla olmayan veriyle "big data" yaptığını söyleyen çok fazla şirket var.