Büyük veri öldü
Ben kimim ve bu yazıyı neden yazıyorum?
- 10 yılı aşkın süredir büyük verinin önemini vurguluyorum
- Google BigQuery'nin kurucu mühendisi olarak büyük veriyi ele alan teknolojileri tanıttım
- Müşterilerle yapılan görüşmeler ve ürün analizleri sayesinde çoğu insanın gerçekte büyük veriyle çalışmadığını fark ettim
Zorunlu tanıtım slaydı
- Birçok büyük veri ürününün sunumu "büyük veri geliyor" mesajını veriyor
- Ancak gerçekte çoğu uygulamanın büyük ölçekli veriyi işlemesi gerekmiyor
- Geleneksel veritabanı sistemleri yeniden popülerlik kazanıyor
Çoğu insanın o kadar fazla verisi yok
- Müşterilerin çoğu 1 TB veya daha az veriye sahip
- Büyük miktarda veriye sahip müşteriler bile gerçekte bunun yalnızca küçük bir bölümünü kullanıyor
- Veri boyutu Pareto ilkesini izliyor; verinin büyük kısmı az sayıdaki müşteride yoğunlaşıyor
Depolama ve hesaplamanın ayrılmasında depolama yanlılığı
- Modern bulut veri platformları depolama ile hesaplamayı birbirinden ayırıyor
- Depolama alanı hızla artarken hesaplama ihtiyacı büyük ölçüde değişmiyor
- Büyük veri kümelerini işlemek için dağıtık işlemeye ihtiyaç olmayabilir
İş yükü boyutu toplam veri boyutundan küçüktür
- Analiz işlerinin çoğu küçük veri kümelerini işliyor
- Büyük veriyi işleyen sorgular nadirdir ve çoğunlukla rapor üretimi için kullanılır
- Veri işleme maliyetini azaltmak için küçük sorgular tercih edilir
Verilerin çoğu neredeyse hiç sorgulanmaz
- Verilerin çoğu, üretildikten sonraki ilk 24 saat içinde sık sorgulanır
- Eski veriler neredeyse hiç sorgulanmaz ve yalnızca depolama alanı kaplar
Büyük verinin sınırı sürekli geri çekiliyor
- "Büyük veri" tanımı zaman içinde değişiyor
- Modern donanım, geçmişe göre çok daha büyük verileri işleyebiliyor
Veri bir sorumluluktur
- Veriyi saklamanın maliyeti yalnızca depolama maliyetini aşar
- Mevzuata uyum ve hukuki sorumluluk dikkate alınmalıdır
- Eski verilerin bakımı zordur
Siz büyük verinin %1'lik kesiminde misiniz?
- Çoğu insanın büyük veriyle uğraşmasına gerek yok
- Verinin gerçekten büyük olup olmadığı, özetlenip özetlenemeyeceği gibi noktalar değerlendirilmeli
GN⁺ görüşü
- Veri yönetiminin önemi: Veri boyutundan çok veri kalitesi ve yönetimi önemlidir. Gereksiz veriyi kaldırıp önemli veriye odaklanmak daha verimlidir.
- Gerçekçi yaklaşım: Şirketlerin çoğu büyük veri teknolojilerine ihtiyaç duymaz. Gerçek veri boyutuna ve ihtiyaçlara uygun araçları seçmek önemlidir.
- Maliyet tasarrufu: Bulut ortamında depolama ile hesaplamayı ayırarak maliyet düşürülebilir. Gereksiz veri işlemeyi azaltmak ekonomiktir.
- Hukuki sorumluluk: Veri saklama hukuki sorumluluk getirir. Mevzuata uyum ve veri güvenliğine dikkat edilmelidir.
- Teknolojik ilerleme: Donanım ve yazılımdaki gelişmeler sayesinde geçmişte mümkün olmayan veri işleme artık yapılabiliyor. En yeni teknolojileri kullanarak verimlilik artırılabilir.
1 yorum
Hacker News görüşleri
Veri bilimci işe alım deneyimi: 6 TiB veriyi ele alan bir mimariyle ilgili soruda, bunun bir akıllı telefon ya da ucuz bir HDD ile çözülebileceğini anlayan aday en etkileyici olanıydı.
MongoDB ve PostgreSQL karşılaştırması: MongoDB'nin PostgreSQL'e göre daha iyi olduğu bir nokta yok; büyük veri çözümleri ise çoğunlukla sütun tabanlı veritabanları, Map/Reduce veya Cassandra kullanıyor.
Başarı için planlama: Çoğu şirket unicorn olmuyor ama hedefin bu olması gerekiyor; bu yüzden en baştan ölçeklenebilirliği dikkate alan bir mimari gerekli.
Veri boyutu ve sorgu sıklığı: Verilerin çoğu büyük değil ve sorguların büyük kısmı da küçük ölçekli. Başlangıçta esas ihtiyaç veriyi azaltma çalışmasıdır.
Büyük veri ve regülasyon maliyeti: Veri maliyetleri regülasyonlar nedeniyle artıyor.
Büyük veri analizi deneyimi: Büyük Hadron Çarpıştırıcısı'ndaki deneyime göre, hızlı yerel depolama küresel bir süper bilgisayar ağından daha iyiydi.
Büyük verinin paradoksu: Donanım gereksinimlerini gösteriş unsuru yapmak için temel yazılım optimizasyonlarından kaçınma eğilimi vardı.
Verinin bilgi içeriği: Veri üstel olarak artıyor ama bilgi içeriği aynı şekilde artmıyor. Finansta verilerin çoğu yineleniyor ve boyut indirgeme gerekiyor.
Büyük verinin tanımı: Büyük veri, yalnızca depolama kapasitesi ya da işleme hızı meselesi değil; veriyi birleştirme ve anlama yönündeki bilişsel kapasite meselesidir.
Büyük veri araçlarında aşırı mühendislik: Çoğu durumda veri ambarları ve veri gölleri için gigabayt ya da terabayt düzeyi yeterlidir ve daha basit mimariler daha iyi performans sağlar.
Büyük veri modası: Büyük veri modası sona erdi; bu da modaya duyarlı sektörlerde sık görülen bir sonuç.
Büyük veri ve kurucu egosu: Büyük verinin başlıca itici gücü kurucuların egosuydu; ilk aşamada tek bir SQLite veritabanı yeterlidir.
Büyük verinin işleme sorunu: Büyük veri, depolamadan çok işleme problemidir ve sorguların çoğu yalnızca yakın tarihli veriyi ele alır. Tüm veriyi işlemek daha kolaysa, şirketlerin çoğunun neden hâlâ yalnızca küçük veri parçalarını sorguladığı sorgulanabilir.