1 puan yazan GN⁺ 2024-05-28 | 1 yorum | WhatsApp'ta paylaş

Büyük veri öldü

Ben kimim ve bu yazıyı neden yazıyorum?

  • 10 yılı aşkın süredir büyük verinin önemini vurguluyorum
  • Google BigQuery'nin kurucu mühendisi olarak büyük veriyi ele alan teknolojileri tanıttım
  • Müşterilerle yapılan görüşmeler ve ürün analizleri sayesinde çoğu insanın gerçekte büyük veriyle çalışmadığını fark ettim

Zorunlu tanıtım slaydı

  • Birçok büyük veri ürününün sunumu "büyük veri geliyor" mesajını veriyor
  • Ancak gerçekte çoğu uygulamanın büyük ölçekli veriyi işlemesi gerekmiyor
  • Geleneksel veritabanı sistemleri yeniden popülerlik kazanıyor

Çoğu insanın o kadar fazla verisi yok

  • Müşterilerin çoğu 1 TB veya daha az veriye sahip
  • Büyük miktarda veriye sahip müşteriler bile gerçekte bunun yalnızca küçük bir bölümünü kullanıyor
  • Veri boyutu Pareto ilkesini izliyor; verinin büyük kısmı az sayıdaki müşteride yoğunlaşıyor

Depolama ve hesaplamanın ayrılmasında depolama yanlılığı

  • Modern bulut veri platformları depolama ile hesaplamayı birbirinden ayırıyor
  • Depolama alanı hızla artarken hesaplama ihtiyacı büyük ölçüde değişmiyor
  • Büyük veri kümelerini işlemek için dağıtık işlemeye ihtiyaç olmayabilir

İş yükü boyutu toplam veri boyutundan küçüktür

  • Analiz işlerinin çoğu küçük veri kümelerini işliyor
  • Büyük veriyi işleyen sorgular nadirdir ve çoğunlukla rapor üretimi için kullanılır
  • Veri işleme maliyetini azaltmak için küçük sorgular tercih edilir

Verilerin çoğu neredeyse hiç sorgulanmaz

  • Verilerin çoğu, üretildikten sonraki ilk 24 saat içinde sık sorgulanır
  • Eski veriler neredeyse hiç sorgulanmaz ve yalnızca depolama alanı kaplar

Büyük verinin sınırı sürekli geri çekiliyor

  • "Büyük veri" tanımı zaman içinde değişiyor
  • Modern donanım, geçmişe göre çok daha büyük verileri işleyebiliyor

Veri bir sorumluluktur

  • Veriyi saklamanın maliyeti yalnızca depolama maliyetini aşar
  • Mevzuata uyum ve hukuki sorumluluk dikkate alınmalıdır
  • Eski verilerin bakımı zordur

Siz büyük verinin %1'lik kesiminde misiniz?

  • Çoğu insanın büyük veriyle uğraşmasına gerek yok
  • Verinin gerçekten büyük olup olmadığı, özetlenip özetlenemeyeceği gibi noktalar değerlendirilmeli

GN⁺ görüşü

  • Veri yönetiminin önemi: Veri boyutundan çok veri kalitesi ve yönetimi önemlidir. Gereksiz veriyi kaldırıp önemli veriye odaklanmak daha verimlidir.
  • Gerçekçi yaklaşım: Şirketlerin çoğu büyük veri teknolojilerine ihtiyaç duymaz. Gerçek veri boyutuna ve ihtiyaçlara uygun araçları seçmek önemlidir.
  • Maliyet tasarrufu: Bulut ortamında depolama ile hesaplamayı ayırarak maliyet düşürülebilir. Gereksiz veri işlemeyi azaltmak ekonomiktir.
  • Hukuki sorumluluk: Veri saklama hukuki sorumluluk getirir. Mevzuata uyum ve veri güvenliğine dikkat edilmelidir.
  • Teknolojik ilerleme: Donanım ve yazılımdaki gelişmeler sayesinde geçmişte mümkün olmayan veri işleme artık yapılabiliyor. En yeni teknolojileri kullanarak verimlilik artırılabilir.

1 yorum

 
GN⁺ 2024-05-28
Hacker News görüşleri
  • Veri bilimci işe alım deneyimi: 6 TiB veriyi ele alan bir mimariyle ilgili soruda, bunun bir akıllı telefon ya da ucuz bir HDD ile çözülebileceğini anlayan aday en etkileyici olanıydı.

  • MongoDB ve PostgreSQL karşılaştırması: MongoDB'nin PostgreSQL'e göre daha iyi olduğu bir nokta yok; büyük veri çözümleri ise çoğunlukla sütun tabanlı veritabanları, Map/Reduce veya Cassandra kullanıyor.

  • Başarı için planlama: Çoğu şirket unicorn olmuyor ama hedefin bu olması gerekiyor; bu yüzden en baştan ölçeklenebilirliği dikkate alan bir mimari gerekli.

  • Veri boyutu ve sorgu sıklığı: Verilerin çoğu büyük değil ve sorguların büyük kısmı da küçük ölçekli. Başlangıçta esas ihtiyaç veriyi azaltma çalışmasıdır.

  • Büyük veri ve regülasyon maliyeti: Veri maliyetleri regülasyonlar nedeniyle artıyor.

  • Büyük veri analizi deneyimi: Büyük Hadron Çarpıştırıcısı'ndaki deneyime göre, hızlı yerel depolama küresel bir süper bilgisayar ağından daha iyiydi.

  • Büyük verinin paradoksu: Donanım gereksinimlerini gösteriş unsuru yapmak için temel yazılım optimizasyonlarından kaçınma eğilimi vardı.

  • Verinin bilgi içeriği: Veri üstel olarak artıyor ama bilgi içeriği aynı şekilde artmıyor. Finansta verilerin çoğu yineleniyor ve boyut indirgeme gerekiyor.

  • Büyük verinin tanımı: Büyük veri, yalnızca depolama kapasitesi ya da işleme hızı meselesi değil; veriyi birleştirme ve anlama yönündeki bilişsel kapasite meselesidir.

  • Büyük veri araçlarında aşırı mühendislik: Çoğu durumda veri ambarları ve veri gölleri için gigabayt ya da terabayt düzeyi yeterlidir ve daha basit mimariler daha iyi performans sağlar.

  • Büyük veri modası: Büyük veri modası sona erdi; bu da modaya duyarlı sektörlerde sık görülen bir sonuç.

  • Büyük veri ve kurucu egosu: Büyük verinin başlıca itici gücü kurucuların egosuydu; ilk aşamada tek bir SQLite veritabanı yeterlidir.

  • Büyük verinin işleme sorunu: Büyük veri, depolamadan çok işleme problemidir ve sorguların çoğu yalnızca yakın tarihli veriyi ele alır. Tüm veriyi işlemek daha kolaysa, şirketlerin çoğunun neden hâlâ yalnızca küçük veri parçalarını sorguladığı sorgulanabilir.