Hızlı depolama için Colossus
(cloud.google.com)> "Colossus durum bilgili protokolü", Rapid Storage'ın yüksek performansının gizli bileşeni
- Google Cloud Storage, sadeliği ve ölçeklenebilirliği sayesinde yaygın olarak kullanılıyor
- Mevcut REST tabanlı durumsuz protokoller kullanımı kolay olsa da, yapay zeka ve veri yoğun iş yüklerinde gecikme ile dosya odaklı özellik eksikliği sorun yaratıyor
- Rapid Storage, bu sorunu durum bilgili gRPC akış protokolüyle çözerken nesne depolamanın ölçeklenebilirliğini ve aktarım hızını koruyor
Colossus tabanlı mimarinin güçlü yönleri
- Colossus, Google içinde küme düzeyinde bir dosya sistemi olup yüksek performanslı ürünler için temel teknolojidir
- Durum bilgili protokol kullanarak ultra düşük gecikmeli veri okuma/yazma desteği sunar
- İstemci bir dosyayı açıp bir handle alır ve bunun üzerinden disklerle doğrudan iletişim kurabilir
- RDMA benzeri bir protokol kullanarak hızlı erişim sağlar; SSD optimizasyonu ve paralel yazma teknikleri uygulanır
- Dayanıklılık gerektiren log yazma ve akış analizi iş yükleri için uygundur
Colossus durum bilgili protokolünün çalışma şekli
- Dosya append modunda açıldığında Curator bir handle üretir ve bunu istemciye iletir
- Uygulama log verisini istemciye yazar, istemci de handle ile birden çok diske paralel yazma gerçekleştirir
- Veriyi dayanıklı biçimde saklamak için birden çok diske çoğaltma yapılır; quorum tabanlı yazma ile gecikme en aza indirilir
Rapid Storage'ın performansı ve kullanım örnekleri
- Cloud Storage istemcisi, gRPC akışı oluşturulurken kimlik doğrulama ve metadata erişimini önceden işler
- Sonraki okuma/yazmalar doğrudan Colossus'a bağlandığı için ultra düşük gecikme korunur
- Kova başına saniyede 20 milyon isteği işleyebilir — büyük ölçekli yapay zeka/ML iş yükleri için uygundur
-
Yapay zeka/ML eğitimi için optimize edilmiş tasarım
- Yüz milyonlarca ile milyarlarca token içeren büyük veri dosyalarını sırasız okumak için idealdir
- Eğitim başında akış oluşturulabilir ve paralel aralık okumaları ultra düşük gecikmeyle yapılabilir
- Eğitim sırasında depolama gecikmesi olmadan veri örnekleri hızla sağlanabilir
-
Güvenli ve verimli append işlemleri
- Tek bir nesne için sınırsız append mümkündür (nesne boyutu sınırı içinde)
- Handle sayesinde akış kesilse bile yeniden bağlandıktan sonra okuma/yazmaya devam edilebilir
- Aynı anda yalnızca tek bir akış bir nesneye yazabilir — yeni akış önceki akışı işlemsel biçimde kilitler
- Her append, veri tutarlılığını sağlamak için yazma offset'ini belirtir
Rapid Storage entegrasyonu ve API
- SDK'ler, gRPC tabanlı append özelliğini destekleyecek şekilde güncelleniyor
- Cloud Storage FUSE ile entegre edilerek Cloud Storage kovalarına dosya sistemi gibi erişim sağlanıyor
- Hierarchical Namespace ile de bağlantılı çalışarak performans ve tutarlılığı güçlendiriyor, klasör tabanlı API desteği sunuyor
Rapid Storage'ın birleşik avantajları
- Blok depolama düzeyinde ultra düşük gecikme
- Paralel dosya sistemi düzeyinde yüksek aktarım hızı
- Nesne depolamanın ölçeklenebilirliği ve kullanım kolaylığı da sunuluyor
2 yorum
Colossus'un çok iyi olduğu söyleniyor ama bunu gerçekten içeride kullanmış olanların deneyiminin nasıl olduğunu merak ediyorum.
Hacker News görüşü