- Bilgisayar kullanımı sorun çözümü için model ön eğitimi amacıyla 90 milyon saatlik video verisini depolamayı hedefleyerek San Francisco şehir merkezinde doğrudan bir depolama kümesi kuruldu
- On-premise yaklaşım seçilerek yıllık $354k (5 milyar won) ile 30PB depolama altyapısı işletilebildi. AWS’de bu maliyet $12m (17 milyar won) olduğundan yaklaşık 34 kat tasarruf sağlandı
- Çoğu public cloud’un aksine yüksek erişilebilirlik ve bütünlük önceliklendirilmedi; eğitim verisinin doğası gereği veri kaybını tolere etme stratejisi uygulandı
- Basit Rust ve Nginx tabanlı yazılımla işletiliyor; Ceph veya MinIO gibi karmaşık sistemler yerine doğrudan yazılmış 200 satırlık bir program kullanılıyor
- Proje sürecinde fiziksel yerleşim, ağ yapılandırması ve kablo yönetimi gibi birçok gerçek dünya deneme-yanılma süreci ve pratik bilgi edinildi
Giriş ve arka plan
- Bilgisayar kullanımı için model ön eğitimi, çok büyük hacimde video verisi gerektiriyor
- Genel amaçlı metin LLM’leri (ör. LLaMa-405B) için yaklaşık 60TB veri yeterli olabilirken, video tabanlı eğitim için 500 kat daha fazla depolama alanı gerekiyor
- AWS gibi public cloud kullanıldığında yıllık 12 milyon dolar maliyet çıkarken, kolokasyon merkezi kiralama ve sistemi doğrudan kurma yöntemiyle bu tutar yaklaşık 354 bin dolara düşürülebildi
- Büyük hacimli veriyi kendi bünyelerinde tutarak, en büyük kısıt olan veri maliyeti problemi çözüldü
Neden doğrudan kuruldu
- Bulut, yüksek güvenilirlik, yedeklilik ve veri bütünlüğüne odaklanırken; ön eğitim verisi
%5 kaybı bile tolere edebilecek kadar kritik değil
- Bu özellik sayesinde tipik kurumsal ortamlara kıyasla çok daha gevşek güvenilirlik gereksinimleri seçilebildi (
13 nine güvenilirlik yerine 2 nine)
- Depolama fiyatları, gerçek maliyetin çok üzerinde fiyatlandırılıyor
- Verinin en büyük maliyet kalemi olduğu ve yerel veri merkezi kurulumunun yeterince öngörülebilir olduğu değerlendirilerek bu yol tercih edildi
Maliyet karşılaştırması: bulut vs kendi kurulum
- Aylık recurring maliyet: internet $7,500 + elektrik $10,000 = toplam $17,500
- Tek seferlik maliyetler: sabit diskler $300,000, şasi $35,000, CPU düğümleri $6,000, kurulum ücreti $38,500, işçilik $27,000, ağ ve diğer kurulum giderleri $20,000 → toplam $426,500
- 3 yıllık amortisman dahil aylık sabit maliyet $29,500 olarak hesaplandı
- AWS aylık $1,130,000, Cloudflare R2 aylık $270,000, doğrudan kurulum aylık $29,500
- AWS: TB başına yaklaşık 38 dolar/ay
- Cloudflare: TB başına yaklaşık 10 dolar/ay
- Kendi kurulum: TB başına 1 dolar/ay
- Büyük ölçekli model eğitiminde Cloudflare’da bile iç sistem yükü nedeniyle rate-limit sorunları yaşanırken, kendi kurdukları ortamda 100Gbps özel hatla bu sorun aşıldı
Kurulum ve süreç
- Hızlı kurulum için
Storage Stacking Saturday(S3) planlandı; çevreden destek alındı ve profesyonel yükleniciler dahil edildi
- 36 saat içinde 2.400 sabit disk rafa yerleştirilerek 30PB donanım tamamlandı
- Yazılım tarafı Rust (yazma işlemleri, 200 satır) + nginx (okuma tarafı) + SQLite (metadata takibi)
- Ceph, MinIO, Weka, Vast vb. karmaşıklık/maliyet nedenleriyle kullanılmadı (fazla karmaşıklık, gereksiz oluşu, bakım yükü vb.)
- Tüm sürücüler XFS ile biçimlendirildi
Proje geri bildirimi ve çıkarımlar
İyi yapılanlar
- Yedeklilik / performans dengesi doğru kurulup 100G ağ neredeyse tamamen doldurularak kullanıldı
- Fiziksel olarak yakın bir yerde kurulum yapılarak debugging ve bakım kolaylığı sağlandı
- Tedarikçiler eBay üzerinden bulundu ancak gerçek satın alma bireysel satıcılarla doğrudan yapıldı; garanti ihtiyacının önemi vurgulandı
- 100G internet hattı birçok avantaj sağladı ve ağ sorunlarının kendi başlarına debug edilmesini kolaylaştırdı
- Kaliteli kablo yönetimi, sonraki sorun çözme süreçlerinde büyük fayda sağladı
- Karmaşık open source depolama sistemleri yerine sadelik ilkesi benimsendi ve bakım yükü azaltıldı
- Zaman ve işçilik maliyet tahminleri de isabetli çıktı; tasarruf etkisi net biçimde doğrulandı
Zorlayıcı noktalar ve deneme-yanılmalar
- Front-loader kullanımı nedeniyle 2.400 HDD’nin tek tek elle takılması yorucu oldu
- Depolama yoğunluğu yetersizdi; ilk tasarımda daha yüksek yoğunluk seçilse işçilik daha da azaltılabilirdi
- Daisy chain bağlantı hızı darboğaz yaratıyor; ideal olan her şasi için ayrı HBA bağlantısı
- Ağ bileşenlerinde marka uyumluluğu önemli, özellikle optik transceiver tarafında
- Ağ yapılandırmasını denemek ve ayarlamak zaman aldı; DHCP/NAT yerine performans ve kullanım kolaylığı odaklı kurulum yapıldı (yalnızca minimum firewall / secure link gereksinimleri uygulandı)
- Fiziksel erişilebilirlik ile kurulum sırasında monitör/klavye kablolamasının önemi net şekilde hissedildi
Denenebilecek fikirler
- KVM ve IPMI kullanımı ile uzaktan yönetim verimliliği artırılabilir
- Ayrı bir yönetim Ethernet ağı kurulması öneriliyor
- Ağ overprovisioning’i (ör. 400G iç ağ) düşünmeye değer
- Daha yüksek yoğunluklu sunucularla (90 sürücülü Supermicro / 20TB HDD vb.)
rack sayısını azaltma, güç tüketimini düşürme, CPU yoğunlaşması gibi avantajlar elde edilebilir
Nasıl doğrudan kurulabilir
Depolama yapılandırması
- 10 adet CPU head node (Intel RR2000 vb., her sunucu için çift Intel Gold 6148 / 128GB ECC DDR4 RAM öneriliyor)
- CPU’ya yük bindiren işlevler (ZFS vb.) için daha güçlü donanım seçilebilir
- 100 adet DS4246 şasi (her birinde 24 HDD)
- 2.400 adet 3.5" HDD (mümkünse SAS sürücü öneriliyor; hız avantajı var)
- Farklı kapasiteler (12TB, 14TB vb.) karıştırılabilir; kapasite büyüdükçe yerleşim ve ikinci el değeri avantajlı hale geliyor
- Fiziksel montaj için raylar/braketler, ekipman kablolaması ve kablolar
- Ağ sorunlarını debug etmek için birden fazla crash cart (monitör + klavye)
Ağ altyapısı
- 100GbE switch (ikinci el Arista vb., QSFP28 portlu)
- Her sunucu için HBA (öneri: Broadcom 9305-16E vb.), HBA portları ile şasi bağlantı yöntemi
- Ağ kartı (Mellanox ConnectX-4 vb., mutlaka Ethernet modunda)
- DAC/AOC kablolar — rack’ler arası mesafe dikkate alındığında DAC uyumluluk açısından avantaj sağlayabilir
- CPU head node satın alırken HBA/NIC önceden takılmış tedarikçiler tercih edilebilir
- Seri kablo, ayrı yönetim Ethernet ağı (yedek amaçlı kablosuz adaptör + mini switch alternatifi)
Veri merkezi gereksinimleri
- Kabin başına 3.5kW güç tüketimi, 42U bazında 4U×10 + 2U×1 yerleşim varsayılıyor
- Kabin başına 3PB, switch için ek 1 adet 42U kabin veya bunun yerine 1U şasi
- Özel 100G cross-connect (genellikle QSFP28 LR4 optik çifti), form factor ve marka uyumluluğu önceden mutlaka doğrulanmalı
- Ofise yakın konumda kolokasyon öneriliyor; sorun çıktığında hızlı fiziksel müdahale mümkün olduğundan debugging ve operasyon verimliliği artıyor
İlk kurulum ipuçları
- Önce switch’in yerel konsoldan ilk yapılandırması yapılmalı; ardından 100GbE uplink port ayarı ve optik transceiver uyumluluğu doğrulanmalı
- Gerekirse ISP optiği doğrudan NIC’e bağlanarak önce link-up doğrulanıp sonra switch’e taşınabilir
- Ubuntu kurulumu sırasında Netplan ile node ağ ayarlarını tamamlamak daha kolay
- Node internete bağlandıktan sonra, her DS4246 için tek kablo bağlantısı → formatlama / mount → durum kontrolü sırasıyla ilerlenirse kablolama ve disk arızaları erken tespit edilebilir
Performans / kararlılık uyarıları ve güvenlik
- Güvenlik varsayımı olarak bunun yalnızca eğitim verisine özel bir sistem olduğu kabulüyle, public IP’ye doğrudan bağlantı + port firewall + nginx secure_link ile sade işletim yapıldı
- Müşteri verisi işlenecekse aynı yapı uygun değildir; DHCP / NAT / ayrıntılı firewall segmentasyonu zorunludur
- Daisy chain, yönetim ve kablolama açısından kolay olsa da bant genişliği darboğazı yaratır; mümkünse şasi başına özel HBA önerilir
- Optik transceiver’larda marka kilidi çok yaygındır; FS.com ve Amazon birlikte tedarik kaynağı olarak kullanılabilir ama özellik ve marka eşleşmesi dikkatle kontrol edilmelidir
Sonuç ve anlamı
- $1/TB-ay seviyesindeki çok düşük maliyetli özel depolama ile 30PB video ön eğitimi pratik hale getirildi; buluta kıyasla 10–38 kat maliyet tasarrufu sağlandı
- Basit mimari ve sahaya yakın erişim, zaman ve riskleri azalttı; 100G özel hat ise I/O darboğazını çözdü
- Büyük ölçekli çok modlu ve video modelleri çağında temel rekabet avantajı düşük maliyetli büyük veri altyapısı; bu yaklaşım, küçük ekiplerle bile uygulanabilecek gerçek dünyada denenmiş bir referans sunuyor
Kapanış ve iş birliği çağrısı
- Bu yazıyı referans alarak benzer bir depolama kümesi kurduysanız, iyileştirmelerinizi ve deneyimlerinizi paylaşmanız isteniyor
- Büyük ölçekli bilgisayar kullanımı modeli ön eğitimi ile, genelleme ve insan değerleriyle bağlantılı yapay zeka araştırmaları için işe alım yapılıyor (iletişim: jobs@si.inc)
Henüz yorum yok.