Kubernetes’i 7500 düğüme ölçeklendirmek

(openai.com)

4 puan yazan xguru 2021-01-27 | 1 yorum | WhatsApp'ta paylaş

OpenAI, GPT-3, DALL·E vb. için k8s’i ölçeklendirme deneyimini paylaşıyor
Genelde tek bir cluster’ı 7500 düğüme kadar ölçeklendirmek özel yönetim gerektiriyor; ancak bunu yapmak daha basit bir altyapı yapısı sağlıyor ve kod değişikliği olmadan rahatça ölçeklenmeyi mümkün kılıyor
Uygulama/donanım yapısı sıradan şirket ortamlarından biraz farklı

→ GPU’ların NVLink/GPUDirect vb. üzerinden bir düğümün donanımını tamamen kullanması gerekiyor

→ Bu yüzden genellikle tek bir Pod tüm düğümü kaplıyor

→ Yani düğüm sayısı fazla olsa da scheduler üzerindeki yük görece düşük

→ Pod/düğüm sayısı arttığı için Native Pod Networking’e geçildi

→ Alias tabanlı IP adresleme ile 200 bin IP’nin her an kullanılabilmesi sağlandı

→ kube-prometheus’un sağladığı Grafana dashboard’ları kullanılıyor

→ HTTP 429 (Too Many Requests) ve 5xx (Server Error) durumlarını üst seviye sorun sinyali olarak uyarılamak faydalı

→ API server her zaman cluster dışında çalışıyor

1 yorum

xguru 2021-01-27

Oldukça uzun bir yazı ama bu ölçekte bir cluster kurmak gerekeceğini sanmadığım için sadece kısaca aktardım.