Kubernetes’i 7500 düğüme ölçeklendirmek
(openai.com)-
OpenAI, GPT-3, DALL·E vb. için k8s’i ölçeklendirme deneyimini paylaşıyor
-
Genelde tek bir cluster’ı 7500 düğüme kadar ölçeklendirmek özel yönetim gerektiriyor; ancak bunu yapmak daha basit bir altyapı yapısı sağlıyor ve kod değişikliği olmadan rahatça ölçeklenmeyi mümkün kılıyor
-
Uygulama/donanım yapısı sıradan şirket ortamlarından biraz farklı
→ GPU’ların NVLink/GPUDirect vb. üzerinden bir düğümün donanımını tamamen kullanması gerekiyor
→ Bu yüzden genellikle tek bir Pod tüm düğümü kaplıyor
→ Yani düğüm sayısı fazla olsa da scheduler üzerindeki yük görece düşük
- Ağ yapısı
→ Pod/düğüm sayısı arttığı için Native Pod Networking’e geçildi
→ Alias tabanlı IP adresleme ile 200 bin IP’nin her an kullanılabilmesi sağlandı
- API Server
→ kube-prometheus’un sağladığı Grafana dashboard’ları kullanılıyor
→ HTTP 429 (Too Many Requests) ve 5xx (Server Error) durumlarını üst seviye sorun sinyali olarak uyarılamak faydalı
→ API server her zaman cluster dışında çalışıyor
1 yorum
Oldukça uzun bir yazı ama bu ölçekte bir cluster kurmak gerekeceğini sanmadığım için sadece kısaca aktardım.