Llama-3 8B-Instruct modelini self-host etmenin maliyeti
(blog.lytix.co)- Büyük dil modellerini (LLM) doğrudan host etmenin maliyeti ne kadar?
- Llama-3 8B-Instruct modeli EKS üzerinde host edildiğinde, 1 milyon token başına yaklaşık $17
- Aynı işi ChatGPT ile yapmak 1 milyon token başına $1
- Donanımı self-host etmek, 1 milyon token başına maliyeti $0.01’in altına düşürüyor ve başa baş noktasına ulaşmak yaklaşık 5.5 yıl sürüyor
- 4x NVidia Tesla T4 GPU ve diğer donanım maliyetleri ($3800) + aylık maliyetler (elektrik ve diğerleri) $100 olarak hesaplanmış
En uygun donanımın belirlenme süreci
-
Test ortamı: Tüm testler EKS kümesinde çalıştırıldı
-
İlk deneme: Nvidia Tesla T4 GPU kullanan AWS
g4dn.2xlargeinstance’ı.- Özellikler: 1 NVidia Tesla T4, 32GB bellek, 8 vCPU.
- Sonuç: Llama 3’ün 8B veya 70B parametreli sürümleri çalıştırılamadı.
- Sorun: OOM (Out of Memory) oluştu ve yanıt süresi yaklaşık 10 dakika sürdü.
-
İkinci deneme: 4 adet Nvidia Tesla T4 GPU kullanan AWS
g4dn.16xlargeinstance’ı.- Özellikler: 4 NVidia Tesla T4, 192GB bellek, 48 vCPU.
- Sonuç: Yanıt süresi 10 saniyenin altına düştü.
İlk uygulama
- Uygulama yöntemi: Hugging Face’in Llama-3 kodu kopyalanarak kullanıldı.
- Maliyet hesabı:
g5dn.12xlargeinstance’ını kullanma maliyeti: saat başına $3.912.- Aylık maliyet hesaplandığında, 1 milyon token başına yaklaşık $167.17 maliyet oluştu.
- ChatGPT 3.5 Turbo maliyeti: 1 milyon token başına $1.
Sorunun çözülmesi
- Sorunun fark edilmesi: Mevcut yöntemin hatalı olduğu anlaşıldı ve
vLLMkullanılmaya başlandı. - İyileştirme sonucu:
- API sunucusunu host etmek için
rayvevllmkuruldu. —tensor-parallel-size 4seçeneğiyle 4 GPU’nun tamamı kullanıldı.- Sonuç: Yanıt süresi 2044ms’ye kadar önemli ölçüde iyileşti.
- Maliyet hesabında, 1 milyon token başına yaklaşık $17 maliyet oluştu.
- API sunucusunu host etmek için
Alternatif yaklaşım
- Kendi donanımını host etme:
- Gerekli donanım: 4x NVidia Tesla T4 GPU, eBay’de yaklaşık $700.
- Diğer maliyetler dahil, toplam kurulum maliyeti yaklaşık $3,800.
- Aylık enerji maliyeti yaklaşık $50.
- Toplam aylık maliyet yaklaşık $100 olarak hesaplandı.
- Başa baş noktasına ulaşmak yaklaşık 66 ay (5.5 yıl) sürüyor.
Sonuç
- Avantaj: Kendi donanımını host etmek maliyet tasarrufu sağlayabilir.
- Dezavantaj: Donanım yönetimi ve ölçeklendirme gerekir
- %100 kullanım varsayımı gerçekçi olmadığından, gerçek koşullara göre değerlendirme yapılması gerekir.
4 yorum
Model kurmaktan da bahsetmiyoruz,
Llama 8B ile yalnızca çıkarım yapılacaksa donanım fazla abartılı.
24G GPU (3090 veya 4090) yeterli olur (2~3 milyon won), aylık elektrik faturası da yaklaşık 30 bin won olsa yeter.
Yazdıktan sonra fark ettim, aşağıda zaten varmış :)
5,5 yıl oldukça uzun..
8B, oyuncak seviye ötesinde kullanılabilir mi?
Hacker News görüşleri