Llama-3 8B-Instruct modelini self-host etmenin maliyeti

xguru · 2024-06-17T10:08:01+09:00

Büyük dil modellerini (LLM) doğrudan host etmenin maliyeti ne kadar? Llama-3 8B-Instruct modeli EKS üzerinde host edildiğinde, 1 milyon token başına yaklaşık $17 Aynı işi ChatGPT ile yapmak 1 milyon token başına $1 Donanımı self-host etmek, 1 milyon token başına maliyeti $0.01’in altına düşürüyor ve başa baş noktasına ulaşmak yaklaşık 5.5 yıl sürüyor 4x NVidia Tesla T4 GPU ve diğer donanım maliyetleri ($3800) + aylık maliyetler (elektrik ve diğerleri) $100 olarak hesaplanmış En uygun donanımın belirlenme süreci Test ortamı: Tüm testler EKS kümesinde çalıştırıldı İlk deneme: Nvidia Tesla T4 GPU kullanan AWS g4dn.2xlarge instance’ı. Özellikler: 1 NVidia Tesla T4, 32GB bellek, 8 vCPU. Sonuç: Llama 3’ün 8B veya 70B parametreli sürümleri çalıştırılamadı. Sorun: OOM (Out of Memory) oluştu ve yanıt süresi yaklaşık 10 dakika sürdü. İkinci deneme: 4 adet Nvidia Tesla T4 GPU kullanan AWS g4dn.16xlarge instance’ı. Özellikler: 4 NVidia Tesla T4, 192GB bellek, 48 vCPU. Sonuç: Yanıt süresi 10 saniyenin altına düştü. İlk uygulama Uygulama yöntemi: Hugging Face’in Llama-3 kodu kopyalanarak kullanıldı. Maliyet hesabı: g5dn.12xlarge instance’ını kullanma maliyeti: saat başına $3.912. Aylık maliyet hesaplandığında, 1 milyon token başına yaklaşık $167.17 maliyet oluştu. ChatGPT 3.5 Turbo maliyeti: 1 milyon token başına $1. Sorunun çözülmesi Sorunun fark edilmesi: Mevcut yöntemin hatalı olduğu anlaşıldı ve vLLM kullanılmaya başlandı. İyileştirme sonucu: API sunucusunu host etmek için ray ve vllm kuruldu. —tensor-parallel-size 4 seçeneğiyle 4 GPU’nun tamamı kullanıldı. Sonuç: Yanıt süresi 2044ms’ye kadar önemli ölçüde iyileşti. Maliyet hesabında, 1 milyon token başına yaklaşık $17 maliyet oluştu. Alternatif yaklaşım Kendi donanımını host etme: Gerekli donanım: 4x NVidia Tesla T4 GPU, eBay’de yaklaşık $700. Diğer maliyetler dahil, toplam kurulum maliyeti yaklaşık $3,800. Aylık enerji maliyeti yaklaşık $50. Toplam aylık maliyet yaklaşık $100 olarak hesaplandı. Başa baş noktasına ulaşmak yaklaşık 66 ay (5.5 yıl) sürüyor. Sonuç Avantaj: Kendi donanımını host etmek maliyet tasarrufu sağlayabilir. Dezavantaj: Donanım yönetimi ve ölçeklendirme gerekir %100 kullanım varsayımı gerçekçi olmadığından, gerçek koşullara göre değerlendirme yapılması gerekir.

(blog.lytix.co)

15 puan yazan xguru 2024-06-17 | 4 yorum | WhatsApp'ta paylaş

Büyük dil modellerini (LLM) doğrudan host etmenin maliyeti ne kadar?
Llama-3 8B-Instruct modeli EKS üzerinde host edildiğinde, 1 milyon token başına yaklaşık $17
Aynı işi ChatGPT ile yapmak 1 milyon token başına $1
Donanımı self-host etmek, 1 milyon token başına maliyeti $0.01’in altına düşürüyor ve başa baş noktasına ulaşmak yaklaşık 5.5 yıl sürüyor
- 4x NVidia Tesla T4 GPU ve diğer donanım maliyetleri ($3800) + aylık maliyetler (elektrik ve diğerleri) $100 olarak hesaplanmış

En uygun donanımın belirlenme süreci

Test ortamı: Tüm testler EKS kümesinde çalıştırıldı
İlk deneme: Nvidia Tesla T4 GPU kullanan AWS g4dn.2xlarge instance’ı.
- Özellikler: 1 NVidia Tesla T4, 32GB bellek, 8 vCPU.
- Sonuç: Llama 3’ün 8B veya 70B parametreli sürümleri çalıştırılamadı.
- Sorun: OOM (Out of Memory) oluştu ve yanıt süresi yaklaşık 10 dakika sürdü.
İkinci deneme: 4 adet Nvidia Tesla T4 GPU kullanan AWS g4dn.16xlarge instance’ı.
- Özellikler: 4 NVidia Tesla T4, 192GB bellek, 48 vCPU.
- Sonuç: Yanıt süresi 10 saniyenin altına düştü.

İlk uygulama

Uygulama yöntemi: Hugging Face’in Llama-3 kodu kopyalanarak kullanıldı.
Maliyet hesabı:
- g5dn.12xlarge instance’ını kullanma maliyeti: saat başına $3.912.
- Aylık maliyet hesaplandığında, 1 milyon token başına yaklaşık $167.17 maliyet oluştu.
- ChatGPT 3.5 Turbo maliyeti: 1 milyon token başına $1.

Sorunun çözülmesi

Sorunun fark edilmesi: Mevcut yöntemin hatalı olduğu anlaşıldı ve vLLM kullanılmaya başlandı.
İyileştirme sonucu:
- API sunucusunu host etmek için ray ve vllm kuruldu.
- —tensor-parallel-size 4 seçeneğiyle 4 GPU’nun tamamı kullanıldı.
- Sonuç: Yanıt süresi 2044ms’ye kadar önemli ölçüde iyileşti.
- Maliyet hesabında, 1 milyon token başına yaklaşık $17 maliyet oluştu.

Alternatif yaklaşım

Kendi donanımını host etme:
- Gerekli donanım: 4x NVidia Tesla T4 GPU, eBay’de yaklaşık $700.
- Diğer maliyetler dahil, toplam kurulum maliyeti yaklaşık $3,800.
- Aylık enerji maliyeti yaklaşık $50.
- Toplam aylık maliyet yaklaşık $100 olarak hesaplandı.
- Başa baş noktasına ulaşmak yaklaşık 66 ay (5.5 yıl) sürüyor.

Sonuç

Avantaj: Kendi donanımını host etmek maliyet tasarrufu sağlayabilir.
Dezavantaj: Donanım yönetimi ve ölçeklendirme gerekir
- %100 kullanım varsayımı gerçekçi olmadığından, gerçek koşullara göre değerlendirme yapılması gerekir.

4 yorum

iolothebard 2024-06-17

Model kurmaktan da bahsetmiyoruz,
Llama 8B ile yalnızca çıkarım yapılacaksa donanım fazla abartılı.
24G GPU (3090 veya 4090) yeterli olur (2~3 milyon won), aylık elektrik faturası da yaklaşık 30 bin won olsa yeter.
Yazdıktan sonra fark ettim, aşağıda zaten varmış :)

wedding 2024-06-17

5,5 yıl oldukça uzun..

ragingwind 2024-06-17

8B, oyuncak seviye ötesinde kullanılabilir mi?

xguru 2024-06-17

Hacker News görüşleri

AWS yerine donanımı kendi kendine barındırmak maliyeti ciddi ölçüde düşürüyor.
- 4 adet NVidia Tesla T4 kullanılırsa maliyet yaklaşık $3,800 oluyor.
- Llama 3 8b modeli için tek bir 3090 veya 4090 GPU yeterli.
- GPU’ları eBay’den almak maliyeti düşürebilir.
Llama 8B modeli, AWS Bedrock’ta 1M giriş token’ı başına $0.40 ve çıkış token’ı başına $0.60 ile OpenAI modellerinden daha ucuz.
- Sunucu kurulumuna ve bakımına harcanan zaman ile maliyet de hesaba katılmalı.
Jetstream + Maxtext fiyatlandırması
- TPU v5e ile 3 yıllık taahhütlü fiyat 1M token başına $0.25.
- İsteğe bağlı fiyat 1M token başına yaklaşık $0.45.
- Ayrıntılar Google Next 2024 oturumunda görülebilir.
NVIDIA’nın piyasa değerinde düşüş beklentisi
- LLM performansı duraklarken ve LLM’ler ticarileşirken NVIDIA’nın piyasa değeri düşebilir.
- Eğitim için hesaplama talebi de beklenenden daha hızlı azalacak.
Maliyet analizindeki sorunlar
- Batch size 1 ile çalıştırmak maliyet analizinde büyük hatalara yol açıyor.
- Bu, API sağlayıcılarının ücretlendirdiği maliyetten 100 ila 1000 kat daha pahalı.
8B modeli çalıştırma maliyeti
- 3090 ve temel bir sistemle 8B modeli rahatlıkla çalıştırmak mümkün.
- OpenAI ile AWS arasındaki maliyet farkı büyük ($1 vs $17).
- AWS gerçekte daha ucuz olabilir.
Maliyeti anlama konusundaki sorunlar
- Maliyeti tekil senkron istekler üzerinden anlamaya çalışmak uygun değil.
- ChatGPT çok sayıda isteği paralel olarak işler.
- Daha büyük istekler, eşzamanlı istekler ve istek kuyruklama maliyeti ciddi biçimde azaltabilir.
LLM erişim maliyeti
- LLM erişimi çok ucuz.
- Teknolojideki ilerlemeye kıyasla maliyet düşük; mühendislerin buna sevinmesi gerekir.
T4, 6 yıllık bir kart; 3090, 4090, A10, A100 gibi kartlarla karşılaştırmak daha uygun.