15 puan yazan xguru 2024-06-17 | 4 yorum | WhatsApp'ta paylaş
  • Büyük dil modellerini (LLM) doğrudan host etmenin maliyeti ne kadar?
  • Llama-3 8B-Instruct modeli EKS üzerinde host edildiğinde, 1 milyon token başına yaklaşık $17
  • Aynı işi ChatGPT ile yapmak 1 milyon token başına $1
  • Donanımı self-host etmek, 1 milyon token başına maliyeti $0.01’in altına düşürüyor ve başa baş noktasına ulaşmak yaklaşık 5.5 yıl sürüyor
    • 4x NVidia Tesla T4 GPU ve diğer donanım maliyetleri ($3800) + aylık maliyetler (elektrik ve diğerleri) $100 olarak hesaplanmış

En uygun donanımın belirlenme süreci

  • Test ortamı: Tüm testler EKS kümesinde çalıştırıldı

  • İlk deneme: Nvidia Tesla T4 GPU kullanan AWS g4dn.2xlarge instance’ı.

    • Özellikler: 1 NVidia Tesla T4, 32GB bellek, 8 vCPU.
    • Sonuç: Llama 3’ün 8B veya 70B parametreli sürümleri çalıştırılamadı.
    • Sorun: OOM (Out of Memory) oluştu ve yanıt süresi yaklaşık 10 dakika sürdü.
  • İkinci deneme: 4 adet Nvidia Tesla T4 GPU kullanan AWS g4dn.16xlarge instance’ı.

    • Özellikler: 4 NVidia Tesla T4, 192GB bellek, 48 vCPU.
    • Sonuç: Yanıt süresi 10 saniyenin altına düştü.

İlk uygulama

  • Uygulama yöntemi: Hugging Face’in Llama-3 kodu kopyalanarak kullanıldı.
  • Maliyet hesabı:
    • g5dn.12xlarge instance’ını kullanma maliyeti: saat başına $3.912.
    • Aylık maliyet hesaplandığında, 1 milyon token başına yaklaşık $167.17 maliyet oluştu.
    • ChatGPT 3.5 Turbo maliyeti: 1 milyon token başına $1.

Sorunun çözülmesi

  • Sorunun fark edilmesi: Mevcut yöntemin hatalı olduğu anlaşıldı ve vLLM kullanılmaya başlandı.
  • İyileştirme sonucu:
    • API sunucusunu host etmek için ray ve vllm kuruldu.
    • —tensor-parallel-size 4 seçeneğiyle 4 GPU’nun tamamı kullanıldı.
    • Sonuç: Yanıt süresi 2044ms’ye kadar önemli ölçüde iyileşti.
    • Maliyet hesabında, 1 milyon token başına yaklaşık $17 maliyet oluştu.

Alternatif yaklaşım

  • Kendi donanımını host etme:
    • Gerekli donanım: 4x NVidia Tesla T4 GPU, eBay’de yaklaşık $700.
    • Diğer maliyetler dahil, toplam kurulum maliyeti yaklaşık $3,800.
    • Aylık enerji maliyeti yaklaşık $50.
    • Toplam aylık maliyet yaklaşık $100 olarak hesaplandı.
    • Başa baş noktasına ulaşmak yaklaşık 66 ay (5.5 yıl) sürüyor.

Sonuç

  • Avantaj: Kendi donanımını host etmek maliyet tasarrufu sağlayabilir.
  • Dezavantaj: Donanım yönetimi ve ölçeklendirme gerekir
    • %100 kullanım varsayımı gerçekçi olmadığından, gerçek koşullara göre değerlendirme yapılması gerekir.

4 yorum

 
iolothebard 2024-06-17

Model kurmaktan da bahsetmiyoruz,
Llama 8B ile yalnızca çıkarım yapılacaksa donanım fazla abartılı.
24G GPU (3090 veya 4090) yeterli olur (2~3 milyon won), aylık elektrik faturası da yaklaşık 30 bin won olsa yeter.
Yazdıktan sonra fark ettim, aşağıda zaten varmış :)

 
wedding 2024-06-17

5,5 yıl oldukça uzun..

 
ragingwind 2024-06-17

8B, oyuncak seviye ötesinde kullanılabilir mi?

 
xguru 2024-06-17

Hacker News görüşleri

  • AWS yerine donanımı kendi kendine barındırmak maliyeti ciddi ölçüde düşürüyor.
    • 4 adet NVidia Tesla T4 kullanılırsa maliyet yaklaşık $3,800 oluyor.
    • Llama 3 8b modeli için tek bir 3090 veya 4090 GPU yeterli.
    • GPU’ları eBay’den almak maliyeti düşürebilir.
  • Llama 8B modeli, AWS Bedrock’ta 1M giriş token’ı başına $0.40 ve çıkış token’ı başına $0.60 ile OpenAI modellerinden daha ucuz.
    • Sunucu kurulumuna ve bakımına harcanan zaman ile maliyet de hesaba katılmalı.
  • Jetstream + Maxtext fiyatlandırması
    • TPU v5e ile 3 yıllık taahhütlü fiyat 1M token başına $0.25.
    • İsteğe bağlı fiyat 1M token başına yaklaşık $0.45.
    • Ayrıntılar Google Next 2024 oturumunda görülebilir.
  • NVIDIA’nın piyasa değerinde düşüş beklentisi
    • LLM performansı duraklarken ve LLM’ler ticarileşirken NVIDIA’nın piyasa değeri düşebilir.
    • Eğitim için hesaplama talebi de beklenenden daha hızlı azalacak.
  • Maliyet analizindeki sorunlar
    • Batch size 1 ile çalıştırmak maliyet analizinde büyük hatalara yol açıyor.
    • Bu, API sağlayıcılarının ücretlendirdiği maliyetten 100 ila 1000 kat daha pahalı.
  • 8B modeli çalıştırma maliyeti
    • 3090 ve temel bir sistemle 8B modeli rahatlıkla çalıştırmak mümkün.
    • OpenAI ile AWS arasındaki maliyet farkı büyük ($1 vs $17).
    • AWS gerçekte daha ucuz olabilir.
  • Maliyeti anlama konusundaki sorunlar
    • Maliyeti tekil senkron istekler üzerinden anlamaya çalışmak uygun değil.
    • ChatGPT çok sayıda isteği paralel olarak işler.
    • Daha büyük istekler, eşzamanlı istekler ve istek kuyruklama maliyeti ciddi biçimde azaltabilir.
  • LLM erişim maliyeti
    • LLM erişimi çok ucuz.
    • Teknolojideki ilerlemeye kıyasla maliyet düşük; mühendislerin buna sevinmesi gerekir.
  • T4, 6 yıllık bir kart; 3090, 4090, A10, A100 gibi kartlarla karşılaştırmak daha uygun.