Tüm LLM geliştiricilerinin bilmesi gereken sayılar

kuroneko · 2023-05-18T10:45:09+09:00

LLM kullanırken önemli olan sayılara dair bir derleme. İsteme "kısa ve öz" ifadesini eklemek, maliyeti %40 ila %90 azaltabilir. GPT-4 ile karşılaştırıldığında GPT-3.5 Turbo'nun fiyatı 50 kat daha ucuzdur. Vektör arama için OpenAI embedding'lerini kullanmak, GPT-3.5 Turbo'dan 20 kat daha ucuzdur. LLaMa seviyesinde bir LLM'i eğitmek yaklaşık 1 milyon dolara mal olur. GPU'lara göre bellek boyutu - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB Genellikle model boyutunun 2 katı kadar bellek gerekir - 7B = 14GB Embedding modelleri genellikle 1GB'tan az bellek kullanır LLM isteklerini toplu işlemek, 10 kattan fazla hızlanma sağlayabilir. 13B model, token başına yaklaşık 1MB gerektirir; bu nedenle istekler toplu işlendiğinde bellek gereksinimi önemli ölçüde artar.

(github.com/ray-project)

42 puan yazan kuroneko 2023-05-18 | 2 yorum | WhatsApp'ta paylaş

LLM kullanırken önemli olan sayılara dair bir derleme.
İsteme "kısa ve öz" ifadesini eklemek, maliyeti %40 ila %90 azaltabilir.
GPT-4 ile karşılaştırıldığında GPT-3.5 Turbo'nun fiyatı 50 kat daha ucuzdur.
Vektör arama için OpenAI embedding'lerini kullanmak, GPT-3.5 Turbo'dan 20 kat daha ucuzdur.
LLaMa seviyesinde bir LLM'i eğitmek yaklaşık 1 milyon dolara mal olur.
GPU'lara göre bellek boyutu - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
Genellikle model boyutunun 2 katı kadar bellek gerekir - 7B = 14GB
Embedding modelleri genellikle 1GB'tan az bellek kullanır
LLM isteklerini toplu işlemek, 10 kattan fazla hızlanma sağlayabilir.
13B model, token başına yaklaşık 1MB gerektirir; bu nedenle istekler toplu işlendiğinde bellek gereksinimi önemli ölçüde artar.

2 yorum

xguru 2023-05-18

Kısa yazmayı epey denedim ama sanırım yazıda bahsedilen "be consise" ifadesini de bir kez eklemeyi deneyeceğim.

wedding 2023-05-20

let's think step by step ile birlikte kullanmayı da denemek gerekecek gibi görünüyor.

Tüm LLM geliştiricilerinin bilmesi gereken sayılar

İlgili okumalar

2 yorum