- LLM kullanırken önemli olan sayılara dair bir derleme.
- İsteme "kısa ve öz" ifadesini eklemek, maliyeti %40 ila %90 azaltabilir.
- GPT-4 ile karşılaştırıldığında GPT-3.5 Turbo'nun fiyatı 50 kat daha ucuzdur.
- Vektör arama için OpenAI embedding'lerini kullanmak, GPT-3.5 Turbo'dan 20 kat daha ucuzdur.
- LLaMa seviyesinde bir LLM'i eğitmek yaklaşık 1 milyon dolara mal olur.
- GPU'lara göre bellek boyutu - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
- Genellikle model boyutunun 2 katı kadar bellek gerekir - 7B = 14GB
- Embedding modelleri genellikle 1GB'tan az bellek kullanır
- LLM isteklerini toplu işlemek, 10 kattan fazla hızlanma sağlayabilir.
- 13B model, token başına yaklaşık 1MB gerektirir; bu nedenle istekler toplu işlendiğinde bellek gereksinimi önemli ölçüde artar.
2 yorum
Kısa yazmayı epey denedim ama sanırım yazıda bahsedilen "be consise" ifadesini de bir kez eklemeyi deneyeceğim.
let's think step by stepile birlikte kullanmayı da denemek gerekecek gibi görünüyor.