42 puan yazan kuroneko 2023-05-18 | 2 yorum | WhatsApp'ta paylaş
  • LLM kullanırken önemli olan sayılara dair bir derleme.
  • İsteme "kısa ve öz" ifadesini eklemek, maliyeti %40 ila %90 azaltabilir.
  • GPT-4 ile karşılaştırıldığında GPT-3.5 Turbo'nun fiyatı 50 kat daha ucuzdur.
  • Vektör arama için OpenAI embedding'lerini kullanmak, GPT-3.5 Turbo'dan 20 kat daha ucuzdur.
  • LLaMa seviyesinde bir LLM'i eğitmek yaklaşık 1 milyon dolara mal olur.
  • GPU'lara göre bellek boyutu - V100: 16GB, A10G: 24GB, A100: 40/80GB H100: 80GB
  • Genellikle model boyutunun 2 katı kadar bellek gerekir - 7B = 14GB
  • Embedding modelleri genellikle 1GB'tan az bellek kullanır
  • LLM isteklerini toplu işlemek, 10 kattan fazla hızlanma sağlayabilir.
  • 13B model, token başına yaklaşık 1MB gerektirir; bu nedenle istekler toplu işlendiğinde bellek gereksinimi önemli ölçüde artar.

2 yorum

 
xguru 2023-05-18

Kısa yazmayı epey denedim ama sanırım yazıda bahsedilen "be consise" ifadesini de bir kez eklemeyi deneyeceğim.

 
wedding 2023-05-20

let's think step by step ile birlikte kullanmayı da denemek gerekecek gibi görünüyor.