Show HN: %80 daha hızlı, %50 daha az bellek kullanımı ve %0 doğruluk kaybıyla Llama fine-tuning
(github.com/unslothai)QLoRA model ince ayarının verimliliğini artırma
- QLoRA/LoRA modelleri, elle türetilmiş geri yayılım adımları sayesinde %80 daha yüksek hız ve %50 daha düşük bellek kullanımı sağlar.
- OpenAI'nin Triton diliyle yazılmış tüm çekirdekler, doğruluk kaybı olmadan optimize edilmiştir.
- Donanım değişikliği olmadan NVIDIA GPU'larda (2018 sonrası modeller, CUDA 7.5+ desteği) kullanılabilir.
- Flash Attention desteği ile 4 bit ve 16 bit LoRA fine-tuning desteği sayesinde verimli model eğitimi mümkündür.
- Slim Orca modeli, yerel ortamda 1301 saatten 260 saate büyük ölçüde düşürülen sürede eğitilebilir.
- Açık kaynak sürüm 5 kat daha hızlı eğitim sunarken, Unsloth Pro ve Max kod yolları 30 kata kadar daha hızlı eğitim sağlar.
Kurulum talimatları
- Unsloth yalnızca Linux dağıtımlarında ve Pytorch 2.1 ve üzeri sürümlerde desteklenir.
- Conda ve Pip ile kurulabilir; CUDA sürümüne göre uygun paket seçilerek kurulum yapılır.
Alpaca model örneği
FastLlamaModelkullanılarak Llama modeli yüklenir ve 4 bit kuantizasyon ile bellek kullanımı azaltılır.- Model yaması ve hızlı LoRA ağırlıkları eklenerek performans artırılır.
- Huggingface'in Trainer'ı ve veri kümesi yükleme araçları kullanılarak model eğitimi yapılabilir.
Gelecek hedefleri ve sınırlamalar
- Bellek kullanımını ek olarak %25 azaltabilecek sqrt gradient checkpointing desteği planlanıyor.
- Şu anda yalnızca Llama modelleri destekleniyor, ancak gelecekte diğer modellerin de desteklenmesi planlanıyor.
Performans karşılaştırması
- Tesla T4 GPU kullanıldığında, Unsloth Huggingface'e kıyasla çok daha hızlı epoch süreleri ve daha düşük bellek kullanımı gösterir.
- Hem tek GPU'lu hem de çok GPU'lu sistemlerde Unsloth'un Pro ve Max sürümleri daha yüksek performans sunar.
Sorun giderme
bitsandbytesveyaxformersdüzgün bağlanmadığında çözüm yöntemleri sunulur.- Windows şu anda desteklenmiyor; Xformers ve Triton Windows'u resmen desteklediğinde Unsloth da destekleyecek.
- Kurulumda sorun yaşanırsa,
pipi güncellemek çözüm olabilir.
GN⁺ görüşü
Bu yazıdaki en önemli nokta, QLoRA/LoRA model ince ayarının mevcut yöntemlere göre çok daha hızlı ve bellek açısından çok daha verimli olmasıdır. Bu tür optimizasyonlar yapay zeka modellerinin eğitim süresini ve maliyetini büyük ölçüde azaltır; bu da onları başlangıç seviyesindeki yazılım mühendisleri için bile cazip bir çözüm haline getirebilir. Ayrıca bu yazı, açık kaynak teknolojilerinin gelişimine ve bunun teknolojiye erişilebilirliği nasıl artırdığına dair ilgi çekici bir örnek sunuyor.
Henüz yorum yok.