Doğrudan fine-tune edilmiş Llama 2 ile GPT-3.5/4'ün yerini almak

(news.ycombinator.com)

3 puan yazan GN⁺ 2023-09-13 | 1 yorum | WhatsApp'ta paylaş

Tarif sınıflandırma örneğinde Llama 2 7B fine-tune edildiğinde, test setinde GPT-4 etiketleriyle %95 uyumlu sonuç elde ediliyor
Fine-tuning, istenen çalışma biçimini giriş/çıkış örnekleri üzerinden model ağırlıklarına öğretme yöntemi; 50 örnekle de mümkün olsa da genelde 1.000'den fazlası hedefleniyor
Prompt'lar hızlı yinelemeli iyileştirme ve tek bir büyük modeli işletme açısından avantajlı, ancak fine-tuning küçük modelleri bile belirli görevlere güçlü biçimde uyarlayabiliyor
Fine-tune edilmiş Llama 7B, token başına maliyette GPT-3.5'ten 50 kat daha ucuz; bu nedenle yeterince dar görevlerde maliyet/performans ciddi biçimde iyileşebiliyor
2 milyon tarifi sınıflandırma maliyeti GPT-4 için 23 bin dolar, GPT-3.5 için 1.000 doların üzerindeyken, bu fine-tune model tüm veri setini 19 dolara işliyor

Fine-tuning'in prompt'lardan ayrıldığı nokta

Hacker News'te açık LLM fine-tuning'ine ilgi artarken, tarif sınıflandırma örneği için bir not defteri seti yayımlandı
- Not defterleri OpenPipe örneklerinde yer alıyor ve veri etiketleme, fine-tuning, verimli inference çalıştırma ile maliyet/performans değerlendirmesini kapsıyor
Fine-tuning, prompt'lardan daha güçlü bir yönlendirme biçimi olarak görülebilir
- Her seferinde prompt'a metin talimatı koymak yerine, örnek giriş/çıkış çiftleriyle çalışma biçimi modelin kendisine öğretilir
- 50 örnekle de çalışabilir, ancak mümkünse 1.000'den fazla örnek toplamayı tercih ediyorlar
Prompt'lar operasyon ve deneylerde hâlâ önemli avantajlara sahip
- Etiketleme ve yeniden eğitim olmadan talimatları daha kolay ve hızlı biçimde yinelemeli olarak iyileştirebilirsiniz
- Birden çok küçük fine-tune modeli dağıtmaktansa, tek bir büyük modeli dağıtıp yalnızca davranışını ayarlamak operasyon açısından daha basittir
- Küçük fine-tune modellerin her birinin kullanım oranı düşük kalabilir

Maliyet/performans örneği ve OpenPipe

Fine-tuning'in en büyük faydası, model davranışını daha etkili yönlendirerek küçük modellerin kullanılabilmesini sağlamasıdır
- Küçük modeller yanıt hızını artırabilir ve inference maliyetini düşürebilir
- Fine-tune edilmiş Llama 7B modeli, token başına maliyette GPT-3.5'ten 50 kat daha ucuzdur
Tarif sınıflandırma örneği, all-recipes veri setindeki 2 milyon tarif üzerinde maliyet karşılaştırması yapıyor
- GPT-4 ile sınıflandırma 23 bin dolara mal oluyor
- GPT-3.5 ile bile maliyet 1.000 doların üzerine çıkıyor
- Fine-tune edilmiş model, GPT-4'e benzer performans verirken tüm veri setini 19 dolara işliyor
Test setinde eğitilen 7B model, GPT-4 etiketleriyle %95 uyum gösteriyor
- Uyuşmayan %5'lik örneklerde doğru cevap çoğu zaman gerçekten belirsiz
OpenPipe, mühendislerin fine-tuning'i daha kolay benimsemesine yardımcı olan açık kaynaklı bir ürün
- Proje OpenPipe GitHub deposunda açık olarak bulunuyor
- Sunulan fine-tuning bilgilerinin kendisi OpenPipe ürününe bağımlı değil

1 yorum

GN⁺ 2023-09-13

Hacker News görüşleri

GPT-3.5/4’e alternatif olarak Llama 2 model ince ayarı kullanımına dair bir yazı
Bazı kullanıcılar çeviri işlerinde GPT-3.5’in Llama 2’den 100 kat daha ucuz olduğunu gördü; Llama 7B ise kötü çeviriler üretiyor
OpenAI’nin GPT-3.5 için agresif fiyatlandırma stratejisinin, diğer sağlayıcılar yerine kendi modellerine bağımlılığı teşvik etmeyi amaçladığı tahmin ediliyor
GPT ve diğer LLM’lerin çıktılarının şirket içi ikame modeller eğitmek için kullanılma olasılığı tartışılıyor; bunun üretim ölçeğinde normal API kullananlar için maliyet açısından verimli bir çözüm olabileceği belirtiliyor
İnce ayarlı Llama 7B modelinin GPT-3.5’ten 50 kat daha ucuz olduğu iddiası sorgulanıyor; bazı kullanıcılar bunun ancak self-hosting ile mümkün olabileceğini öne sürüyor
İnce ayarın etkililiğine kıyasla low-rank adaptation hakkında soru işaretleri dile getiriliyor
Bazı kullanıcılar, ince ayarlı Llama modelleri ile GPT-3.5 arasındaki karşılaştırmanın yanıltıcı olduğunu; uygun çıkarım gecikmesi ve ölçeklenebilirlik sorunlarını gerekçe göstererek savunuyor
İnce ayarlı Llama 2 modelinin kalitesi mutlaka ChatGPT’den üstün değil; ince ayar yüksek kaliteli veri setleri gerektiriyor ve bunları oluşturmak kolay değil
GPT function calling’in tutarlılığı ve hata oranı hakkında soru işaretleri var
Kullanıcılar kendi modellerini ince ayar yapmak için en iyi açık kaynak LLM’nin hangisi olduğunu merak ediyor
İnce ayar veri setinin girdi/çıktı çiftlerinden mi oluşması gerektiği, yoksa otoregresif de olup olamayacağı konusunda açıklık isteniyor
Kullanıcılar bu modellerin nasıl ince ayarlandığını öğrenebilecekleri kaynaklarla, özellikle yeni başlayanlara yönelik olanlarla ilgileniyor
Bu yazı, ML/LLM alanına yeni başlayanlar için değerli bir kaynak olarak görülüyor.

Doğrudan fine-tune edilmiş Llama 2 ile GPT-3.5/4'ün yerini almak

Fine-tuning'in prompt'lardan ayrıldığı nokta

Maliyet/performans örneği ve OpenPipe

İlgili okumalar

1 yorum

Hacker News görüşleri