Llama 2, özetlemede GPT-4 kadar doğru ve 30 kat daha ucuz

xguru · 2023-08-30T11:08:02+09:00

Özetleme, LLM'lerin en pratik uygulamalarından biri, ancak özetlerin doğru olduğuna güvenebilmek gerekiyor Maliyet veya veri erişilebilirliği sorunları nedeniyle Llama 2 gibi açık kaynaklı LLM'leri kullanmak isteniyor, ancak doğruluk konusunda güven oluşmuyor Deneyler sonucunda Llama-2-70b'nin GPT-4 kadar olgusal doğruluğa sahip olduğu ve gpt-3.5-turbo'dan çok daha üstün olduğu görüldü Anyscale Endpoint kullanılarak Llama 2 7b/13b/70b ile gpt-3.5/4 karşılaştırıldı Üçüncü taraf doğrulamadan geçmiş 373 haber cümlesi etiketlenerek her biri için bir doğru ve bir yanlış seçenek sunuldu Her LLM'den, hangi ifadenin olgulara dayanan doğru özet olduğunu seçmesi istendi İki sorun Küçük modeller yönergeleri iyi takip etmiyor. Daha büyük modeller talimatları daha iyi izliyor. Bu nedenle küçük LLM'lerin çıktısını anlamak için başka bir LLM kullanmak gerekti Sıra yanlılığı. İlk olarak ne sunulduğuna göre seçim değişiyor. Bu yüzden sıralama ters çevrilerek de kontrol edildi Sonuçlar İnsanlar: %84 (önceki araştırmaya göre) gpt-3.5-turbo: %67,0 doğru (sıra yanlılığı sorunu ciddi) gpt-4: %85,5 doğru Llama-2-7b: Çok ciddi sıra yanlılığı sorunu. Rastgele doğruluğun bile altında Llama-2-13b: %58,9 doğru Llama-2-70b: %81,7 Maliyet (100 bin kelime özetlemek için) gpt-4: $5.48 gpt-3.5-turbo: $0.25 Llama-2-7b: $0.05 Llama-2-13b: $0.09 Llama-2-70b: $0.19

(anyscale.com)

12 puan yazan xguru 2023-08-30 | 5 yorum | WhatsApp'ta paylaş

Özetleme, LLM'lerin en pratik uygulamalarından biri, ancak özetlerin doğru olduğuna güvenebilmek gerekiyor
Maliyet veya veri erişilebilirliği sorunları nedeniyle Llama 2 gibi açık kaynaklı LLM'leri kullanmak isteniyor, ancak doğruluk konusunda güven oluşmuyor
Deneyler sonucunda Llama-2-70b'nin GPT-4 kadar olgusal doğruluğa sahip olduğu ve gpt-3.5-turbo'dan çok daha üstün olduğu görüldü
Anyscale Endpoint kullanılarak Llama 2 7b/13b/70b ile gpt-3.5/4 karşılaştırıldı
- Üçüncü taraf doğrulamadan geçmiş 373 haber cümlesi etiketlenerek her biri için bir doğru ve bir yanlış seçenek sunuldu
- Her LLM'den, hangi ifadenin olgulara dayanan doğru özet olduğunu seçmesi istendi
İki sorun
- Küçük modeller yönergeleri iyi takip etmiyor. Daha büyük modeller talimatları daha iyi izliyor. Bu nedenle küçük LLM'lerin çıktısını anlamak için başka bir LLM kullanmak gerekti
- Sıra yanlılığı. İlk olarak ne sunulduğuna göre seçim değişiyor. Bu yüzden sıralama ters çevrilerek de kontrol edildi
Sonuçlar
- İnsanlar: %84 (önceki araştırmaya göre)
- gpt-3.5-turbo: %67,0 doğru (sıra yanlılığı sorunu ciddi)
- gpt-4: %85,5 doğru
- Llama-2-7b: Çok ciddi sıra yanlılığı sorunu. Rastgele doğruluğun bile altında
- Llama-2-13b: %58,9 doğru
- Llama-2-70b: %81,7
Maliyet (100 bin kelime özetlemek için)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19

5 yorum

mhj5730 2023-08-30

GPT-4 maliyetinin diğer GPT'lere kıyasla ezici derecede yüksek olduğu kesin...

xguru 2023-08-30

Pek düşünmeden kullandım derken... aylık $120 kotasını aşınca artırma talebinde bulundum.
Şu anda gerçekten pahalı olduğu kesin. Keşke fiyatı bir an önce GPT-3.5 seviyesine düşse haha

kuroneko 2023-08-30

Özet için ben her zaman Kagi'nin Universal Summarizer'ını kullanıyorum.
Bana ChatGPT'den daha pratik geliyor, bir de token sınırı yok...

Ama Korece tarafında, sonuçları sadece çeviriyor gibi olduğu için, açıkçası GPT 3.5'e kıyasla bile Korece performansı biraz geride kalıyordu.
Sadece ücretli kullanılabilen enterprise düzeyi modeller daha iyi gibi duruyor ama, galiba özet başına 1 dolardı; o yüzden kişisel kullanım için yük oluyordu.

ragingwind 2023-08-30

Görünüşe göre LLM'lerde özetleme özelliği önemli bir seçim unsuru.

xguru 2023-08-30

Sorun şu ki... bu deneyde özetleyen LLM değildi, özetlenmiş olanı değerlendiren taraftı...
Kullanınca görüyorsunuz, GPT-4'ün özet performansı gerçekten çok iyi. Korece çeviri de sorunlu.
GN⁺ maliyeti yüzünden cezbedici gelmişti ama... şimdilik galiba yine sadece gpt-4 kullanmak gerekecek.

Llama 2, özetlemede GPT-4 kadar doğru ve 30 kat daha ucuz

İlgili okumalar

5 yorum