- Özetleme, LLM'lerin en pratik uygulamalarından biri, ancak özetlerin doğru olduğuna güvenebilmek gerekiyor
- Maliyet veya veri erişilebilirliği sorunları nedeniyle Llama 2 gibi açık kaynaklı LLM'leri kullanmak isteniyor, ancak doğruluk konusunda güven oluşmuyor
- Deneyler sonucunda Llama-2-70b'nin GPT-4 kadar olgusal doğruluğa sahip olduğu ve gpt-3.5-turbo'dan çok daha üstün olduğu görüldü
- Anyscale Endpoint kullanılarak Llama 2 7b/13b/70b ile gpt-3.5/4 karşılaştırıldı
- Üçüncü taraf doğrulamadan geçmiş 373 haber cümlesi etiketlenerek her biri için bir doğru ve bir yanlış seçenek sunuldu
- Her LLM'den, hangi ifadenin olgulara dayanan doğru özet olduğunu seçmesi istendi
- İki sorun
- Küçük modeller yönergeleri iyi takip etmiyor. Daha büyük modeller talimatları daha iyi izliyor. Bu nedenle küçük LLM'lerin çıktısını anlamak için başka bir LLM kullanmak gerekti
- Sıra yanlılığı. İlk olarak ne sunulduğuna göre seçim değişiyor. Bu yüzden sıralama ters çevrilerek de kontrol edildi
- Sonuçlar
- İnsanlar: %84 (önceki araştırmaya göre)
- gpt-3.5-turbo: %67,0 doğru (sıra yanlılığı sorunu ciddi)
- gpt-4: %85,5 doğru
- Llama-2-7b: Çok ciddi sıra yanlılığı sorunu. Rastgele doğruluğun bile altında
- Llama-2-13b: %58,9 doğru
- Llama-2-70b: %81,7
- Maliyet (100 bin kelime özetlemek için)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19
5 yorum
GPT-4 maliyetinin diğer GPT'lere kıyasla ezici derecede yüksek olduğu kesin...
Pek düşünmeden kullandım derken... aylık $120 kotasını aşınca artırma talebinde bulundum.
Şu anda gerçekten pahalı olduğu kesin. Keşke fiyatı bir an önce GPT-3.5 seviyesine düşse haha
Özet için ben her zaman Kagi'nin Universal Summarizer'ını kullanıyorum.
Bana ChatGPT'den daha pratik geliyor, bir de token sınırı yok...
Ama Korece tarafında, sonuçları sadece çeviriyor gibi olduğu için, açıkçası GPT 3.5'e kıyasla bile Korece performansı biraz geride kalıyordu.
Sadece ücretli kullanılabilen enterprise düzeyi modeller daha iyi gibi duruyor ama, galiba özet başına 1 dolardı; o yüzden kişisel kullanım için yük oluyordu.
Görünüşe göre LLM'lerde özetleme özelliği önemli bir seçim unsuru.
Sorun şu ki... bu deneyde özetleyen LLM değildi, özetlenmiş olanı değerlendiren taraftı...
Kullanınca görüyorsunuz, GPT-4'ün özet performansı gerçekten çok iyi. Korece çeviri de sorunlu.
GN⁺ maliyeti yüzünden cezbedici gelmişti ama... şimdilik galiba yine sadece gpt-4 kullanmak gerekecek.