29 puan yazan vkehfdl1 2023-08-08 | 7 yorum | WhatsApp'ta paylaş
  • Daha önce 3. seviye (86 puan, üst %22) olan GPT-4’ün CSAT Korece performansı, CoT tabanlı prompt engineering ile 2. seviyeye (94 puan, üst %5) yükseltildi.
  • Belirli dil bilgisi soru türlerine özelleştirilmiş promptlar kullanılarak en fazla 1. seviye (96 puan, üst %4) elde edildi.
  • Promptların tamamı, kaynak kodu ve kullanılan CSAT Korece veri seti GitHub üzerinde açık kaynak olarak paylaşıldı.
  • LLM’lerin Korece performansının hâlâ yetersiz olduğu yönündeki algıya rağmen, GPT-4’ün zaten en üst düzeyde dilsel yeteneğe ulaştığını gösteren bir örnek.

Merhaba. CoT promptlarını doğrudan kullanarak GPT-4’ün CSAT Korece sorularını son derece iyi çözmesini sağlamayı denedim.

Henüz üst %5’in üzerine çıkıp 100 puana ulaşan bir prompt bulamadım; ayrıca API maliyeti nedeniyle yalnızca 2023 CSAT üzerinde test yapabildim. Bu yüzden topluluğun desteğini almak için bunu açık kaynak olarak paylaşıyorum. Umarım birçok kişi paylaşılan kaynak koduyla özgürce yeni promptları test eder ve daha gelişmiş prompt teknikleri bulabilir!

7 yorum

 
wedding 2023-08-09

İlginç bir proje gibi görünüyor~

 
kuber 2023-08-08

Buna 5 şıklı seçenekler arasından birini seçme problemi olarak değil de, her bir seçeneği True / False olarak gören bir sınıflandırma problemi şeklinde yaklaşmak nasıl olur?

CoT ile her bir şıkkın doğru mu yanlış mı olduğuna bağımsız olarak karar verdirdikten sonra, 5 düşünce gerekçesine bakıp en sonda nihai kararı veren şekilde Agent'lar kurgulanırsa, daha düşük seviyeli modellerle bile daha yüksek kaliteli sonuçlar görmek mümkün olabilir.

Şu an kurduğunuz yöntemde değerlendirme 1. şıktan başladığı için, sonraki şıkları değerlendirirken önceki şıklara dair ön yargı da eklenmiş oluyor. GPT-4'ün etkileyici olmasının nedenlerinden biri, model yeterince büyüdükçe bu tür ön yargıların etkisinin iyi bastırılması; ama bunun da paragraf uzadıkça etkisinin azaldığını bir makalede görmüş gibiyim.
(Hakem değerlendirmesinden geçmemiş bir arXiv makalesiydi ama... yine de oldukça makul görünüyordu.)

Tabii API maliyeti 6 katına çıkacaktır ama kişisel görüşüme göre, prompting iyi yapılırsa üniversiteye giriş sınavının Türkçe bölümü seviyesinde sorular için GPT-3.5 bile yeterli olabilir.

 
vkehfdl1 2023-08-09

Dediğiniz gibi, beş seçeneği bağımsız olarak değerlendirince bazen iki ya da daha fazla doğru cevap çıkması veya hiç doğru cevap çıkmaması gibi durumlar da ortaya çıkıyor. O zaman her bir doğru cevap ve çözümü yeniden görüp karar veren ek bir prompt daha eklemek gerekiyor. Ya da beş şıkkın her biri için promptu birkaç kez deneyip en çok doğru cevap olarak seçilen şıkkı cevap kabul etme yöntemi de olabilir ama dediğiniz gibi API maliyeti giderek kartopu gibi büyür sanırım;; Zaten mevcut promptla bile bir kez CSAT denemesine girmek 4~5 dolara mal oluyor T_T

 
kuber 2023-08-09

Maliyet azaltmayı da düşünmek gereken mühendislik dünyasına adım atmanıza hoş geldiniz haha

 
dohyun682 2023-08-08

Adı Değerlendirme Kurumu Slayer olmuş resmen haha

 
kuroneko 2023-08-08

Vay, çok ilginç.

Step by step sonrasında prompt engineering'in inanılmaz derecede geliştiğini hissediyorum.
(Ve GPT-4 seviyesinde Korece yeteneğine sahip açık kaynak bir LLM çıkabilir mi acaba....)

 
vkehfdl1 2023-08-09

Korece açık kaynak LLM'ler hâlâ GPT-3.5'in bile çok gerisinde T_T umarım açık kaynak LLM'ler mutlaka GPT-4 seviyesine ulaşır.