GPT-4 zaman geçtikçe kötüleşiyor

xguru · 2023-07-20T11:06:02+09:00

Birçok kişi bundan bahsetti, ancak şimdiye kadar bunlar parçalı gözlemlerle sınırlı kaldı Yakın zamanda yayımlanan bir makalede GPT-4'ün Haziran sürümü ile Mart sürümü 500 problem üzerinden nesnel olarak karşılaştırıldı Mart ayında 488 soruya doğru yanıt verirken, Haziran ayında doğru cevap sayısı yalnızca 12 oldu Yani sadece 3 ay içinde doğruluk oranı %97,6'dan %2,4'e düştü Ama burada işler daha da kötüleşiyor Chain-of-Thought tekniği kullanılarak muhakeme yaptırıldı "17077 asal mı? Think step by step." diye talimat verildiğinde, GPT-4 ara adımları üretmeden sadece "Hayır" diye yanıt verdi Kod üretimi de kötüleşti LeetCode'dan 50 kolay problemle bir veri kümesi oluşturulup çalıştırıldı Mart sürümü %52 başarı sağlarken, Haziran sürümü yalnızca %10 başarı gösterdi Bu neden oluyor? OpenAI'nin sürekli değişiklik yaptığı varsayılıyor, ancak sistemin nasıl çalıştığını ya da bunu nasıl değerlendirdiklerini bilmiyoruz Söylentilere göre, büyük bir model gibi davranması için birden fazla küçük ve uzmanlaşmış GPT-4 modelini bir arada kullanıyorlar; ancak bu yaklaşım daha düşük maliyetle çalışıyor Daha ucuz ve daha hızlı hale getirme çabası bu kalite düşüşünün nedeni olabilir mi? Bu, GPT-4'e bağımlı uygulamalar geliştiren herkes için bir tehlike işareti LLM'lerin davranışının zaman içinde değişmesi kabul edilemez Söz konusu deney herkes tarafından Google Colab üzerinde yeniden üretilebilir

(twitter.com/svpino)

17 puan yazan xguru 2023-07-20 | 6 yorum | WhatsApp'ta paylaş

Birçok kişi bundan bahsetti, ancak şimdiye kadar bunlar parçalı gözlemlerle sınırlı kaldı
Yakın zamanda yayımlanan bir makalede GPT-4'ün Haziran sürümü ile Mart sürümü 500 problem üzerinden nesnel olarak karşılaştırıldı
Mart ayında 488 soruya doğru yanıt verirken, Haziran ayında doğru cevap sayısı yalnızca 12 oldu
- Yani sadece 3 ay içinde doğruluk oranı %97,6'dan %2,4'e düştü
Ama burada işler daha da kötüleşiyor
Chain-of-Thought tekniği kullanılarak muhakeme yaptırıldı
- "17077 asal mı? Think step by step." diye talimat verildiğinde, GPT-4 ara adımları üretmeden sadece "Hayır" diye yanıt verdi
Kod üretimi de kötüleşti
- LeetCode'dan 50 kolay problemle bir veri kümesi oluşturulup çalıştırıldı
- Mart sürümü %52 başarı sağlarken, Haziran sürümü yalnızca %10 başarı gösterdi
Bu neden oluyor?
- OpenAI'nin sürekli değişiklik yaptığı varsayılıyor, ancak sistemin nasıl çalıştığını ya da bunu nasıl değerlendirdiklerini bilmiyoruz
- Söylentilere göre, büyük bir model gibi davranması için birden fazla küçük ve uzmanlaşmış GPT-4 modelini bir arada kullanıyorlar; ancak bu yaklaşım daha düşük maliyetle çalışıyor
- Daha ucuz ve daha hızlı hale getirme çabası bu kalite düşüşünün nedeni olabilir mi?
Bu, GPT-4'e bağımlı uygulamalar geliştiren herkes için bir tehlike işareti
- LLM'lerin davranışının zaman içinde değişmesi kabul edilemez
Söz konusu deney herkes tarafından Google Colab üzerinde yeniden üretilebilir

6 yorum

secret3056 2023-07-20

Ben aboneliğimi iptal ettim. Kötüye giden değişiklikleri doğrudan hissettiriyordu.

delimoni 2023-07-20

Yerli ChatGPT kullanıcı topluluğunda da bununla ilgili sürekli böyle bildirimler vardı; demek ki doğruymuş.

appcaster 2023-07-20

GPT ücretli olduktan sonra her ay kullanıyorum ve bu içeriğe katılıyorum.
Ayrıca ücretli kullanıcı olmama rağmen hâlâ 4 sürümünde 3 saatte 25 soru sınırı olması beni çok rahatsız ediyor.

wedding 2023-07-21

Bugün, özel talimatlar özelliği eklenirken sınırın da 50'ye çıkarıldığı söyleniyor.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

Son zamanlarda GPT-4'ün kalitesi belirgin şekilde düşmüş gibi geliyor; bunu yaşayan tek kişi ben miyim?

xguru 2023-07-20

İlgili makale: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4 zaman geçtikçe kötüleşiyor

İlgili okumalar

6 yorum