- Birçok kişi bundan bahsetti, ancak şimdiye kadar bunlar parçalı gözlemlerle sınırlı kaldı
- Yakın zamanda yayımlanan bir makalede GPT-4'ün Haziran sürümü ile Mart sürümü 500 problem üzerinden nesnel olarak karşılaştırıldı
- Mart ayında 488 soruya doğru yanıt verirken, Haziran ayında doğru cevap sayısı yalnızca 12 oldu
- Yani sadece 3 ay içinde doğruluk oranı %97,6'dan %2,4'e düştü
- Ama burada işler daha da kötüleşiyor
- Chain-of-Thought tekniği kullanılarak muhakeme yaptırıldı
"17077 asal mı? Think step by step." diye talimat verildiğinde, GPT-4 ara adımları üretmeden sadece "Hayır" diye yanıt verdi
- Kod üretimi de kötüleşti
- LeetCode'dan 50 kolay problemle bir veri kümesi oluşturulup çalıştırıldı
- Mart sürümü %52 başarı sağlarken, Haziran sürümü yalnızca %10 başarı gösterdi
- Bu neden oluyor?
- OpenAI'nin sürekli değişiklik yaptığı varsayılıyor, ancak sistemin nasıl çalıştığını ya da bunu nasıl değerlendirdiklerini bilmiyoruz
- Söylentilere göre, büyük bir model gibi davranması için birden fazla küçük ve uzmanlaşmış GPT-4 modelini bir arada kullanıyorlar; ancak bu yaklaşım daha düşük maliyetle çalışıyor
- Daha ucuz ve daha hızlı hale getirme çabası bu kalite düşüşünün nedeni olabilir mi?
- Bu, GPT-4'e bağımlı uygulamalar geliştiren herkes için bir tehlike işareti
- LLM'lerin davranışının zaman içinde değişmesi kabul edilemez
- Söz konusu deney herkes tarafından Google Colab üzerinde yeniden üretilebilir
6 yorum
Ben aboneliğimi iptal ettim. Kötüye giden değişiklikleri doğrudan hissettiriyordu.
Yerli ChatGPT kullanıcı topluluğunda da bununla ilgili sürekli böyle bildirimler vardı; demek ki doğruymuş.
GPT ücretli olduktan sonra her ay kullanıyorum ve bu içeriğe katılıyorum.
Ayrıca ücretli kullanıcı olmama rağmen hâlâ 4 sürümünde 3 saatte 25 soru sınırı olması beni çok rahatsız ediyor.
Bugün, özel talimatlar özelliği eklenirken sınırın da 50'ye çıkarıldığı söyleniyor.
https://openai.com/blog/custom-instructions-for-chatgpt
Son zamanlarda GPT-4'ün kalitesi belirgin şekilde düşmüş gibi geliyor; bunu yaşayan tek kişi ben miyim?
İlgili makale: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?