- GPT-4'te gözlemlenen deterministik olmama durumuna dair bir yazı; GPT-4, OpenAI tarafından geliştirilen bir dil modelidir
- GPT-4/GPT-3.5-turbo,
temp=0 ayarında tam determinizm beklenmesi gereken yoğun, yalnızca decoder tabanlı modellerde bile deterministik değildir
- Başlangıçta bu deterministik olmama durumu, olası bir bug ya da optimize edilmiş kayan nokta hesaplamalarındaki determinizm eksikliğine bağlanıyordu
- Yazarın yeni hipotezi: GPT-4'ün deterministik olmamasının büyük kısmı, Sparse Mixture of Experts (MoE) mimarisinin dizi bazında determinizmi zorunlu kılamamasından kaynaklanıyor
- Sparse MoE yaklaşımı, token'ları sabit boyutlu gruplar içinde yönlendirip grup içinde dengeyi koruyarak dizi seviyesinde deterministik olmama yaratıyor
- Yazar, bu hipotezi test etmek için GPT-4'ten bir script yazmasını istiyor ve GPT-4'ün çok sayıda benzersiz tamamlama ürettiğini gözlemleyerek, GPT-4'ü diğer modellere göre çok daha deterministik olmayan yapan bir neden bulunduğunu doğruluyor
- Yazar ayrıca GPT-3.5-turbo'nun, hızı, deterministik olmaması ve
logprobs özelliğinin kaldırılması nedeniyle bir MoE modeli de olabileceğini öne sürüyor
- Bu bulguların sonuçları önemli: Eğer deterministik olmama, Sparse MoE ile birlikte kullanılan batch inference'ın içsel bir özelliğiyse, bu durum bu modellerle çalışan herkes için açıkça belirtilmeli
- Yazar sonuç olarak, OpenAI'nin GPT modellerindeki deterministik olmama genelde deterministik olmayan CUDA optimize kayan nokta işlemlerinin isabetsizliğine atfedilse de, asıl nedenin Sparse MoE modellerindeki batch inference olabileceğini savunuyor
1 yorum
Hacker News yorumu