1 puan yazan GN⁺ 2023-08-06 | 1 yorum | WhatsApp'ta paylaş
  • GPT-4'te gözlemlenen deterministik olmama durumuna dair bir yazı; GPT-4, OpenAI tarafından geliştirilen bir dil modelidir
  • GPT-4/GPT-3.5-turbo, temp=0 ayarında tam determinizm beklenmesi gereken yoğun, yalnızca decoder tabanlı modellerde bile deterministik değildir
  • Başlangıçta bu deterministik olmama durumu, olası bir bug ya da optimize edilmiş kayan nokta hesaplamalarındaki determinizm eksikliğine bağlanıyordu
  • Yazarın yeni hipotezi: GPT-4'ün deterministik olmamasının büyük kısmı, Sparse Mixture of Experts (MoE) mimarisinin dizi bazında determinizmi zorunlu kılamamasından kaynaklanıyor
  • Sparse MoE yaklaşımı, token'ları sabit boyutlu gruplar içinde yönlendirip grup içinde dengeyi koruyarak dizi seviyesinde deterministik olmama yaratıyor
  • Yazar, bu hipotezi test etmek için GPT-4'ten bir script yazmasını istiyor ve GPT-4'ün çok sayıda benzersiz tamamlama ürettiğini gözlemleyerek, GPT-4'ü diğer modellere göre çok daha deterministik olmayan yapan bir neden bulunduğunu doğruluyor
  • Yazar ayrıca GPT-3.5-turbo'nun, hızı, deterministik olmaması ve logprobs özelliğinin kaldırılması nedeniyle bir MoE modeli de olabileceğini öne sürüyor
  • Bu bulguların sonuçları önemli: Eğer deterministik olmama, Sparse MoE ile birlikte kullanılan batch inference'ın içsel bir özelliğiyse, bu durum bu modellerle çalışan herkes için açıkça belirtilmeli
  • Yazar sonuç olarak, OpenAI'nin GPT modellerindeki deterministik olmama genelde deterministik olmayan CUDA optimize kayan nokta işlemlerinin isabetsizliğine atfedilse de, asıl nedenin Sparse MoE modellerindeki batch inference olabileceğini savunuyor

1 yorum

 
GN⁺ 2023-08-06
Hacker News yorumu
  • GPT-4'ün belirlenimci olmaması, Sparse Mixture of Experts (MoE) modelinden kaynaklanıyor.
  • AI/ML sistemlerindeki kayan nokta hataları çoğunlukla belirlenimcidir; farklı sonuçlar durumdan ya da başka entropi kaynaklarından kaynaklanıyor olabilir.
  • Makale, GPT-4'ün verimli çıkarımının ayrı girdilerden gelen token'ları karıştırmaya dayanabileceğini öne sürüyor; bu da belirlenimci olmamayı devreye sokabilir ve yanıt kalitesini etkileyebilir.
  • Yanıt kalitesi, aynı "uzman" atamasını paylaşmak için yarışan eşzamanlı istek sayısına da bağlı olabilir.
  • Bu, zaman içindeki algılanan kalite düşüşünü açıklayabilir ve daha fazla eşzamanlı kullanımın daha az güvenilir sonuçlara yol açabileceğini gösterebilir.
  • GPT-3.5'te MoE modelinin kullanılması, daha az kaynakla daha fazlasının yapılabildiği anlamına geldiğinden açık kaynak hareketi için umut verici olabilir.
  • Eğer bir batch içindeki sequence'ler diğerlerinin yönlendirilmesini etkileyebiliyorsa, side-channel saldırıları olasılığı ortaya çıkar.
  • MoE yaklaşımı, giriş verisinin farklı bölümleri için modelin farklı "uzmanlarını" ya da parçalarını seçerek modelin çalışmasına olasısallık veya rastgelelik katar.
  • Biraz farklı bağlamlarda iki kez işlenen aynı giriş verisi, biraz farklı uzman kümelerine danışabilir ve bu nedenle biraz farklı çıktılar üretebilir.
  • Ağır yük altında sonuçlar, uzman tamponlarında kullanılabilir yerler için yarışan token'lar nedeniyle değişebilir.
  • Bu uzman tamponu rekabeti, ChatGPT'nin uzun kod istendiğinde neden fonksiyonlar yerine placeholder yazdığını da açıklayabilir.