14 puan yazan xguru 2023-05-26 | 2 yorum | WhatsApp'ta paylaş
  • GPT-4 gibi modellerin kullandığı transformer mimarisinin ötesine geçerek, daha verimli ve paralel işleme yapacak şekilde ölçeklenebiliyor
  • Transformer'lar kısa diziler için uygun olsa da, yüksek çözünürlüklü görseller, podcast'ler, kod ve kitaplar gibi 1 milyondan fazla token içeren uzun yapılara ölçeklenmeleri zor
  • Megabyte, 1 milyondan uzun dizileri modelleyebilen çok ölçekli bir decoder mimarisi
    • Girdi ve çıktı dizilerini tek tek token'lar yerine "Patch"lere bölüyor
    • Yerel yapay zeka modeli her patch için sonuç üretirken, küresel model bu patch'leri yönetip koordine ediyor
  • Test sonuçlarına göre, 1,5 milyar (1.5B) parametreli Megabyte modeli, 350 milyon (350M) parametreyle çalışan bir transformer modeline kıyasla dizileri %40 daha hızlı oluşturuyor
  • Testlerde GPT-4'ün 32000 token'ını ve Claude'un 100 bin token'ını açık ara geride bırakarak 1.2M token'a kadar çıkabiliyor

2 yorum

 
ninebow 2023-05-27

Yapay zeka altyapısı ve araçları geliştiren bir startup olan ENCORD tarafından yazılan Megabyte tanıtım yazısı, izin alınarak aşağıda çevrilmiştir. :)

https://discuss.pytorch.kr/t/…

 
cosine20 2023-05-27

Metinde de var ama makale bağlantısı şu: https://arxiv.org/abs/2305.07185