- GPT-4 gibi modellerin kullandığı transformer mimarisinin ötesine geçerek, daha verimli ve paralel işleme yapacak şekilde ölçeklenebiliyor
- Transformer'lar kısa diziler için uygun olsa da, yüksek çözünürlüklü görseller, podcast'ler, kod ve kitaplar gibi 1 milyondan fazla token içeren uzun yapılara ölçeklenmeleri zor
- Megabyte, 1 milyondan uzun dizileri modelleyebilen çok ölçekli bir decoder mimarisi
- Girdi ve çıktı dizilerini tek tek token'lar yerine "Patch"lere bölüyor
- Yerel yapay zeka modeli her patch için sonuç üretirken, küresel model bu patch'leri yönetip koordine ediyor
- Test sonuçlarına göre, 1,5 milyar (1.5B) parametreli Megabyte modeli, 350 milyon (350M) parametreyle çalışan bir transformer modeline kıyasla dizileri %40 daha hızlı oluşturuyor
- Testlerde GPT-4'ün 32000 token'ını ve Claude'un 100 bin token'ını açık ara geride bırakarak 1.2M token'a kadar çıkabiliyor
2 yorum
Yapay zeka altyapısı ve araçları geliştiren bir startup olan ENCORD tarafından yazılan Megabyte tanıtım yazısı, izin alınarak aşağıda çevrilmiştir. :)
https://discuss.pytorch.kr/t/…
Metinde de var ama makale bağlantısı şu: https://arxiv.org/abs/2305.07185