GPT-3 artık piyasadaki tek oyuncu değil
(lastweekin.ai)-
GPT-3'ün yapay zeka pazarında büyük bir etki yarattığı doğru: "text-in text-out" konusunda güçlü, aşırı büyük bir yapay zeka modeli
-
Ücretli olduğu için birçok kuruluş kendi GPT-3 benzeri model sürümünü geliştirmeye başladı
→ gereken hesaplama gücü nedeniyle bu kolay değil. 175B parametreli OpenAI modeli için Microsoft ile iş birliği yapılarak 10 bin GPU ve 45 terabayt metin verisi kullanıldı
→ hesaplandığında GPT-3'ü eğitmenin maliyeti yaklaşık 10-20 milyar won seviyesinde
- Çeşitli girişimler ortaya çıkıyor
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- Şaşırtıcı biçimde, GPT-3'e benzer bir şey üretmeye yönelik ilk çaba, açık kaynak katılımcılarının oluşturduğu "EleutherAI" oldu
→ GPT-3'e benzer bir veri kümesi olan "The Pile" yayımlandı
→ ardından GPT-Neo 1.3B, 2.7B gibi küçük sürümlerden başlayıp yakın zamanda 6B parametreli GPT-J-6B yayımlandı
- GPT-3'ün duyurulmasından 6 ay sonra, Çin Tsinghua Üniversitesi araştırmacıları ile BAAI (Pekin Yapay Zeka Akademisi) birlikte CPM (Chinese Pre-trained Language Model)'i yayımladı
→ 100GB Çince metinden 2.6B parametreli bir model üretildi. GPT-3 seviyesine ulaşmasa da, Çince metinle yapılmış olması açısından dikkat çekici
-
Kısa süre sonra Huawei, 200B parametreli PanGu-α'yı (1.1TB Çince metin kullanılarak) yayımladı
-
Naver, 204B parametreli HyperCLOVA'yı duyurdu
-
İsrail merkezli AI21 Labs, 178B parametreli Jurassic-1'i yayımladı
-
NVIDIA ve Microsoft, 530B parametreli Megatron-Turing NLG modelini yayımladı
-
Özünde GPT-3'e benzer, giderek daha büyük modeller üretiliyor ve bunlar önümüzdeki birkaç yıl boyunca daha da büyüyecek
-
Bu kadar büyük modelleri eğitmek için milyarlarca dolarlık yatırım gerektiren eğilim bir süre daha sürecek gibi görünüyor
→ yalnızca güçlü finansal desteğe sahip şirketlerin bu tür modelleri geliştirebilmesi endişe verici
-
Bu eğilimin ne kadar süreceğini ya da GPT-3'ün ötesinde önemli bir keşif yapılıp yapılmayacağını öngörmek zor
-
Şu anda bu yolculuğun tam ortasındayız ve önümüzdeki birkaç yılda neler olacağını izlemek ilginç olacak
1 yorum
GPT-Neo : GPT-3 ölçeğinde bir modeli açık kaynak/ücretsiz hale getirmeyi amaçlayan proje https://tr.news.hada.io/topic?id=3599
MS ve Nvidia, dünyanın en büyük ölçekli dil modeli MT-NLG 530B'yi duyurdu https://tr.news.hada.io/topic?id=5187