Derin öğrenme hızlandırıcılarının yön verdiği yarı iletken pazarının geleceği

(facebook.com)

13 puan yazan xguru 2021-10-02 | 1 yorum | WhatsApp'ta paylaş

Son 10 yılda dünya genelinde hisse değeri en çok yükselen BT şirketleri sorulsa, Apple ve Nvidia öne çıkar. Apple, iPhone’un ortaya çıkışıyla birlikte yüksek fiyatlı akıllı telefon pazarına adeta 10 yılı aşkın süredir hakim olurken, Nvidia ise yüksek performanslı oyun GPU’ları ve 2010’ların ortasından sonra derin öğrenme ile kripto madenciliği için hızlandırıcı pazarının patlayıcı biçimde büyümesi sayesinde hisse fiyatını hızla yukarı taşıdı.

Nvidia, 1999’da gerçek anlamdaki ilk GPU’yu (marka adı GeForce) dünyaya tanıtan şirketti. Elbette 90’ların sonundan 2000’lerin sonuna kadar Nvidia’nın odaklandığı iş, yüksek performanslı oyun GPU’larıydı. Ancak Nvidia, sanki yapay zeka çağının geleceğini önceden görmüş gibi, 2007’de GUGPU’yu (veya GPGPU) dünyaya tanıttı. Nvidia’nın yeni yaratmak istediği pazar, sadece oyun için yüksek performanslı ekran kartları pazarı değil, genel amaçlı (general purpose) hızlandırıcı pazarıydı. Pazarın büyümesi için dünyanın dört bir yanındaki çip tasarım geliştiricilerinin kendi GUGPU’sunu kullanabilmesini sağlayan SDK olan CUDA’yı da birlikte yayımlaması, Nvidia’nın stratejisiydi ve bu hamle gerçekten işe yaradı. Buna ek olarak openCL’in de paralel biçimde yaygınlaşmasıyla GPU, tam anlamıyla GUGPU çağına girebildi; Nvidia da yavaş yavaş oyun grafik kartı pazarının dışına çıkarak esaslı biçimde hızlandırıcı pazarına adım attı.

Bilindiği gibi, CPU ile GPU arasındaki en büyük fark serial ve parallel yapılarıdır. GPU’ya birim sayısı bakımından CPU’dan çok daha fazla çekirdek entegre edilir. Ve çarpma, toplama gibi paralel işlenmek istenen işlemler bu çekirdeklere dağıtılarak "bir anda" gerçekleştirilir. Buna karşılık CPU, mimarisi gereği veriyi serial olarak alıp sonuç üretmek zorundadır; bu yüzden hesaplama hızı doğal olarak GPU’nun paralel işlem gücüyle kıyaslanamayacak kadar yavaştır. Burada yanlış anlaşılmaması gereken bir nokta var. "Öyleyse neden CPU’ya ayrıca pahalı para ödeniyor? Her şeyi GPU ile yapmak mümkün değil mi?" diye düşünülebilir. Aslında bunu bir ustanın heykel işlemesine benzetebiliriz. Bir ustanın bir ay boyunca tek başına ağacı yontup boyayıp düzeltmesi sürecini CPU’ya benzetirsek, aynı ustanın 10 çırağına işleri paylaştırıp bir ayda 10 heykel üretmesini GPU’ya benzetebiliriz. Bir bakıma ev tipi zanaat ile iş bölümünün farkı gibi görülebilir. Biraz daha doğru bir karşılaştırma yapalım. Aslında GPU’nun 2000’lerin ortası ve sonrasında paralel hesaplama performansıyla öne çıkmasının nedeni, GPU’ya dağıtılmış her bir çekirdeğin aynı anda benzer hesaplamaları yapabilmesi ve bunların çıktısını topluca verebilmesini sağlayan çip tasarımıydı. Örneğin B = [55] matrisi ile C = [51] matrisini çarpma işlemini düşünelim. Bu işlemi CPU ile yapmak için

for ii=1:satır sayısı

for jj=1:sütun sayısı

A = B(ii,jj)*C(jj);

A(ii) = A(ii) + A;

end

şeklinde iki kez for loop döndürmek gerekir. Oysa GPU ile bu işlemi yapmak için B matrisinin her bir elemanının ve C matrisinin her bir elemanının index’ini ilgili GPU çekirdeklerine dağıtmak yeterlidir. Örneğin BC matris çarpımı, her eleman için 55 = 25 kez çarpma işlemi gerektirir; bu durumda B(i,j) elemanı ile C(k) elemanı GPU çekirdeklerinde önceden [satır sayısı*(i-1) + j] numaralı çekirdeğe atanırsa iş tamamdır. Sonrasında her çekirdek kendisine verilen çarpma işlemini yapar, sonuçları bellekte toplar ve yalnızca toplama işlemi eklenir. Yani önceden neyin nasıl dağıtılıp nasıl toplanacağı iyi belirlenirse, basit çarpma/toplama tekrarlarında GPU çok daha hızlı olacaktır. CPU ise GPU’ya göre bu tür paralel işlemleri neredeyse hiç yapamaz; buna karşılık daha fazla kayan nokta basamağı kullanabilir. Yani hassas hesaplamaları GPU’nun tek tek çekirdeklerine kıyasla daha iyi yapabilir; bu nedenle doğruluk gerektiren ALU hesaplamalarında CPU doğal olarak GPU’dan çok daha iyidir. Ancak tekrarlanan hesaplamalar çoğu zaman bu kadar yüksek hassasiyet istemediğinden, GPU’nun paralel hesaplaması çok daha avantajlıdır.

Peki paralelleştirmeye optimize edilmiş bu GPGPU, neden 2010’ların ortasından sonra, yapay zeka ve özellikle derin öğrenme çağının gerçekten başlamasıyla daha da fazla ilgi görmeye başladı? Aslında derin öğrenmenin nasıl çalıştığını bilirsek bunu anlamak kolaydır. Derin öğrenme öğrenilirken başlangıçta temel olarak görülen işlemlerden biri convolution’dır. Convolution, verilen matris biçimindeki input data üzerinde başka bir matris olan kernel’in konumu değiştirilerek yapılan bir matrix operation’dır. Dikkat edilirse bu, sonuçta matrislerin elemanlarını çarpıp toplama işlemlerinin tekrarından ibarettir. Elbette hangi kernel’in kullanıldığına göre input matrix’in sonucu değişir. Örneğin görüntü işleme derslerinde de ele alındığı gibi Laplacian kernel kullanıldığında, görüntünün kenarlarını, kenar gradyanını ya da desen ayrımını tespit edebilen bir işlev elde edilir. Ne tür kernel kullanılırsa kullanılsın, convolution sürecinde sonuçta basit çarpma/toplama tekrarları yapıldığından, buna özel olarak tasarlanmış GUGPU’nun çok daha avantajlı olması doğaldır. Ayrıca derin öğrenmede eğitim ve çıkarımın nasıl gerçekleştiğini düşünürsek, neden CPU tabanlı derin öğrenmenin baştan itibaren neredeyse imkansız olduğunu da anlayabiliriz. Daha önce de söylendiği gibi, GPU CPU kadar hassasiyet istemez ve zaten bu şekilde tasarlanmamıştır. Derin öğrenmede training data’yı öğrenme süreci, gözleri bağlı bir kişinin yalnızca ellerini ve ayaklarını kullanarak yolunu bulmasına benzer. Şanslıysa elini uzattığında kendisine işaret olacak bir nesneye denk gelebilir; şanssızsa ayağını uzattığı yerde bir tuzak olabilir. Yani her trial yapıldığında mutlaka bir error ortaya çıkar; zaten o error’un doğruluğu ya da hassasiyeti çok da önemli değildir. Hatta yalnızca o error’un hassasiyetine odaklanılırsa öğrenme hızı yavaşlar. Saniyede 100 trial-and-error yapan birinin mi yolu daha çabuk bulacağı, yoksa saniyede yalnızca 1 kez çok dikkatli bir successful trial yapan birinin mi daha hızlı ilerleyeceği karşılaştırılırsa cevap açıktır. Derin öğrenmenin bu öğrenme yöntemi, GPU’nun tasarlandığı mimariyle tam olarak örtüştü; bu yüzden GPU artık yüksek performanslı oyun donanımı değil, derin öğrenme için bir hızlandırıcı makine olarak algılanmaya başladı.

Burada gözden kaçırılmaması gereken bir nokta da GUGPU’nun hâlâ oyun performansını artırmak için de optimize edilmiş olmasıdır. Zaten GPU’nun en başından beri matris işlemeye özel bir performansa sahip olduğu düşünülürse bu son derece doğaldır. 90’ların başından önce oyunlarda aslında 3D görüntü kavramı neredeyse yoktu; varsa bile belirli bir yöndeki 2D projection’ın sürekli gösterilmesi şeklindeydi. Fiilen 2D only denebilir. Matrislerle ilgili lineer cebir işlemlerinde iki boyutlu matrisler aslında görece kolay hesaplamalara girer. Asıl sorun ise üç boyutlu matris işlemleridir. İçinde yaşadığımız dünya üç boyutludur ve görüp duyup hissettiğimiz tüm fiziksel olaylar üç boyutlu uzay + bir boyutlu zaman içinde gerçekleşir. Her saniye üç boyutlu uzaydaki olaylar anbean değişir, ama gözlerimiz bu bilgiyi zorunlu olarak iki boyuta eşleyerek algılamak zorundadır. İnsan beyninin görsel bilgiyi işlerken çok büyük miktarda kaynak kullanmasının nedeni de budur. Aynı durum hesaplama için de geçerlidir. Üç boyutlu bir nesnenin görüntüsünü, bizim algıladığımız iki boyutlu uzaya, yani monitör üzerine yerleştirme işini düşünelim. Örneğin, üç boyutlu poligonlardan oluşan bir figürün belirli bir açıdan görülen görüntüsünü iki boyutlu bir monitörde göstermemiz gerekir. Bunun için matris dönüşümü (matrix transformation) hesaplamaları gerekir. Döndürme dönüşümü, stretching, kaybolma noktası işleme gibi işlemler yapılmalıdır. Biraz daha ileri gidilirse ray tracing de gerekir. Yani ışık ve gölge etkilerini de hesaba katmak gerekir ve bu hesaplama çok daha fazla işlem gücü ister. Çünkü geometrik optik hesaplamalarının tüm poligonların her bir kütle noktasına birlikte uygulanması gerekir. Üstelik bu devasa hesaplamaları saniyede bir kez değil, en az 30 ila 60 kez yapmak gerekir ki insan gözü bu olayın gerçek zamanlı ve doğal biçimde gerçekleştiğini algılasın. Bilgisayar mühendisleri için tam anlamıyla kâbus gibi bir görev olmalıydı. 90’ların başında bu işler CPU ile yapılıyor olsaydı muhtemelen dakikada ancak bir sahne gösterilebilirdi. Sabırsız oyuncular için bu kabul edilemez bir lag olurdu. Ancak GPU bu tekrar eden işlemleri matris tabanlı biçimde paralel işleyebildiği için artık CPU’nun bu yükü tek başına taşıması gerekmez. Çeşitli matris dönüşüm işlemlerinin ve ray tracing geometrik optik hesaplamalarının büyük kısmını GPU üstlenir, CPU ise bunların sonraki işlemlerini yürütür. Yani oyuncu açısından bakıldığında artık bu hesaplamalar “hızlandırılmış” gibi hissedilir. Hızlandırıcı adının verilmesinin nedenlerinden biri de budur.

Matris tabanlı olarak ifade edilebilen veri söz konusu olduğunda, bunun oyunlar için yüksek çözünürlüklü 3D görüntü, tıbbi 3D voxel data ya da derin öğrenme eğitimi için multi-feature tensor data olması fark etmeksizin, GUGPU’nun altın çağının gerçekten de zirveye ulaştığını söylemek abartı olmaz. Ancak sorun şu ki GUGPU’nun avantajı aynı zamanda dezavantajıdır da. Paralel işlem hızını artırmanın yolu çekirdek sayısını daha da artırmak ya da çekirdekler arasındaki bilgi I/O hızını yükseltmektir. Bunun için bellek her çekirdekle entegre edilebilir ya da bandwidth artırılabilir. Ancak değişmeyen bir bedel vardır: buna paralel olarak güç tüketimi de artar. Çekirdeklerin doğrudan tükettiği güce ek olarak, çekirdeklerde harcanan enerjinin ısıya dönüşmesiyle bunu soğutmak için gereken güç tüketimi de yükselir. Ayrıca tekrar eden ısınma-soğuma döngüsü çipin ömrünü de etkiler. GPU da silikon tabanlı bir yarı iletken çip olduğundan, yoğun güç kullanımı ve hesaplama eninde sonunda çekirdeği oluşturan malzeme ve bileşenlerin ömrünü kısaltır. Çünkü mekanik failure, thermal failure ve electrical failure ortaya çıkabilir. Nitekim blockchain madenciliği için adeta fabrika düzeninde işletilen sahalarda kullanılan GUGPU’ların ömrünün 6 ayı bile bulmadığına dair sözler boşuna değildir; sıradan internet kafe tarzı oyun salonlarında kullanılan high performance GPU’ların ömrü de genelde 2 yıl, en fazla 3-4 yıl civarındadır. Elbette bu ömür sorunu, yeni nesil GPU’lar çok hızlı çıktığı için fazla görünür olmaz; ama ömrün CPU’ya göre daha kısa olması katlanılması gereken bir dezavantajdır.

Buna rağmen yapay zeka çağı daha yeni büyümeye ve serpilip gelişmeye başlıyor; GPU gibi hızlandırıcılar olmadan bu kadar çok hesabın altından kalkmanın bir yolu yok. Ama yalnızca GPU’ya bağımlı kalındığında, eğitim için GPU’ların harcadığı güç miktarı giderek ürkütücü seviyelere çıkıyor. Buna doğal olarak bir alternatif gerekiyor ve 2010’ların sonlarından 2020’lere geçilirken ortaya çıkan çözümlerden biri FPGA ve NPU oldu. 2019’da, Intel ile birlikte CPU üreticileri arasında iki büyük oyuncudan biri olan AMD, dünyanın bir numaralı FPGA şirketi Xilinx’i sürpriz bir hamleyle satın aldı. Sektördeki yorum, beklenenin sonunda gerçekleştiği yönündeydi; çünkü rakibi Intel, FPGA pazarının iki numarası Altera’yı zaten 2015’te 16,7 milyar dolara satın almıştı. Geleneksel büyük CPU üreticilerinin, CPU’dan oldukça farklı karaktere sahip FPGA şirketlerini rekabet içinde satın almasının nedeni neydi? FPGA, kelimenin tam anlamıyla kullanıcının o andaki amaca göre yeniden programlayabildiği bir işlem çipidir. Kullanıcının yeniden programlayabilmesi, çipin çalışması için gerekli asgari işlevler bırakılıp diğer birimlerin dizilimi veya tasarımının kullanıcı tarafından değiştirilebilmesi anlamına gelir. Bu durumda elbette CPU ya da DRAM gibi standartlaştırılmış süreçlerle üretilen yarı iletken çiplere kıyasla maliyetin daha yüksek olması kaçınılmazdır. Çünkü degree of freedom daha yüksek tutulmak zorundadır. Derin öğrenme çağından önce bu nedenle FPGA tabanlı çipler daha çok özel amaçlar için kullanıldı; örneğin nükleer santral ya da uzay sondası gibi belirli kullanım alanlarında öne çıktılar ve genel amaçlı kullanım ise neredeyse hiç görülmedi.

Ancak derin öğrenme çağı tam anlamıyla başladıkça, GPU’nun sanki tek başına egemen olacakmış gibi görünen pazar giderek çeşitlenmeye başladı. Bu eğilim GPU için her açıdan olumlu bir tablo oluşturmadı. Örneğin derin öğrenme yalnızca convolution hesaplamalarını tekrar eden işlemlerden ibaret olsaydı sorun olmazdı; fakat derin öğrenmenin uygulanmak istendiği alanlar genişledikçe, derin öğrenme motorlarının öğrenmesi gereken verilerin ölçeği ve özellikleri de çok daha çeşitli hale geldi. Yalnızca görüntüden rakam tanımak ya da köpek-kedi ayırmak gibi görevlerle yetinildiğinde uygulama alanı sınırlı kalıyordu; bu yüzden doğal dili işlemek, 1.000’den fazla feature içeren karmaşık kimyasal süreç verilerinde hataları tespit etmek, IoT sensör ağları tasarlamak, CFD’nin kapsayamadığı gözenekli ortamlar içindeki karmaşık akışkan hareketini çıkarım yoluyla benzetmek ya da gerçek zamanlı otonom sürüş motorları geliştirmek gibi kullanım alanları ve gereksinimleri çok farklılaşmış bir pazar ortaya çıkmaya başladı. Derin öğrenmeyi sanayiye uygulamak isteyen taraf için bu çeşitlenme sevindirici olsa da, bunu genel amaçlı GPU ile kapsamak isteyenler açısından ciddi bir düşünme konusu haline geldi. Çünkü her uygulama alanında sınıflandırma mı, çıkarım mı, tahmin mi, tespit mi daha önemli olduğu farklı ağırlıklara sahipti ve buna karşılık her yerde aynı nöral ağ algoritmasına optimize edilmiş işlem yapısını sürdürmek zorlaşmıştı. Derin öğrenmenin ilk dönemlerinde kullanılabilir donanım neredeyse yalnızca GUGPU olduğu için, algoritma geliştiricileri de ellerindeki GUGPU özelliklerine göre algoritma kurmak zorundaydı. Ancak derin öğrenmenin işlediği veri türü ve miktarı katlanarak arttıkça, bu kez derin öğrenme algoritmalarının GPU mimarisi tasarımını etkileme sıklığı da artmaya başladı. GPU’nun tekil çekirdeklerindeki hassasiyetin (floating point basamak sayısının) FP16’ya sabitlenmesi ya da değişken hassasiyete izin veren (çoklu hassasiyetli) çekirdeklerin tasarlanması buna örnektir. Ancak derin öğrenme odaklı bu GPU tasarımının da sınırları açıktır. Çünkü GPU da bir kez üretildikten sonra yapısını değiştirmek neredeyse imkânsızdır ve yeniden programlama için alan bırakmaz. Baltayla tıraş olmak elbette mümkündür ama insanın eline alıştığı bir tıraş makinesini araması da son derece doğaldır.

Buna karşılık FPGA’lerin bu amaç için daha uygun olabileceği görüşü piyasada giderek daha fazla kabul görüyor. FPGA’ler, daha önce de belirtildiği gibi, mantık tasarımı tamamen tamamlanmadan müşteriye teslim edilir. Bunun yerine, müşterilerin kendi amaçlarına göre üzerinde programlama yapabilmesi için bir tür SDK sunulur. Yani müşteriler kendi ihtiyaçlarına göre, örneğin akışkanlar dinamiği simülasyonuna özel bir derin öğrenme çipi de geliştirebilir. Başlangıçta tasarımda hatalar olsa ve sistem düzgün çalışmasa bile, yeniden programlama mümkün olduğu için istenildiği kadar düzeltme yapılabilir; dolayısıyla ilk test sürecindeki maliyet kaybı azaltılabilir. GPU’da donanım düzeyinde sağlanan paralel işleme performansıyla kıyaslanmasa da FPGA de paralel işleme yapabilir; bu da yine FPGA’nin yapısal özelliklerinden kaynaklanır. FPGA’de yazılım seviyesinde paralel işleme uygulanabilir; tek bir çekirdekte birden fazla komutun (multiple instruction) alınıp birden fazla çıktı üreten algoritmaların tasarlanması mümkündür. Bu yaklaşıma Multiple Instruction Multiple Data (MIMD) denir. Buna karşılık GPU’nun tek tek çekirdeklerinde, tekrarlayan işler üzerinden paralel işlemeye en uygun koşulları sağlamak için veri akışı baştan itibaren Single Instruction Multiple Data (SIMD) olarak kurgulanır. Komut seti iyi kurulmuş ve veri formatı iyi düzenlenmişse, GPU donanım seviyesinde neredeyse olağanüstü bir paralel işleme sunabilir; ancak veri formatı değiştiğinde ya da verilen komut setiyle kapsanması zor işlemler ortaya çıktığında kaçınılmaz olarak tökezler. Buna karşılık FPGA’de donanım düzeyinde paralel işleme zordur, ancak en büyük avantajı esnek olmasıdır. Veri formatı (width) değişse bile önceden define edilmiş bir komut setine bağlı kalma zorunluluğu olmadığından, multiple instruction set kullanılabildiği için sorun olmaz. Bu esneklik, çeşitlenen veri kümeleri ve uç uygulamaların öne çıktığı günümüz derin öğrenme çağında FPGA’nin pazar potansiyelinin artacağı anlamına gelir.

Buna ek olarak, zaten binlerce çekirdeği aynı anda çalıştırmak zorunda olmayan FPGA’lerin (elbette performans bir miktar daha düşük olsa da) GPU ile karşılaştırıldığında güç tüketimi çok ama çok daha düşüktür (ek tablo 1’e bakınız). Ayrıca FPGA’de piyasadaki derin öğrenme algoritmaları geliştikçe güç tüketim biçimi de değiştirilebilir; bu nedenle enerji verimliliği her an optimize edilebilir. Çünkü gereksiz anahtarlar kapatılıp yalnızca gerekli olanlar açılır. Bu nedenle, derin öğrenme çağı tam anlamıyla başlamadan önce GPU’dan pek fayda sağlayamayan Intel ve AMD’nin aceleyle sektörün 1 ve 2 numaralı FPGA şirketlerini büyük bedellerle satın almasını bu çerçevede yorumlamak mümkündür. Elbette mevcut GPU devi Nvidia da yerinde durmuyor. FPGA’nin ne kadar çok avantajı olursa olsun, derin öğrenmede GPU’ya kıyasla hâlâ kritik bir zayıflığı var: training hızının GPU’ya göre daha yavaş olması. Bu kaçınılmaz bir dezavantajdır. Çünkü yapı, en baştan kullanılabilir çekirdekleri donanım düzeyinde sınırsızca artırıp built-in hâle getiren bir mimari değildir. Intel ve AMD, FPGA üzerinden GPU’nun hâkim olduğu yapay zeka hızlandırıcı pazarından pay alma planı yaptı. Intel, Agilex ve PAC (programmable acceleration card) ürünlerini çıkardı; AMD (Xilinx) de hızlandırıcı kartı Alveo’yu piyasaya sürerek iddialı bir hamle yaptı. Özellikle Xilinx, HBM’yi (high-bandwidth memory) doğrudan FPGA ile birleştiren Versal gibi ürünlere yöneldi; bu da 10 nm altı yarı iletken ultra ince patterning teknolojisinin olgunluk aşamasına gelmesiyle mümkün olan bir gelişmeydi (Versal örneğinde 7 nm süreç kullanılıyor). Intel’in Altera’yı satın almasından sonra Intel’in FPGA tabanlı hızlandırıcı gelirleri büyük bir büyüme göstermemişken, Xilinx’in gelirleri sürekli güçlü artış sergiliyor; bu da Xilinx tarzı FPGA + HBM yapısının derin öğrenme hızlandırıcı performansındaki farkı yavaş yavaş kapattığını gösteriyor. Xilinx buna ek olarak, derin sinir ağları için optimize edilmiş xDNN işlemcisiyle geliştirmeyi genişleterek esnek derin öğrenme hızlandırıcı pazarını hedefliyor.

Aslında derin öğrenme eğitim sürecinde matris işlemleri kadar önemli olan bir başka unsur da büyük hacimli verilerin öğrenme sonuçlarını integration etme sürecidir; bunun için veriler arka arkaya dizildiğinde bekleme süresini kısaltmak gerekir. Yani veri gecikmesini azaltmak, hem enerji tüketimi hem de eğitim hızı açısından giderek daha önemli hâle geliyor. Nvidia’nın FPGA cephesine karşı öne sürdüğü kart da tam olarak bu veri gecikmesini azaltma teknolojisi olan InfiniBand’dir. Bu amaçla Nvidia, Intel ve AMD arasındaki satın alma yarışını kazanarak 2019’da NIC (network-interface card) ve InfiniBand alanının küresel güçlü oyuncusu Mellanox’u 6,9 milyar dolara satın aldı ve kendi NPU optimizasyon teknolojisini güvence altına alabildi. Nvidia’nın GPU’nun ötesinde derin öğrenme ve daha da geniş biçimde tüm yapay zeka hızlandırıcı pazarını hedefleyen teknolojisi, genel amaçlı derin öğrenme hızlandırıcısı Xavier SoC’dir; bu ürün özellikle yapay zeka hızlandırıcı talebinin patlama yaşadığı otonom araç pazarında ana ürün olarak konumlandırılıyor. Nvidia’nın CUDA ekosistemi de derin öğrenmeye özel cuDNN sunuyor; veri kümesi ya da ölçek fark etmeksizin neredeyse tüm derin sinir ağlarının ihtiyaç duyduğu birimler önceden uygulanmış olduğu için, gelecekte NPU’ya (Neural Processing Unit) uzanacak pazar köprüsünü de şimdiden kurmuş olduğu söylenebilir. Özellikle NPU, belirli bir veri kümesi için DNN’i donanım seviyesinde önceden uygulamış bir çiptir (kelimenin tam anlamıyla derin öğrenme ağını oluşturan her katmanın silikon çip tabanlı mantık birimleriyle bire bir eşleştirildiği bir çiptir. Yani nöronların donanım seviyesinde doğrudan uygulanmış hâli olarak düşünülebilir). Bu nedenle mobil AP’ye entegre edilmeye yapısal olarak uygundur; dolayısıyla gelecekte de büyük ölçüde büyümesi beklenen AP pazarındaki hâkimiyetini koruma olasılığı yüksektir. NPU, “çıkarım” işini GPU’da yapmak yerine uç cihazlarda (örneğin akıllı telefonlarda) yapılabilecek düzeye sabitlenmiş bir çip olarak görülebilir. Kalın bir kitap kadar büyümüş GPU’yu akıllı telefona koymak mümkün olmadığı için, mümkün olduğunca eğitilmiş mevcut yapının built-in olduğu bir şekilde NPU tasarlanır. Model eğitiminin kendisini GPU sunucuları üstlenirken, NPU eğitilmiş model temelinde girilen verilerden özellik çıkarımı yapma görevini paylaşırsa artık yüksek güç tüketimine gerek kalmaz ve büyük boyutlara ihtiyaç duyulmaz; böylece akıllı telefonlara ya da otomotiv yarı iletken çiplerine özel olarak birlikte entegre edilebilir. Bu, FPGA’nin bugüne kadar izlediği esneklik yaklaşımını dolaylı yoldan aşan bir strateji olarak da görülebilir. Nvidia da tam bu NPU pazarını hedefleyerek Xavier sonrasında Jetson serisini tanıttı ve fiyatlarını da daha aşağı çekti.

NPU pazarındaki rakip muhtemelen Google olacak; Google kendi tasarladığı çip olan TPU (tensor processing unit) serisi Coral’ı tanıttı ve fiyatını Nvidia Jetson’ın beşte birinin altına çekerek maliyet rekabeti yaratmaya çalışıyor. Elbette performans ile fiyat orantılıdır; Coral’ın performansının Xavier ya da Jetson’ın yaklaşık 1/5 ila 1/3 seviyesinde olduğu biliniyor. Ancak Google’ın bundan sonra çıkaracağı TPU’ların, piyasadan alınan geri bildirimler temelinde daha geniş alanlarda kullanılacağı öngörülüyor; bunun da Google’ın tasarladığı GPU bulut sunucuları üzerinden eğitim modeli güncelleme hızındaki rekabet gücüne dayandığı tahmin edilebilir. Samsung ve Qualcomm gibi geleneksel mobil AP üreticileri de, ultra ince patterning sınırları nedeniyle AP çiplerinin kendi performansını iyileştirme alanı giderek daraldıkça, NPU’yu içeri sıkıştırma stratejisi izliyor. Qualcomm, Snapdragon serisinde 845’ten itibaren NPU eklemeye başladı; Samsung da Exynos Series 9’dan itibaren NPU kullanmaya başladı. NPU’yu entegre etmeye ya da paralel kullanmaya çalışan şirketler doğal olarak mobil çiplerdeki verileri toplayarak uygulama alanını giderek genişletecek; bir sonraki pazarın da muhtemelen otomotiv yarı iletkenleri (otonom sürüş çipleri veya araç elektroniği çipleri), IoT sinyal işleme çipleri ve askeri amaçlı birleşik radar çipleri gibi alanlara doğru genişlemesi bekleniyor.

Ancak ironik biçimde FPGA ile NPU/TPU/cuDNN pazarındaki rekabet, donanımdan değil yazılımdan; özellikle de derin öğrenme algoritmalarındaki değişim eğiliminin nasıl şekilleneceğinden etkileniyor. Bugün bile derin öğrenme algoritmaları alanında neredeyse her gün yeni metodolojiler, yeni teoriler ve yeni modeller ortaya çıkıyor; ayrıca her yıl yapay zeka alanındaki dört büyük akademik konferansta makale kabul ettirmek giderek zorlaşıyor. Ancak diğer alanlardaki teknolojilerde olduğu gibi derin öğrenme de artık olgunluk dönemine yaklaşırken, algoritma inovasyonunun hızı yavaşlamaya başlarsa FPGA’ya özgü flexibility avantajı da giderek zayıflayacaktır. Çünkü daha hızlı ve daha verimli algoritmalar çıktığında buna uyum sağlayacak şekilde reprogramming yapılabilmesi önemli bir avantajdı; fakat algoritma değiştirme döngüsü giderek yavaşlarsa bu, artık pek de avantaj sayılmayacaktır. Örneğin artık görüntü tanıma düzeyindeki işlevlerde, neredeyse daha fazla iyileştirme alanı kalmamış denebilir (insan tanıma oranı çoktan aşılmış durumda ve çoğu algoritma artık görüntü tanıma oranında %95’in üzerine çıkıyor). Bu açıdan algoritmaların saturated state’e ulaştığı söylenebilir. Hatta ileride, genel amaçlı DNN’leri sürekli iyileştirerek donanım ile en güncel algoritmalar arasındaki farkı azaltma yaklaşımı daha avantajlı hale gelebilir.

Derin öğrenme hızlandırıcı pazarı bundan sonra da büyümeyi sürdürecek ve muhtemelen 2030 sonrasında da talep artış eğiliminde olacak; ancak pazara hangi yaklaşımın hakim olacağını görmek için biraz daha beklemek gerekecek. Derin öğrenme algoritmalarının olgunluk döneminin ne zaman geleceğini kimse öngöremez; fakat eninde sonunda bu dönem gelecektir ve o noktada hangi teknolojinin daha optimize bir konumda olacağını tahmin etmek zordur. FPGA tarafında da yenilik için hâlâ çok fazla alan var. Bu yıl haziranda Nature’da yayımlanan Google’ın reinforcement learning tabanlı çip tasarımı araştırması* (*https://www.nature.com/articles/s41586-021-03544-w) bu yenilik potansiyelini gösteren iyi bir örnek. Dar bir çip die alanı üzerine milyonlarca, hatta on milyonlarca birimi yerleştirip, bu birimler arasındaki veri input ve output akışında gecikmeyi en aza indirirken enerji tüketimini de azaltan tasarım, yarı iletken çip tasarımının en zor bölümlerinden biriydi. Fabless şirketler şimdiye kadar biriktirdikleri bilgi birikimiyle bu tür optimizasyonları yürüttü, ancak Google’ın açıkladığı sonuçlar, bu deneyimi gölgede bırakacak kadar çarpıcı bir iyileşme sağladı. Bu, karmaşık bir apartman planına türlü türlü mobilya ve ev aletleri yerleştirirken beden hareketini en aza indirip harcanan gücü de minimumda tutacak en uygun dolaşım hattını kurmaya benziyor. Google, Go’nun durum uzayından (~10^360) çok daha büyük olan birim yerleşim durum uzayı (~10^2500) üzerinde, AlphaGo yöntemini çok daha ileri bir biçimde geliştirerek optimize edilmiş bir tasarım elde etti. Bu tür bir tasarım yöntemi elbette FPGA optimizasyonuna da doğrudan uygulanabilir; çünkü verilen instruction set’in degree of freedom’unu dikkate alarak hedef performansı optimize etmek de aynı bağlamda başarılabilecek bir iştir.

NVIDIA, Google, Intel, AMD ve Qualcomm’un kullandığı mevcut yöntemlerden tamamen farklı bir doğrultuda ilerleyen teknolojiler de ortaya çıkabilir mi? Elbette böyle bir olasılık var. Neural net adının çağrıştırdığı gibi, artık insan beynindeki sinir ağını sadece taklit etmek değil, doğrudan copy & phaste ederek yarı iletken çiple ilişkilendiren bir teknoloji yaklaşımı da düşünülebilir. Samsung ve Harvard Üniversitesi’nden Koreli bilim insanlarının yakın zamanda yayımladığı perspective tam da buna bir örnek** (**https://www.nature.com/articles/s41928-021-00646-1...). Bu makalede öngörülen alternatif teknoloji ise neuromorphic chip. Aslında neuromorphic chip iyi bilinen bir kavram; ancak yeniden dikkat çekmesinin nedeni, insan beynindeki sinir ağlarının alışveriş yaptığı elektrik sinyallerini nano elektrotlarla bağlayıp doğrudan kopyalamanın (copy) ve bunu altta bağlı belleğe aktarmanın (phaste) kavramsal olmaktan çıkıp gerçek teknoloji düzeyinde mümkün olduğunu göstermesi oldu. Bu, beyin denen yumuşak dokuyu devreden çıkarıp, geriye kalan tüm işlevleri doğrudan yarı iletken çipe taşımanın mümkün olabileceği anlamına geliyor. Neuromorphic chip’i hayata geçirmek için gereken bellek yarı iletkeni teknolojileri zaten SRAM, RRAM, MRAM, memristor vb. ile uygulanmış ya da fiilen kullanılıyor; dolayısıyla asıl kritik nokta, trilyonlarca nöronda oluşan sinyallerin gerçek zamanlı olarak gecikmeyi en aza indirerek belleğe nasıl aktarılacağı. Başka bir deyişle, copy & phaste biçimindeki bağlantı artık teknik olarak imkansız bir şey gibi görünmüyor.

Bundan sonra da derin öğrenme hızlandırıcılarının yön verdiği yarı iletken pazarı daha çeşitli ve daha güçlü biçimde büyüyecektir. Derin öğrenme tabanlı veri işlemenin ne kadar daha çeşitlenmiş pazarlara nüfuz edebileceği ve ne kadar daha büyük yapılandırılmamış verileri işleyebileceği, pazarın büyüklüğünü ve hakim teknolojiyi belirleyecek; burada dikkat edilmesi gereken nokta ise mevcut başat teknolojilerin gelişiminin yanı sıra, bunların yerini tamamen farklı bir yönden alabilecek yeni kavram teknolojiler olacaktır. Neuromorphic dışında, photonics tabanlı neural network de mümkündür ve bu, gecikmenin bizzat ışık hızına kadar düşebileceği anlamına geldiği için daha güçlü NPU’ların ortaya çıkışını haber verebilir. Spintronics ise paralel işleme performansını daha da artırabilir; ayrıca Google’ın açıkladığı TFQ gibi kuantum bilgisayarlara özel derin öğrenme algoritmaları da bugüne kadarki yaklaşımlardan tamamen farklı bir biçimde “çıkarım” kavramını yeniden tanımlayabilir. Geleceğin yarı iletken pazarı da sonuçta, derin öğrenmenin yön verdiği yapay zeka hızlandırıcıları ve bunlara uygun algoritma inovasyonlarından ana ivmesini alacaktır; çok farklı mimarilerle ortaya çıkan sayısız fabless şirket arasında, hangilerinin gerçekten değerli olduğunu ayırt edebilmek ve teknolojinin uygulanabilirlik sınırlarını belirleyebilecek üretim süreci teknolojilerini elde tutmak, gelecekte oluşacak pazarın hakimiyetini belirleyen temel unsur olacaktır.

Sungkyunkwan Üniversitesi’nden Prof. Kwon Seok-jun’un bir Facebook yazısı; CPU/GPU gelişiminin şimdiye kadarki seyrini oldukça ilgi çekici bir şekilde anlattığı için buraya aldım.

1 yorum

xguru 2021-10-02

Facebook hesabı olmayanlar olabileceği için metnin tamamını buraya taşıdım. Facebook yorumlarında da bakmaya değer noktalar var, o yüzden gidip göz atmanızı öneririm.

Derin öğrenme hızlandırıcılarının yön verdiği yarı iletken pazarının geleceği

İlgili okumalar

1 yorum