Transformer’ı Yaratan Google Çalışanları

(wired.com)

2 puan yazan GN⁺ 2024-03-21 | 1 yorum | WhatsApp'ta paylaş

2017’de Google’daki 8 araştırmacının yazdığı “Attention Is All You Need”, dil işlemeyi sıralı model merkezli yaklaşımdan transformer yapısına taşıyarak üretken yapay zekanın temelini attı
Jakob Uszkoreit, LSTM’lerin uzun metinlerde sonlara doğru gelen bağlamsal ipuçlarını kaçırmaya yatkın olduğunu düşünerek, tüm cümleye birlikte bakabilen self-attention yaklaşımını güçlü biçimde savundu
Illia Polosukhin, Ashish Vaswani, Niki Parmar, Llion Jones, Łukasz Kaiser, Aidan Gomez ve Noam Shazeer’ın katılmasıyla çeviri deneyleri büyüdü; Shazeer’ın implementasyonunun ardından Big modeli English-to-German çeviri rekorunu kırdı
Makale, 19 Mayıs 2017’deki NeurIPS son teslim tarihinden hemen önce gönderildi; karışık değerlendirmelerin ardından Aralık’taki poster oturumunda büyük ilgi gördü ve Google savunma amaçlı geçici patent başvurusu yaptı
8 yazarın tamamı artık Google’dan ayrıldı; Near hariç Character AI, Sakana AI, Essential AI, Cohere ve Inceptive gibi girişimler transformer teknolojisi üzerine büyüdü

“Attention Is All You Need”ın yarattığı dönüşüm

“Attention Is All You Need”, 2017 ilkbaharında Google araştırmacıları tarafından yazılmış bir makaleydi
- 8 yazar, katkı sırası belirlememek için her ismin yanına yıldız koydu ve “Equal contributor”, “Listing order is random” notlarını ekledi
Bu makale, neural network tabanlı yapay zekayı transformer mimarisine taşıdı ve transformer, ChatGPT ile Dall-E, Midjourney gibi üretken yapay zeka ürünlerinin temel yapısı haline geldi
Geoffrey Hinton, transformer olmasaydı bugünkü noktaya gelinemeyeceğini söyledi
- Burada kastedilen, OpenAI ve diğer şirketlerin insan çıktılarıyla rekabet eden ya da bazı durumlarda onları aşan sistemler geliştirme akımıydı
Makalenin 8 yazarının tamamı Google’dan ayrıldı ve her biri 2017’de kurdukları mimariyle çalışan sistemlerle ilgili işler yapıyor

self-attention fikrinin başlangıcı

transformer’ın çıkış noktası, Jakob Uszkoreit’in self-attention fikriydi
- Google çeviri grubunda çalıştıktan sonra 2012’de, Google arama sayfasında kullanıcı sorularına doğrudan yanıt veren bir sistem geliştiren ekibe katıldı
- O dönemde Google, Apple Siri’nin arama trafiğini tehdit edebileceğini düşünerek bu alana daha fazla ilgi gösteriyordu
O sırada dil modelleri recurrent neural network ve LSTM’lere dayanıyordu, ancak uzun metinleri işlemede sınırları vardı
- Örnek cümlede Joe is a baseball player... got two hits, “two hits” ifadesini anlamak için önceki baseball bilgisini hatırlamak gerekir
- LSTM’ler daha büyük ve karmaşık metin dizilerinin işlenmesini sağladı, ancak yine de kelimeleri sıralı biçimde işlediği için sonradan gelen bağlamsal ipuçlarını kaçırabiliyordu
Uszkoreit, 2014 civarında self-attention fikrini geliştirdi
- self-attention, bir kelimeyi çevirirken cümledeki diğer tüm konumlara bakabilir
- Kelimelere sırayla bakmak yerine birden çok girdiyi birlikte gören paralel bir yaklaşım olduğundan, makine öğrenimi patlaması sırasında yaygınlaşan paralel işlem çipleriyle de iyi uyum sağlıyordu
Mevcut neural architecture’ı terk etmeyi gerektiren bu yaklaşım başta kuşkuyla karşılandı
- Uszkoreit’in babası Hans Uszkoreit bile akşam yemeği sohbetlerinde aynı fikirde değildi
- Uszkoreit, meslektaşlarıyla küçük metin deneyleri yaptı ve 2016’da bir makale yayımladı, ancak mevcut ortak çalıştığı kişiler bunun Google arama ve reklamlara uygulanmasıyla daha çok ilgileniyordu

Tesadüfi buluşma ve “transformer” ekibinin oluşumu

2016’da Uszkoreit, Google kafeteryasında Illia Polosukhin ile öğle yemeği yerken self-attention fikrini önerdi
- Polosukhin, Google.com’da doğrudan yanıt verebilmek için milisaniyeler içinde cevap veren, ucuz ve yüksek performanslı bir sistem gerektiğini düşünüyordu
- Ashish Vaswani ile çalışıyordu; Vaswani de Google Brain’de büyük bir proje ararken self-attention fikrine katıldı
Üçlü, “Transformers: Iterative Self-Attention and Processing for Various Tasks” başlıklı bir tasarım belgesi hazırladı
- “transformers” adı en baştan beri kullanılıyordu; bununla, girdiyi dönüştürerek insanların anladığı düzeyde bir kavrayış çıkaran ya da böyle bir izlenim veren bir mekanizma kastediliyordu
- Uszkoreit ayrıca çocukken Hasbro Transformer oyuncaklarıyla oynamış olmasını da bu adla ilişkilendirdi
Daha sonra Niki Parmar ve Llion Jones ekibe katıldı
- Parmar, USC’de yüksek lisansını tamamladıktan sonra Google’a girdi ve Uszkoreit ile birlikte Google aramayı iyileştirmeye yönelik model varyasyonları üzerinde çalıştı
- Jones, Google Research’te Polosukhin’in yönettiği ekipteydi; meslektaşı Mat Kelcey’den self-attention kavramını duyduktan sonra transformer ekibine katıldı
Google Brain’den Łukasz Kaiser ve stajyer Aidan Gomez de ekibe dahil oldu
- Gomez, University of Toronto’da Geoffrey Hinton’ın laboratuvarının bulunduğu makine öğrenimi grubuna katılmıştı ve Kaiser’e ilgili makaleyi genişletme fikrini göndererek staj fırsatı elde etti
- Kaiser ve Gomez, kendi projeleriyle self-attention projesini birleştirme konusunu tartıştı ve sonunda birleşmeye karar verdi

Rekor kıran deneyler ve son anda yapılan gönderim

Ekip, self-attention modeliyle makine çevirisi yaptı ve performansı BLEU benchmark’ıyla ölçtü
- İlk model, LSTM alternatifleriyle benzer düzeydeydi ama daha iyi değildi
- Noam Shazeer projeyi tesadüfen duyup katılınca implementasyon kalitesi büyük ölçüde yükseldi
Shazeer, transformer ekibinin kodunu bizzat yeniden implement etti
- Mevcut recurrent neural network’leri rahatsız edici buluyordu ve onları değiştirme fikriyle projeye katıldı
- Ekip üyeleri onun implementasyonunu “magic”, “alchemy”, “bells and whistles” gibi sözlerle anlattı; Uszkoreit ise self-attention gibi sezgisel bir mekanizmanın gerçekten çalışır hale gelmesi için deneyimli az sayıdaki implementasyon uzmanına ihtiyaç olduğunu düşünüyordu
2017’deki NeurIPS son teslim tarihi olan 19 Mayıs yaklaşırken deneylerin temposu arttı
- Ekip, 12 saat eğitilmiş temel transformer modelini ve 3,5 gün eğitilmiş daha güçlü Big modelini test etti
- English-to-German çeviride temel model tüm rakip modelleri geçti; Big modeli ise mevcut rekoru açık biçimde kıran BLEU puanı üretirken hesaplama verimliliğinde de daha iyiydi
Son teslimattan önceki iki hafta boyunca ekip, Building 1965’te yoğun şekilde çalıştı
- ablation ile hangi modül ve tekniklerin gerçekten gerekli olduğunu anlamak için bileşenleri çıkarıp değiştirerek test ettiler
- masking’in doğru yapılmamasından kaynaklanan sorunlar gibi hataları düzeltirken, transformer’ın bugünkü bileşenleri hızlı yinelemeli deneylerle şekillendi
Başlık, Llion Jones’un Beatles’ın “All You Need Is Love” şarkısını düşünerek önerdiği “Attention Is All You Need” oldu
- English-French sonuçları gönderimden 5 dakika önce çıktı ve makale son teslim tarihine 2 dakika kala gönderildi
- Google, savunma amaçlı patent portföyü için hızla geçici patent başvurusu yaptı

Google, OpenAI ve 8 kişinin sonraki yolculuğu

NeurIPS değerlendirmeleri karışıktı: biri olumlu, biri çok olumlu, biri de “fena değil” düzeyindeydi; makale akşam poster oturumuna kabul edildi
- 6 Aralık 2017’deki 4 saatlik oturum, daha fazlasını öğrenmek isteyen bilim insanlarıyla dolup taştı
- Oturumun bitiş saati olan 22.30’da bile insanlar kalmaya devam edince güvenlik görevlileri çıkmaları gerektiğini söylemek zorunda kaldı
- LSTM’nin ortak mucidi Sepp Hochreiter’in gelip çalışmayı övmesi, Uszkoreit için özellikle tatmin edici bir andı
transformer, Google içinde ya da dünyada anında baskın hale gelmedi
- Shazeer, makalenin yayımlandığı sıralarda Google yöneticilerine tüm arama indeksini bırakıp transformer tabanlı dev bir ağ eğitme fikrini önerdi
- Kaiser bile o dönemde bu öneriyi gerçek dışı buluyordu
- OpenAI ise daha hızlı hareket etti; Ilya Sutskever’ın Alec Radford’a bu fikir üzerinde çalışmasını önermesinin ardından ilk GPT ürünü ortaya çıktı
Google, 2018’den itibaren ürünlerine transformer entegre etmeye başladı
- İlk kullanım alanı çeviri aracı oldu
- Aynı yıl transformer tabanlı dil modeli BERT’i duyurdu ve ertesi yıl bunu aramaya uygulamaya başladı
- Sundar Pichai, ChatGPT benzeri büyük dil modellerini neden daha önce çıkarmadıkları sorulduğunda, başkaları nasıl çalıştığını gösterdikten sonra Google’ın daha fazla şey yapabildiğini söyledi
Makalenin 8 yazarının tamamı Google’dan ayrıldı
- Noam Shazeer, tahmini değeri 5 milyar dolar olan Character AI’ı kurucu ortak olarak başlattı
- Llion Jones, Tokyo merkezli Sakana AI’ın kurucu ortaklarından oldu; şirketin değeri 200 milyon dolar
- Jakob Uszkoreit’in Inceptive’i, 300 milyon dolar değerlemeye sahip bir biyoteknoloji şirketi
- Illia Polosukhin’in Near projesi, piyasa değeri yaklaşık 4 milyar dolar olan bir tokene sahip blockchain geliştirdi
- Niki Parmar ve Ashish Vaswani, 2021’de Adept’i başlattı; ardından Essential AI’ı kurdu ve Essential AI 8 milyon dolar yatırım aldı
- Aidan Gomez, 2019’da Toronto’da Cohere’in kurucu ortaklarından biri oldu; tahmini değeri 2,2 milyar dolar
- Łukasz Kaiser şirket kurmak yerine OpenAI’a katıldı ve Q* adlı yeni teknolojinin mucitlerinden biri oldu
Near hariç bu kişilerin şirketleri transformer teknolojisi üzerine kurulu
- Google, alışılmadık fikirlerin peşinden gidilebilecek bir ortam yaratmıştı ve tüm yazarlar aynı ofiste çalışıyordu
- Koridorda karşılaşmalar ve öğle yemeği sohbetleri önemli tetikleyiciler oldu
- 8 kişiden 6’sı ABD dışında doğdu; kalan 2 kişiden biri Alman ebeveynleri Kaliforniya’da kısa süreli bulunurken doğdu, diğeri ise zulümden kaçmış bir aileden gelen birinci kuşak Amerikalıydı
- Uszkoreit’e göre yenilik; doğru koşullar, doğru zamanda bir araya gelen insanlar, eğlence, doğru problem ve şans birleştiğinde ortaya çıkıyor

1 yorum

GN⁺ 2024-03-21

Hacker News yorumları

Bir attention modelinden ziyade, attention o makalelerden önce de vardı
Onların yaptığı şey, belirli bir bağlamda bir sonraki kelime dizisini tahmin etmek için bunun tek başına yeterli olduğunu göstermeye daha yakındı. 2018'de benzer bir çerçeve kullandığımda çok tuhaf ama ilginç davranışlar ortaya çıktı; bunu çözmeye çalıştık ama diğer gruplar gibi basit bir algoritmada hesaplama ölçeğini büyütmenin daha iyi olduğunu göremedik. Bir grubun yapay zekayı keşfedip değiştirdiğini söyleyip diğer grupları yok saymak sinir bozucu. Bu araştırmacılar övgüyü hak ediyor, ama modern yapay zekayı icat etmekten çok onu ilginç bir şekilde ilerlettiler. Bugün bile daha deterministik yaklaşımlara, dünya modellerine, belleğe, graflara ve enerji minimizasyonuna dönme yönünde akımlar var; üretken modeller eğlenceli ve çok şey öğrendik, ama sadece çiplere sürekli daha fazlasını ekleyerek AGI/SGI'nin çözülebileceği hâlâ bir makaleyle ortaya konmuş değil
- Bu çok cimri ve garip biçimde küçümseyen bir yorum. O yüzden HN'ye tam uyuyor olabilir
  Bugünün şaşırtıcı son teknolojisi Transformer mimarisi olmadan var olamazdı. Transformer yalnızca hesaplama ölçeğinden faydalanan şanslı bir yolcu olsaydı, dünyayı sarsan uygulama ChatGPT değil ChatMLP ya da ChatCNN olurdu. Ama öyle değil; 2024'te bile doğal dil işlemede onunla rekabet edebilecek bir mimari yok. Transformer, eğitim paralelliği gibi müthiş özelliklere sahip gerçekten derin ve şaşırtıcı bir fikir. Geriye dönüp bakınca GPT'yi büyük ölçüde türev bir fikir gibi aşağı görmek kolay; bir gün Transformer'ın yerini alacak durum uzayı modelleri gibi şeylere de aynı revizyonizmi uygulayacağız. GPT'nin önceki çalışmalar üzerine inşa edildiği ve diğer yaklaşımların da takdir edilmesi gerektiği elbette doğru. Bilim böyle işler. Ama Transformer'ı yapanlar bu makalede olduğu gibi övgüyü hak ediyor ve bu da diğer herkesi küçümsemek anlamına gelmiyor. Bu 8 kişi dünyayı değiştirdi ve içtenlikle sevilmeyi hak ediyor
- “Basit bir algoritmada hesaplama ölçeğini büyütmenin daha iyi olduğu” şeklindeki acı ders bir kez daha işlemiş oldu
  http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- Onların kesinlikle yapay zekayı değiştirdiğini düşünüyorum, ama modern yapay zekayı icat ettiklerini söylemek doğru değil bence
  Kişisel olarak AGI'ye yaklaşmak için hem hesaplama gücünün hem de sinir ağı mimarisinin gerekli olacağını düşünüyorum
- Nörobilim okuyorum ama yapay zekanın nasıl çalıştığıyla da çok ilgileniyorum
  Eski yöntemleri okudum, ama bellek grafı ve enerji minimizasyonu gibi ifadeler bana yeni. Daha fazla öğrenmek isteyen biri için önerebileceğiniz güncel makaleler veya yazılar var mı merak ediyorum
- “Yapay zekayı kademeli olarak ilerleten Google mühendisleri” hakkında bir makale olsaydı pek reklam satamazdı
Google'ın altın çağı olan 2014 civarında Uszkoreit'in o zamanki doğal dil işleme ekibindeki rolü üzerine konuşmuştuk
“Bütçen sınırsız olsaydı ne yapardın?” diye sorduğumda, sadece “Zaten öyle” diye yanıtlamıştı
- Doktora stajyeriyken Uszkoreit ile aynı ofisi paylaşıyordum ve doktorayı yarıda bırakmasını her zaman havalı bulmuştum
- Güzel hikâye ama Google'ın altın çağı muhtemelen bundan 10 yıl kadar önceydi. 2014'te düşüş çoktan başlamıştı
- Borg'da çalıştım
  Kota sistemi sınıra ulaştığı anda her an devreye girebilir ve GPU'lar birden çok Borg hücresine dağılmış olduğundan üst sınır kısıtlanır. Bu yüzden araştırmacıların tüm Borg hücrelerinde küresel arama yapabilmesi için XBorg oluşturuldu. Veri merkezi sermaye harcamaları yılda yaklaşık 5 milyar dolar ve Google her yıl yüz milyarlarca dolar gelir elde ediyor. Sınırsız bütçe gibi imkânsız bir durumu sormak, “öldükten sonra ne yapardın” demeye benziyor. Ölünce kelimenin tam anlamıyla hiçbir şey yapamazsınız. O sorunun bağlamında “Zaten öyle”nin ne anlama geldiğini anlamak da zordu; sınırsız bütçesi olduğu varsayımına verilen doğrudan tepki buydu
- Eğlenceli zamanlardı. Uzun zaman sonra yeniden görmek güzel; o dönemde yaptıklarımızı düşününce teknolojinin buraya kadar gelmiş olması şaşırtıcı
“Gerçekçi olarak 2019'da, belki 2020'de GPT-3 hatta GPT-3.5 bile çıkabilirdi. Büyük soru onların bunu görüp görmediği değil, bizim bunu görüp neden hiçbir şey yapmadığımız. Cevap karmaşık”
Cevap, tekelci şirketlerin teknolojik yeniliği bastırmasıdır. Zaten yerleşik olan reklam odaklı arama işi, yeni yükselen bir chatbot nedeniyle arama reklamı gelirlerini kaybedebilirdi. Elektrik şirketlerinin, gaz santrallerinin ve kaya gazı üreticilerinin yatırımcıların sahip olduğu bir konsorsiyumda birleşmesine benziyor. Elektrik şirketi bölümü, güneş panellerini kitlesel olarak kurup kamu hizmeti şirketlerine sattıkları doğal gaz gelirini kesmek ister mi? Elbette hayır. Alphabet'e Ma Bell tarzı bir antitröst bölünmesi uygulamak için iyi bir gerekçe
- Daha iyi bir örnek, 1975'te ilk dijital kamerayı icat edip kimyasal film işine tehdit oluşturduğu gerekçesiyle projeyi öldüren Kodaktır
- Bu konunun ayrıntılarını biliyordum. Sundar, GPT-3 seviyesinde bir ürünü karakter biçiminde yapan NEMA ekibinin I/O'da sunum yapmasını engelledi
  Sundar bu teknolojiden ve kamuoyu tepkisinden korktu, onu gömmeye çalıştı
- Öte yandan Alphabet'in GPT-3 veya GPT-3.5'i yayımlayamaması sayesinde kendi kendini sarsma ihtimali doğdu; bu yüzden antitröst önlemlerine gerek olmayabilir
- Dürüst olmak gerekirse, 10 yıl sonra Google'ın hâkim şirket olmayacağını düşünmemin nedenlerinden biri de bu
  Web'de bilgi aramak birçok faydalı işi çözüyor, ama artık bunların çoğunu ChatGPT, Claude vb. daha iyi yapıyor. Gemini var, ama Google mevcut ürününün arama reklamı gelirlerinden vazgeçmeyi göze alarak bir gün Gemini aramasından para kazanabilir mi? Büyük dil modeli arayüzünde reklamların nasıl yerleştirileceği hâlâ çözülmüş değil. Google bazen internet çağının eski usul gazetesi gibi geliyor. Web reklam modelinin oturması da zaman almıştı
Google’ın bugünün OpenAI’ı olmaması epey tuhaf. Başlarda DeepMind’a ve doktora dereceli insan ordusuna sahip olmasına rağmen böyle oldu
- Büyük dil modelleriyle sohbet etme biçimi Google’ın iş modelini aşırı derecede sarsıyor; altın yumurtlayan tavuğu öldürmeden bunu ürüne dönüştürmek zor
- Sonuçta bunu, zamanlamanın her şey olduğunun kanıtı olarak görüyorum
  2010’lardaki derin öğrenme hâlâ GPU’ları nasıl kullanacağını anlamaya çalışıyordu. GPT-2’den sonra gereken hesaplama ölçeği 2017/2018’de neredeyse imkânsız olurdu. Udacity derslerinde bile K80 GPU’yu birkaç saat kullanmak seviyesindeydi. Ancak 2020 civarında ölçek hipotezini test etmeye yetecek kadar akıl almaz hesaplama kaynağı ayırmak mümkün oldu. Büyük dil modellerinin yükselişi, algoritmalar kadar GPU gelişiminin de hikâyesi; bu açıdan acı dersin net bir kanıtı
- Bugünün OpenAI’ının ne olduğuna dair daha fazla açıklama gerekiyor. Google, çeşitli işleri olan trilyon dolarlık bir şirket; OpenAI ise büyük üretken model erişimi satan bir şirket
- OpenAI olmak için Google’ın oldukça fazla düşmesi gerekir
- Microsoft devreye girmeden önce yapay zeka topluluğu içinde, açıkça iş birliği yapıp belirli modelleri kamuya açmamak gibi bir dereceye kadar örtük bir kural vardı
Geoffrey Hinton ile Fei-Fei Li arasındaki bu sohbet, ilgili tarihin epey büyük bir kısmını ele alıyor. Süresi 1 saat 50 dakika
https://www.youtube.com/watch?v=QWWgr2rN45o
https://www.youtube.com/watch?v=E14IsFbAbpI
Hinton’ın araştırma geçmişini, neden o yöne gittiğini ve Li’nin ImageNet için harcadığı çabayı da kapsıyor
“Yazarların tamamı yalnızca Google çalışanı olmakla kalmıyor, aynı ofiste çalışıyordu”
Hafif bir ofise dönüş tanıtımı gibi görünüyor. Yüz yüze iş birliği ile kesintisiz derin odaklanma süresinin karışımı muhtemelen inovasyon için en iyi teknik
- “Kesintisiz derin odaklanma süresi” sıradan bir ofiste genelde mümkün değildir
  Bu yüzden gerçekte daha çok hibrit bir yaklaşıma benziyor; makul insanlar da zaten bunu söylüyor
- Son 2 yıl uzaktan çalıştıktan sonra yeni ekibimde ofise döndüm; gerçekten işleri hızlıca bitirmek istediğinizde hayat değiştirecek kadar fark ediyor
- Pek de hafif sayılmaz
- “Ofis” mutlaka open office anlamına gelmek zorunda değil
  Akademide insanların kapısı olan kişisel ofislere sahip olmasının bir nedeni var. Open office’ten gerçekten nefret ediyorum ama içinde başka insanların olduğu bir binadaki kişisel ofis harika
“8 kişiden 6’sı ABD dışında doğmuştu; kalan 2 kişiden biri, o sırada geçici olarak California’da bulunan daimi oturum sahibi Alman ebeveynlerin çocuğu, diğeri ise zulümden kaçmış bir aileye sahip birinci nesil Amerikalıydı”
ABD’nin düzeltmesi gereken çok şey olduğunu düşünüyorum ama dünyada böyle bir şeyin mümkün olduğu tek ülke ABD. Bu bir gerçek
- Pek öyle görünmüyor. Aksine ABD, yüksek vasıflı iş göçmenleri için bile hayatı çok zorlaştırıyor
  Singapur, Avustralya, Almanya, Kanada gibi, yabancı doğumlu yerleşik nüfus oranı ABD’den yüksek birçok ülke var. Eskiden Google UK’de çalışırken ekibim, tüm kıtalardan gelen yabancı doğumlu mühendislerden %100 oluşuyordu
- Katılıyorum. Asya, Avrupa ve ABD’de yaşamış ya da çalışmış biri olarak, meslektaş grubunun en çeşitli olduğu yer her zaman ABD’ydi
Google çalışanlarının ilk Transformer implementasyonunu ve inceleyenlerin yorumlarını cs/ içinde görebilmesi epey harika
Yapay zeka tarihindeki anıtsal anların bu kadar çoğu Google intranetinde böyle saklanıyor
Dikkat çeken bir bölüm
“8 kişiden 6’sı ABD dışında doğmuştu; kalan 2 kişiden biri, o sırada geçici olarak California’da bulunan daimi oturum sahibi Alman ebeveynlerin çocuğu, diğeri ise zulümden kaçmış bir aileye sahip birinci nesil Amerikalıydı”
- Daha ilginç olan, içlerinden yalnızca birinin ABD’nin seçkin lisans okullarından Duke’tan mezun olması
  Diğerleri Hindistan, Ukrayna, Almanya ve Kanada’daki lisans okullarından geliyor; University of Toronto’nun kabul oranı ise %43
- Özellikle ABD’de bunun neden dikkat çekici olduğunu anlamıyorum
  ABD’ye kıyasla göçmenlere daha az açık olan Çin ya da Japonya gibi bir ülke olsaydı ilginç bir gözlem olabilirdi
- Doğru. Bu, ABD’nin ve özellikle California’nın gerçekten saygı duyulacak özelliklerinden biri
  California’nın dünyanın en büyük ekonomilerinden biri olmasının nedeni, dünyanın neredeyse her bölgesinden insanları kendine çekmesi ve kabul etmesi

Transformer’ı Yaratan Google Çalışanları

“Attention Is All You Need”ın yarattığı dönüşüm

self-attention fikrinin başlangıcı

Tesadüfi buluşma ve “transformer” ekibinin oluşumu

Rekor kıran deneyler ve son anda yapılan gönderim

Google, OpenAI ve 8 kişinin sonraki yolculuğu

İlgili okumalar

1 yorum

Hacker News yorumları