Jeff Dean: Makine Öğrenimindeki Son Eğilimler [Video]

(youtube.com)

25 puan yazan GN⁺ 2024-02-21 | 3 yorum | WhatsApp'ta paylaş

Jeff Dean(Google): makine öğrenimindeki ilgi çekici trendler

Makine öğrenimindeki ilgi çekici eğilimler ve beklentiler

Makine öğrenimi, son birkaç yılda bilgisayarların neler yapabileceğine dair beklentilerimizi büyük ölçüde değiştirdi.
Dil, görüntü, doğal dil işleme ve diğer tüm alanlarda bilgisayarlar, dünyayı daha iyi algılama ve anlama yeteneği kazandı.
Bilgisayarların görebilmesi ve algılayabilmesi yönündeki teknolojik ilerleme, insan faaliyetinin neredeyse her alanında birçok fırsatın önünü açtı.
Daha büyük ölçekte hesaplama kaynakları ve uzmanlaşmış bilgisayarlar gibi gelişmeler, daha iyi sonuçlar sağladı ve yeni olasılıkların önünü açtı.
Bilgisayarların yapabileceklerinin kapsamını daha verimli biçimde daraltırken yüksek verimle çalışabilecek daha çeşitli donanım biçimlerine ihtiyacımız var.

Ses tanıma, çeviri ve görüntü analizi teknolojilerindeki gelişmeler ile tahmin doğruluğundaki artış

Ses tanıma teknolojisi, ses dalga formunu 5 saniyelik anlamlı konuşmaya dönüştürür ve bu alanda büyük ilerleme kaydedildi.
Çeviri teknolojisi, bir dilden başka bir dile çeviriyi bilgisayarlar için çok faydalı bir işlev haline gelecek şekilde gelişiyor.
Görüntü analizi teknolojisi, yalnızca etiket adlarını değil, sahneyi açıklayan kısa cümlelere dönüştürme yeteneğiyle de bilgisayarlı görü alanında büyük ilerleme sağladı.
Ayrıca, önceki birkaç yıl içinde bu teknolojileri ters yönde kullanmak da mümkün hale geldi.
10 yıl içinde insan doğruluğunu da aşan performans iyileşmelerinin görülmesi dikkat çekici.

Yapay zeka modellerinin kalitesini artırmak için donanım ölçeklemenin önemi

Ses tanıma doğruluğunu ölçen temel ölçütlerden biri olan 'Word Error Rate', %13.25'ten %2.5'e kadar büyük ölçüde iyileşti.
Bu sayede kullanılabilirlik ciddi biçimde arttı; artık e-postayı sesle yazdırmak veya dikte yapmak için yeterince güvenilir hale geldi.
Özellikle donanımın ölçeklenmesi model kalitesini artırmaya yardımcı olur ve bunun için makine öğrenimine optimize edilmiş donanım gerekir.
Sinir ağı (neural network) modellerinin önemli bir özelliği, azaltılmış hassasiyet kullanıldığında da sorun yaşamamalarıdır; bu sayede daha verimli model eğitimi mümkündür.
Ayrıca model eğitiminde kullanılan algoritmalar, lineer cebir işlemlerinin çeşitli kombinasyonlarından oluştuğu için, azaltılmış hassasiyetli lineer cebir işlemlerini verimli biçimde işleyebilen bilgisayarlara ihtiyaç vardır.

Bilgisayar ağlarındaki gelişmeler ve dil modellerine duyulan tutku

İlk nesil, basit ama yüksek bant genişlikli bir ağ idi. Her çip 2D grid şeklinde bağlanmıştı ve 16x6 grid üzerinde 4 komşu çipe kablolarla bağlıydı.
Bu sayede ağ içinde yönlendirme gerekmiyor ve çipler kısa mesafelerle bağlandığı için yüksek bant genişliği, düşük maliyetli bağlantı mümkün oluyordu.
Sonraki nesilde sistem 8 rack üzerinde 1024 çipe kadar genişletildi; bir sonraki nesilde ise 64 rack'in her birinde 64 çip kullanıldı.
Özellikle yakın dönemde V5 serisi çıktı; çıkarım için 256 çip kullanan V5P modeli, çip başına daha fazla bellek, daha yüksek bant genişliği ve bellek bant genişliği sunuyor.
Bu model, 16 bit kayan nokta performansında çip başına neredeyse yarım petaflop performans sunuyor ve XOR flop açısından çip başına yaklaşık 9.000 çiplik bir hesaplama düzeyi sağlıyor.
Bilgisayarların yapabildikleri arasında en büyük değişimin yaşandığı alanlardan biri dil. Görüntü ve ses tanıma alanındaki gelişmelerden söz edildi, ancak aslında dil modellerine ilgi NN ağlarından önce de vardı. Bu yüzden Google Çeviri ekibiyle birlikte dil modelleri üzerine araştırma yürüttük.

Büyük miktarda veri ve basit tekniklerle yüksek kaliteli çeviri sistemi kurmak

Bilimsel yarışmalar için geliştirilen yüksek kaliteli bir çeviri sistemini gerçek iş ortamında kullanmak için çaba gösterildi.
2 trilyon token içinde 5 kelimelik dizilerin ne kadar sık geçtiğine dair istatistik çıkarılarak bellekte 300 milyar benzersiz 5-gram saklayan bir sistem kuruldu.
Veri bulunamadığında önceki 4-gram, 3-gram vb. yapılara bakan yeni bir algoritma olan 'stupid backoff' geliştirildi.
Basit tekniklerin büyük veriyle birleştiğinde etkili sonuçlar verebildiği dersi çıkarıldı.

Kelimeleri yüksek boyutlu vektörlerle temsil ederek benzer bağlamdaki kelimeleri yakın, farklı bağlamdakileri uzak tutmak

Kelimeleri ayrık biçimde temsil etmek yerine, onları yüksek boyutlu vektörler olarak temsil ederek benzer bağlamdaki kelimeleri birbirine yaklaştırıp farklı bağlamdakileri uzaklaştırıyoruz.
Çok büyük miktarda veri kullanılarak bir training process üzerinden, benzer bağlamlarda ortaya çıkan kelimeler yaklaştırılır, farklı bağlamlarda çıkanlar uzaklaştırılır ve böylece uzay içinde benzer kelimeler birlikte gruplanır.
Dağıtık gösterimler, bir kelimeyi temsil eden 100 boyutlu vektörün içine çok sayıda bilgiyi kodlar; bu yaklaşım sayesinde 'sequence to sequence learning' adlı dil çeviri modeli geliştirildi.
'Sequence to sequence learning', sinir ağı kullanarak cümleleri tek tek girdiler halinde alır, cümleyi oluşturur ve her kelimenin dağıtık temsilini güncelleyerek çeviri çıktısını üretir.

Modelleri kullanarak doğal dil çevirisi ve çok turlu diyalog yürütmek

Eğitim verisinde İngilizce cümleler ile onlara karşılık gelen anlamdaki Fransızca cümleler birlikte bulunur ve model bu veriyle eğitilir.
Girilen İngilizce cümleden başlayarak Fransızca cümleyi üreten bir çeviri modeli kurulur.
Çok turlu diyalog için, önceki etkileşimlerden oluşan bağlam kullanılarak uygun yanıt üretmesi için model eğitilir.
Transformer modeli kullanılarak girdi paralel biçimde işlenir ve her bölüme odaklanılarak çeviri doğruluğu artırılır.
Günümüzde algoritmalar ve makine öğrenimi donanımındaki gelişmeler sayesinde daha büyük ölçekli modeller eğitmek ve daha verimli yanıtlar üretmek mümkündür.

Farklı modaliteleri ayrım yapmadan işleyebilen konuşma tabanlı çok modlu model geliştirmek

OpenAI'nin Mina, ChatGPT ve Google'ın Bard gibi sinir ağı tabanlı konuşma modellerindeki ilerlemelerden söz edildi.
Dil modellerindeki değişimden de bahsedildi; OpenAI'nin GPT2'si ve Google'ın T5 çalışması anıldı. Bu modellerde parametre sayısı büyük ölçüde artıyor.
Bu çalışmaların temelinde kullanılan Transformer'daki ilerlemelerden bahsedildi.
OpenAI'nin GPT3, GPT-4 ve Google'ın Gemini projeleri konuşuldu. Gemini projesi, yalnızca metni değil görüntü, ses gibi çeşitli modaliteleri aynı anda işleyebilen modeller geliştirmeyi hedefliyor.
Gemini projesi, metin ile görüntü, video ve sesi tek bir sequence olarak işler ve modeli Transformer tabanında eğitir. Bu sayede farklı modaliteler için tutarlı temsiller oluşturulabilir.

TensorFlow eğitim altyapısı, farklı boyutlardaki Gemini ürünleri ve otomatik kurtarma sistemi

TensorFlow'un Gemini'ı üç boyutta sunuluyor: Ultra, Pro ve Nano; her model farklı kullanım amaçları ve ortamlar için uygun.
Gemini, model eğitimi için çok yüksek ölçeklenebilirliğe sahip bir fabric sunuyor; yüksek performanslı ağ ve otomatik kurtarma sistemi içeriyor.
Tespit edilen failures'ı en aza indirmek için çok düğümlü ortamda yükseltmeler eşzamanlı uygulanıyor, yüksek hızlı ağ üzerinden diğer kopyaların durumu geri yükleniyor ve kurtarma süresi birkaç saniyeye indirilebiliyor.
Modeller çeşitli verilerle eğitiliyor; web belgeleri, kitaplar, kod, görüntü, ses ve video gibi farklı formatlar eğitim verisi olarak kullanılıyor.
Eğitim verisinin nihai bileşimi, küçük modellerle deney yapılıp performans değerlendirilerek belirleniyor; en iyi veri karışımını bulmak için çeşitli değerlendirme ölçütleri kullanılıyor.

Veri kalitesi önemlidir ve dikkate alınmalıdır; model mimarisinden daha önemlidir

Eğitimin son aşamasında alanla ilgili veriler kullanılarak çok dilli veri eklenir.
Yüksek kaliteli veri, model performansında büyük fark yaratır.
Otomatik olarak müfredat öğrenebilme yeteneği, gelecekteki araştırma alanlarından biridir.
Soru sorarken modelin daha etkili yanıt vermesini sağlama ve modelin güçlü yönlerini en iyi şekilde ortaya çıkarma yöntemleri üzerine de araştırmalar sürüyor.
Chain of thought prompting tekniği kullanıldığında model, daha çeşitli adımları dikkate alarak daha doğru yanıtlar verebilir.

Model değerlendirme ve performans analizi sonuçlarına bakmak

Bu model, öğrencinin yanlış sonuca ulaştığı bir örneği tanıtıyor ve düzeltilmesi gereken noktaları işaret ediyor.
Model 32 akademik benchmark üzerinde değerlendirildi ve Gemini Ultra modeli, 30 benchmark'ta önceki beklenen performansı aşan sonuçlar gösterdi.
Bu model çok dilli performansı da dikkate alıyor ve karmaşık trade-off'ları değerlendiriyor.
Modelin video anlama ve çok modlu yeteneklerinin güçlü olduğu, çeşitli benchmark'larda üstün performans gösterdiği belirtildi.

Gemini modeli güçlü ses tanıma performansı ve çok dilli yetenekler sunuyor; chatbot olarak programlama da yapabiliyor

Gemini modeli, çeşitli ses tanıma ölçütlerinde en üst düzey hata oranları gösterdi ve çok dilli yetenekleri de oldukça güçlü.
Ekip daha önce modeli değerlendirmek ve yeteneklerini ayrıntılı biçimde anlamak için büyük çaba harcadı.
Gemini modelinin faydalı bilgi ve programlama kodu da üretebilmesi oldukça etkileyici bulundu.
Ayrıca TPU'lar hakkında bilgi sahibi olduğu ve yüksek verimlilik ile performans artışı sağladığı da anlatılıyor.
Gemini modeli farklı chatbot kişiliklerine sahip olabilir; bunlardan Bard, sorulara yardımcı olan bir arkadaş rolünde sunuluyor ve bu modelin LMY sitesinde yüksek ELO puanı aldığı belirtiliyor.

Yapay zeka modellerinin kullanımı ve alana özel eğitim

Çeşitli modeller bulunuyor; bunların bazıları sıralamalarda üstlerde yer alan ücretsiz hizmetler, bazıları ise ücretli hizmetler.
Gemini, İngiltere, ABD, Güney Kore, Tayvan ve Singapur için 'milyon kişi başına şirket sayısı'nı hesaplayıp tablo halinde sunuyor.
En yüksek değerin İngiltere'de olduğu, ardından ABD, Güney Kore, Tayvan ve Singapur'un geldiği şeklinde yorum yapıyor.
Her bilgi farklı kaynaklardan toplanır ve kullanılan kesin tanıma göre gerçek sayılar biraz farklı olabilir.
Yapay zeka modelleri alan bazında eğitildiğinde belirli problemlerde uzmanlaşmış sonuçlar elde edilebilir.

Görüntü ve video üreten generative modeller hakkında kısa açıklama

Bu videoda görüntü ve video üreten generative model'ler kısaca açıklanıyor.
İlgili araştırma projeleri olarak 'Party' ve 'Imagine' anılıyor; görsel görüntü üreten modeller kurarken belirli bir görüntü üretmek için metin girdisi kullanılabiliyor.
Örneğin, yeni bir görüntü oluşturulmasını isteyen bir metin girdisini model yorumlayıp gerçek bir görüntü üretiyor.
Bu generative modeller, nesne betimlemeleriyle birlikte piksellere ilişkin metinsel temsiller temelinde görüntü üretir.
Bu yöntemle istenen metne dayalı görüntüler üretilebilir.

Görüntü özelliklerindeki gelişmeler akıllı telefon kullanıcılarına kolaylık sağlıyor

Görüntü analizi modelleri farklı parametrelerle birden çok kez eğitildiğinde, ölçeğe göre sonuçlar değişiyor.
Akıllı telefon kamera özellikleri, teknik fotoğrafçılık ile makine öğreniminin birleşimi sayesinde daha da gelişti.
Fotoğraf modu, gece modu, renk vurgulama, otomatik konuşma yanıtı gibi çeşitli özelliklerle gerçek zamanlı dönüştürme ve metin çıkarma mümkün hale geliyor.
Bu özellikler, kullanıcının bağlamını dikkate alarak sanki var olmayan şeyleri mümkün kılan dönüşümler ve yanıtlar sunuyor.
Net görüntü aktarımı ve çok dilli çeviri gibi olanaklarla, sınırlı okuryazarlık ortamlarında da çığır açıcı faydalar sağlıyor.

Makine öğrenimi teknolojisinin malzeme bilimi ve sağlık alanındaki kullanımı

Malzeme bilimi alanında makine öğrenimi, hızlı simülatör üretimi gibi birçok yönden etki yaratıyor.
Makine öğrenimi sayesinde olası malzemeleri araştırmak ve belirli özelliklere sahip materyalleri belirlemek konusunda büyük potansiyel bulunuyor.
Sağlık alanında da tıbbi görüntü teşhisinde makine öğrenimi kullanılıyor; diyabetik retinopati gibi durumlar erken tespit edilebiliyor.
Tıbbi görüntü analizi sayesinde doktor eksikliği olan bölgelerde hastalar triyaj edilebiliyor ve yapay zeka modelleri uzman hekimlere benzer etkililik gösterebiliyor.

Makine öğrenimi ve bilgisayarlar dünyayı değiştirirken, uygulama ve sorumluluk ilkeleri

GPU kullanılarak hızlı tarama ve fotoğraf üzerinden dermatoloji teşhisi yapılıyor.
Adil olmayan önyargının giderilmesi, model yorumlanabilirliği, mahremiyet, toplumsal fayda gibi makine öğrenimi uygulama ilkeleri açıklandı.
Hâlen önyargı, mahremiyet ve güvenlik gibi alanlarda araştırmalar sürüyor.
Makine öğrenimi ve hesaplamadaki ilerlemelerle kullanıcılarla doğal konuşma ve etkileşim mümkün hale gelirken, bilgisayarların çeşitli bilgi türlerini anlayıp üretebilmesi bekleniyor.
Bu teknolojilerin potansiyeli kadar topluma karşı sorumluluk da taşınmalı.

Ortaya çıkan sorular üzerinden verinin önemi ve müşteri ihtiyaçlarını tartışmak

Slido üzerinden gelen sorular arasından bazı eğilimleri temsil eden sorular seçilip paylaşıldı.
Veri alanında, yüksek kaliteli veri ve model kapasitesi model performansını artırabilir.
Ancak veri kalitesi ile model boyutu birlikte değerlendirilmelidir. Düşük kaliteli veri, modelin matematik problemi çözme becerisi gibi alanları olumsuz etkileyebilir.
Büyük miktarda video verisiyle eğitim henüz yeterince yapılmış değil; dünyayı yalnızca dil verisiyle değil, görsel ve ses verileriyle de anlamanın farklı olacağı düşünülüyor.
Genel olarak verinin tükendiği söylenemez; daha fazla ilerleme potansiyeli vardır.

Çok modlu modeller, her alan için hedeflenmiş modellerden daha mı iyi performans gösterir?

Çok modlu modeller bazı durumlarda daha iyi performans gösterebilir.
Modalite sayısı arttıkça diğer modalitelerdeki performansın da iyileşme eğilimi vardır.
Dar bir problem için hedefli veri seti toplandığında, o problemde daha yüksek performans elde edilebilir.
Ancak problem karmaşıksa veya uzmanlaşmış veri toplamak zorsa, çeşitli bilgiye sahip modellere ihtiyaç vardır.
Sınırlı kaynağa sahip bireylerin büyük modelleri eğitmesi zor olduğundan, machine learning alanında keşfedilecek çeşitli araştırma konuları vardır.

GPU ile model araştırması ve farklı veri modalitelerinin önemine vurgu

Tek bir GPU veya az sayıda GPU ile veri kalitesi değerlendirmesi, otomatik değerlendirme, çevrimiçi müfredat öğrenimi ve optimizasyon yöntemleri gibi araştırmalar yapılabilir.
Transformer araştırması 8 GPU üzerinde yürütüldü. LLM ve sequence-to-sequence modelleri de 8 GPU ile araştırıldı.
LLM ve Transformer her şey mi sorusu gündeme geldi; makine öğreniminde başka model araştırmalarının rolünün ne olacağı da tartışılıyor.
Başka fikirlerin dikkat çekici ilerleme sağlayamaması, fazla somutlaştırılmamış ya da daha az incelenmiş fikirlerin dışlanmasına yol açan bir durum olabilir ve bu kaygı vericidir.
Görsel, ses ve dilin yanı sıra sağlıkta kalp atışı sensörü verileri gibi diğer modaliteleri de ele almanın önemli olduğu düşünülüyor.

3 yorum

everfrost314 2024-02-21

Yarısı Gemini konuşması gibi olmuş haha

xguru 2024-02-21

Video içeriği Lilys.AI tarafından özetlenmiştir.

https://lilys.ai/digest/297050/…

iyeti 2024-02-21

Teşekkürler.. xguru zaten hazırlamıştı, ben de sonucu 1 saniyede gördüm... ^^

Jeff Dean: Makine Öğrenimindeki Son Eğilimler [Video]

İlgili okumalar

3 yorum