30 puan yazan xguru 2024-04-21 | 4 yorum | WhatsApp'ta paylaş
  • Dwarkesh Patel ile yaptığı röportajda Llama 3, AGI’ye giden yolda açık kaynak, özel silikon ve ölçeklemedeki enerji kısıtları gibi konular konuşuluyor; aşağıda tüm metnin kısa bir özeti yer alıyor

Llama 3

  • Meta, açık kaynak model Llama 3’ü yayımlayarak Meta AI’ın yeni sürümünü çalıştırmayı planlıyor
  • Meta AI, en zeki ve serbestçe kullanılabilen yapay zeka asistanı olmayı hedefliyor
  • Llama 3, şu anda yayımlanmış 8B, 70B ve hâlâ eğitilmekte olan 405B boyutlarında Dense modeller olarak sunuluyor
  • Çok modlu, çok dilli ve daha büyük bağlam penceresine sahip yeni sürümler için bir yol haritası var; 405B’nin bu yıl içinde kademeli olarak sunulması planlanıyor
  • 405B hâlen eğitim aşamasında ve şimdiden 85 MMLU’ya ulaştı; çeşitli benchmark’larda lider olması bekleniyor
  • 8B Llama 3 modeli, en büyük boyutlu Llama 2 modeliyle neredeyse eşdeğer performans gösteriyor
  • 70B de çok güçlü ve şimdiden 82 MMLU seviyesinde

GPU

  • Meta, hisse fiyatının sert düştüğü 2022 yılında Reels’i geliştirmek için H100 GPU tedarik etti
  • TikTok’un yaptıklarını istedikleri hızda yakalamada altyapı sınırlayıcıydı; aynı duruma bir daha düşmemek için siparişi iki katına çıkardılar
  • İleride büyük model eğitimi için gerekeceğini öngörmüş olsalar da, o dönemde bunun sadece içerik önerileri için olduğunu düşünüyorlardı
  • Geriye dönüp bakınca bu çok iyi bir karardı ve bunu, geride kalmış olmaları sayesinde alabildiler
  • Bu, “Ah, fazla erken davrandım” türünden bir durum değildi
  • Aslında aldıkları kararların iyi sonuçlandığı çoğu durumda, bunun nedeni daha önce bir şeyi yanlış yapmış olmaları ve aynı hatayı tekrar etmek istememeleri

AGI’ye (Artificial General Intelligence) giden yolda kodlama ve muhakeme yeteneğinin önemi

  • Meta, modellerin gerçek kullanım senaryolarını çözebilmesi için, doğrudan kodlama soruları almasa bile kodlama ve muhakeme yeteneklerinin önemli olduğunu kabul ediyor
  • Nihai hedef, AGI’yi çözmek ve modelin çok adımlı karmaşık görevleri yerine getirebilmesini sağlamak
  • AGI’ye, çok modluluk, duygu anlayışı, hafıza gibi farklı yeteneklerin kademeli olarak eklenmesiyle ulaşılacağı düşünülüyor

Enerji ve ölçeklenebilirlik darboğazları

  • Model boyutlarında üstel ilerleme sürebilir, ancak sonunda enerji ve altyapı darboğazlarına çarpılacak
  • Bugün birçok veri merkezi yaklaşık 50 megavat veya 100MW düzeyinde; büyük veri merkezleri ise 150MW civarında
  • Ancak 300MW, 500MW hatta 1GW ölçeğinde veri merkezleri kurulmaya başlanacak; 1GW ölçeği henüz yok ama yakında olabilir
  • Fakat 1GW seviyesinde, sadece model eğitimi için nükleer santral ölçeğinde güç gerekir; bu tür gigawatt ölçekli kümeleri kurmak da sıkı izin süreçleri nedeniyle yıllar alacaktır

Yapay zeka devriminin önemi

  • Yapay zeka, bilgisayarın icadı kadar temelden bir dönüşüm ve çalışma biçimimizi değiştirip yeni yaratıcı araçlar sağlayacak
  • Kozmik zaman ölçeğinde ilerleme hızlı olacak, ancak darboğazlar nedeniyle bir gecede bir zeka patlaması yaşanmayacak
  • Zekanın bilinç ve öznellikten ayrılabildiği bir yöne gidiliyormuş gibi görünüyor; bunun çok değerli bir araç olabileceği düşünülüyor

Açık kaynak ve güç dengesi

  • Güçlü yapay zekanın az sayıda elde yoğunlaşması, yaygın biçimde erişilebilir olmasından daha az riskli olmayabilir
  • Açık kaynağı net biçimde destekliyorlar, ancak yaptıkları her şeyi açık hâle getirmiş değiller
  • Açık kaynak sayesinde topluluk modeli güçlendirebilir ve daha dengeli bir rekabet zemini sağlanabilir
  • Ancak bir noktada bu yeteneklerde niteliksel bir değişim olur ve açık kaynak yapmanın uygun olmadığına karar verilirse, bunu açık kaynak yapmayacaklar. Her şeyi öngörmek çok zor
  • Meta, sorumlu ve faydalı olduğu sürece açık kaynağı benimsiyor; ayrıca bulut sağlayıcılarından model kullanımı için ücret talep edebilir
  • Kısa vadede odak, modelin kötüye kullanımından doğan gerçek zararları azaltmak; uzun vadede ise varoluşsal riskler

10 milyar dolarlık modeli neden açık kaynak yaptılar

  • Mobil ekosistemin can sıkıcı yanı, Apple ve Google gibi iki kapı bekçisi şirketin bulunması
  • Bu iki şirket, ne inşa edip edemeyeceğinizi size söylüyor
  • Bir de ekonomik taraf var; biz bir şey yaptığımızda paranın bir kısmını onlar alıyor, ama daha da sinir bozucu olan niteliksel taraf
  • Birçok kez bir özelliği yayımladıkları ya da yayımlamak istedikleri hâlde Apple “Hayır, bu yayımlanamaz” dedi
  • Bu gerçekten sinir bozucu; peki yapay zekada da böyle bir dünyaya girmek ister miyiz?
  • Kapalı model işleten birkaç şirket, API’leri kontrol edip sizin ne inşa edebileceğinizi belirleyebilir mi?
  • Böyle bir konuma düşmemek için modeli kendilerinin inşa etmesinin değerli olduğu söylenebilir
  • Başka hiçbir şirketin, ne yapabileceklerini kendilerine söylemesini istemiyorlar
  • Açık kaynak açısından bakıldığında, birçok geliştiricinin de bu şirketlerin kendilerine ne yapabileceklerini söylemesini istemediği düşünülüyor
  • O hâlde mesele, bunun etrafında nasıl bir ekosistem kurulacağı
    • İlginç yeni şeyler neler olacak?
    • Bu, ürünlerini ne kadar iyileştirebilir?
  • Veritabanı, caching sistemi ya da mimaride olduğu gibi, topluluktan daha iyi ürünler inşa etmeye yardımcı olan değerli katkılar alınabileceği düşünülüyor
  • Böylece uygulamaya özel yaptıkları işler yine farklılaştırıcı olacak ve modelin kendisi görece daha az belirleyici hâle gelebilecek
  • Kendi yaptıkları işi yapmaya devam edebilecekler
  • Açık kaynak olduğu için hem onların hem de topluluğun tüm sistemleri daha iyi olacak
  • Ama bunun geçerli olmadığı bir dünya da olabilir
  • Belki de model, ürünün kendisine daha yakın bir şeye dönüşebilir
  • Ekonomik hesap daha karmaşık hâle gelebilir; açık kaynak yapılsa da yapılmasa da kendinizi ciddi ölçüde metalaştırmış olursunuz
  • Ama şu ana kadar görünen tabloya göre henüz o aşamada değiller

Modelin gelir modeli

  • Bulut sağlayıcılarına model lisansı verildiğinde önemli gelir elde edilmesi bekleniyor mu?
  • Llama, birçok açıdan oldukça izin verici bir açık kaynak lisansına sahip
  • Ancak bunu kullanan büyük şirketlere yönelik bazı sınırlamalar var; bu sınırlamaların sebebi de bu
  • Onların kullanmasını engellemeye çalışmıyorlar; ama temelde Meta’nın yaptığını alıp yeniden satarak para kazanmak istiyorlarsa, önce gelip konuşmalarını istiyorlar
  • Microsoft Azure veya Amazon gibi şirketler modeli yeniden satacaksa, bunun için bir gelir paylaşımı olması gerektiğini düşünüyorlar
  • Yani bunu yapmadan önce gelip konuşmaları isteniyor; süreç bu şekilde işliyor
  • Bu nedenle Llama-2 için fiilen tüm büyük bulut şirketleriyle anlaşma yaptılar ve Llama-2 bugün tüm bulutlarda barındırılan hizmet olarak sunuluyor
  • Gittikçe daha büyük modeller yayımladıkça bunun daha da büyük bir konu hâline geleceğini düşünüyorlar
  • Bu, yaptıkları ana iş değil; ancak bu şirketler onların modelini satıyorsa, ortaya çıkan avantajın bir şekilde paylaşılmasının makul olduğu düşünülüyor

Özel silikon

  • Meta, büyük modelleri verimli çalıştırmak için özel silikon geliştiriyor
  • Llama-4 için değil ama önce sıralama ve öneri türü çıkarımları çalıştırabilecek özel silikon geliştirip Reels, News Feed reklamları gibi alanlarda kullandılar
  • Bunları kendi silikonlarına taşıyabildikleri için artık daha pahalı NVIDIA GPU’ları yalnızca eğitim için kullanabiliyorlar
  • Bir gün silikonu kendileri geliştirip önce basit eğitimlerde, sonra da gerçekten büyük modellerin eğitiminde kullanabilmeyi umuyorlar
  • Bu arada programın oldukça iyi ilerlediğini, sistematik biçimde devreye alındığını ve uzun vadeli bir yol haritasına sahip olduğunu söylüyorlar

4 yorum

 
laeyoung 2024-04-22

"1GW ise, sadece model eğitimi için bile bir nükleer santral ölçeği gerekiyor"

Artık foundation model eğitmek için nükleer program geliştirmek(?) gerekiyor galiba.

 
tsboard 2024-04-22

Oldukça fazla kaygısı var gibi görünüyor. Platformu elinde tutan Google ve Apple’a karşı net antipatisi ise anlaşılabilir.

 
daejin 2024-04-22

"10 milyar dolarlık modeli neden açık kaynak yaptıkları" bölümü, özet bir yazı olmasına rağmen yine de insanın ufkunu açan tarafları var gibi görünüyor.

 
realg 2024-04-21

Güzel içerik için teşekkürler