Mark Zuckerberg röportajı - Llama 3, 10 milyar dolarlık modeli neden açık kaynak yaptı?

xguru · 2024-04-21T13:19:58+09:00

Dwarkesh Patel ile yaptığı röportajda Llama 3, AGI’ye giden yolda açık kaynak, özel silikon ve ölçeklemedeki enerji kısıtları gibi konular konuşuluyor; aşağıda tüm metnin kısa bir özeti yer alıyor Llama 3 Meta, açık kaynak model Llama 3’ü yayımlayarak Meta AI’ın yeni sürümünü çalıştırmayı planlıyor Meta AI, en zeki ve serbestçe kullanılabilen yapay zeka asistanı olmayı hedefliyor Llama 3, şu anda yayımlanmış 8B, 70B ve hâlâ eğitilmekte olan 405B boyutlarında Dense modeller olarak sunuluyor Çok modlu, çok dilli ve daha büyük bağlam penceresine sahip yeni sürümler için bir yol haritası var; 405B’nin bu yıl içinde kademeli olarak sunulması planlanıyor 405B hâlen eğitim aşamasında ve şimdiden 85 MMLU’ya ulaştı; çeşitli benchmark’larda lider olması bekleniyor 8B Llama 3 modeli, en büyük boyutlu Llama 2 modeliyle neredeyse eşdeğer performans gösteriyor 70B de çok güçlü ve şimdiden 82 MMLU seviyesinde GPU Meta, hisse fiyatının sert düştüğü 2022 yılında Reels’i geliştirmek için H100 GPU tedarik etti TikTok’un yaptıklarını istedikleri hızda yakalamada altyapı sınırlayıcıydı; aynı duruma bir daha düşmemek için siparişi iki katına çıkardılar İleride büyük model eğitimi için gerekeceğini öngörmüş olsalar da, o dönemde bunun sadece içerik önerileri için olduğunu düşünüyorlardı Geriye dönüp bakınca bu çok iyi bir karardı ve bunu, geride kalmış olmaları sayesinde alabildiler Bu, “Ah, fazla erken davrandım” türünden bir durum değildi Aslında aldıkları kararların iyi sonuçlandığı çoğu durumda, bunun nedeni daha önce bir şeyi yanlış yapmış olmaları ve aynı hatayı tekrar etmek istememeleri AGI’ye (Artificial General Intelligence) giden yolda kodlama ve muhakeme yeteneğinin önemi Meta, modellerin gerçek kullanım senaryolarını çözebilmesi için, doğrudan kodlama soruları almasa bile kodlama ve muhakeme yeteneklerinin önemli olduğunu kabul ediyor Nihai hedef, AGI’yi çözmek ve modelin çok adımlı karmaşık görevleri yerine getirebilmesini sağlamak AGI’ye, çok modluluk, duygu anlayışı, hafıza gibi farklı yeteneklerin kademeli olarak eklenmesiyle ulaşılacağı düşünülüyor Enerji ve ölçeklenebilirlik darboğazları Model boyutlarında üstel ilerleme sürebilir, ancak sonunda enerji ve altyapı darboğazlarına çarpılacak Bugün birçok veri merkezi yaklaşık 50 megavat veya 100MW düzeyinde; büyük veri merkezleri ise 150MW civarında Ancak 300MW, 500MW hatta 1GW ölçeğinde veri merkezleri kurulmaya başlanacak; 1GW ölçeği henüz yok ama yakında olabilir Fakat 1GW seviyesinde, sadece model eğitimi için nükleer santral ölçeğinde güç gerekir; bu tür gigawatt ölçekli kümeleri kurmak da sıkı izin süreçleri nedeniyle yıllar alacaktır Yapay zeka devriminin önemi Yapay zeka, bilgisayarın icadı kadar temelden bir dönüşüm ve çalışma biçimimizi değiştirip yeni yaratıcı araçlar sağlayacak Kozmik zaman ölçeğinde ilerleme hızlı olacak, ancak darboğazlar nedeniyle bir gecede bir zeka patlaması yaşanmayacak Zekanın bilinç ve öznellikten ayrılabildiği bir yöne gidiliyormuş gibi görünüyor; bunun çok değerli bir araç olabileceği düşünülüyor Açık kaynak ve güç dengesi Güçlü yapay zekanın az sayıda elde yoğunlaşması, yaygın biçimde erişilebilir olmasından daha az riskli olmayabilir Açık kaynağı net biçimde destekliyorlar, ancak yaptıkları her şeyi açık hâle getirmiş değiller Açık kaynak sayesinde topluluk modeli güçlendirebilir ve daha dengeli bir rekabet zemini sağlanabilir Ancak bir noktada bu yeteneklerde niteliksel bir değişim olur ve açık kaynak yapmanın uygun olmadığına karar verilirse, bunu açık kaynak yapmayacaklar. Her şeyi öngörmek çok zor Meta, sorumlu ve faydalı olduğu sürece açık kaynağı benimsiyor; ayrıca bulut sağlayıcılarından model kullanımı için ücret talep edebilir Kısa vadede odak, modelin kötüye kullanımından doğan gerçek zararları azaltmak; uzun vadede ise varoluşsal riskler 10 milyar dolarlık modeli neden açık kaynak yaptılar Mobil ekosistemin can sıkıcı yanı, Apple ve Google gibi iki kapı bekçisi şirketin bulunması Bu iki şirket, ne inşa edip edemeyeceğinizi size söylüyor Bir de ekonomik taraf var; biz bir şey yaptığımızda paranın bir kısmını onlar alıyor, ama daha da sinir bozucu olan niteliksel taraf Birçok kez bir özelliği yayımladıkları ya da yayımlamak istedikleri hâlde Apple “Hayır, bu yayımlanamaz” dedi Bu gerçekten sinir bozucu; peki yapay zekada da böyle bir dünyaya girmek ister miyiz? Kapalı model işleten birkaç şirket, API’leri kontrol edip sizin ne inşa edebileceğinizi belirleyebilir mi? Böyle bir konuma düşmemek için modeli kendilerinin inşa etmesinin değerli olduğu söylenebilir Başka hiçbir şirketin, ne yapabileceklerini kendilerine söylemesini istemiyorlar Açık kaynak açısından bakıldığında, birçok geliştiricinin de bu şirketlerin kendilerine ne yapabileceklerini söylemesini istemediği düşünülüyor O hâlde mesele, bunun etrafında nasıl bir ekosistem kurulacağı İlginç yeni şeyler neler olacak? Bu, ürünlerini ne kadar iyileştirebilir? Veritabanı, caching sistemi ya da mimaride olduğu gibi, topluluktan daha iyi ürünler inşa etmeye yardımcı olan değerli katkılar alınabileceği düşünülüyor Böylece uygulamaya özel yaptıkları işler yine farklılaştırıcı olacak ve modelin kendisi görece daha az belirleyici hâle gelebilecek Kendi yaptıkları işi yapmaya devam edebilecekler Açık kaynak olduğu için hem onların hem de topluluğun tüm sistemleri daha iyi olacak Ama bunun geçerli olmadığı bir dünya da olabilir Belki de model, ürünün kendisine daha yakın bir şeye dönüşebilir Ekonomik hesap daha karmaşık hâle gelebilir; açık kaynak yapılsa da yapılmasa da kendinizi ciddi ölçüde metalaştırmış olursunuz Ama şu ana kadar görünen tabloya göre henüz o aşamada değiller Modelin gelir modeli Bulut sağlayıcılarına model lisansı verildiğinde önemli gelir elde edilmesi bekleniyor mu? Llama, birçok açıdan oldukça izin verici bir açık kaynak lisansına sahip Ancak bunu kullanan büyük şirketlere yönelik bazı sınırlamalar var; bu sınırlamaların sebebi de bu Onların kullanmasını engellemeye çalışmıyorlar; ama temelde Meta’nın yaptığını alıp yeniden satarak para kazanmak istiyorlarsa, önce gelip konuşmalarını istiyorlar Microsoft Azure veya Amazon gibi şirketler modeli yeniden satacaksa, bunun için bir gelir paylaşımı olması gerektiğini düşünüyorlar Yani bunu yapmadan önce gelip konuşmaları isteniyor; süreç bu şekilde işliyor Bu nedenle Llama-2 için fiilen tüm büyük bulut şirketleriyle anlaşma yaptılar ve Llama-2 bugün tüm bulutlarda barındırılan hizmet olarak sunuluyor Gittikçe daha büyük modeller yayımladıkça bunun daha da büyük bir konu hâline geleceğini düşünüyorlar Bu, yaptıkları ana iş değil; ancak bu şirketler onların modelini satıyorsa, ortaya çıkan avantajın bir şekilde paylaşılmasının makul olduğu düşünülüyor Özel silikon Meta, büyük modelleri verimli çalıştırmak için özel silikon geliştiriyor Llama-4 için değil ama önce sıralama ve öneri türü çıkarımları çalıştırabilecek özel silikon geliştirip Reels, News Feed reklamları gibi alanlarda kullandılar Bunları kendi silikonlarına taşıyabildikleri için artık daha pahalı NVIDIA GPU’ları yalnızca eğitim için kullanabiliyorlar Bir gün silikonu kendileri geliştirip önce basit eğitimlerde, sonra da gerçekten büyük modellerin eğitiminde kullanabilmeyi umuyorlar Bu arada programın oldukça iyi ilerlediğini, sistematik biçimde devreye alındığını ve uzun vadeli bir yol haritasına sahip olduğunu söylüyorlar

(dwarkeshpatel.com)

30 puan yazan xguru 2024-04-21 | 4 yorum | WhatsApp'ta paylaş

Dwarkesh Patel ile yaptığı röportajda Llama 3, AGI’ye giden yolda açık kaynak, özel silikon ve ölçeklemedeki enerji kısıtları gibi konular konuşuluyor; aşağıda tüm metnin kısa bir özeti yer alıyor

Llama 3

Meta, açık kaynak model Llama 3’ü yayımlayarak Meta AI’ın yeni sürümünü çalıştırmayı planlıyor
Meta AI, en zeki ve serbestçe kullanılabilen yapay zeka asistanı olmayı hedefliyor
Llama 3, şu anda yayımlanmış 8B, 70B ve hâlâ eğitilmekte olan 405B boyutlarında Dense modeller olarak sunuluyor
Çok modlu, çok dilli ve daha büyük bağlam penceresine sahip yeni sürümler için bir yol haritası var; 405B’nin bu yıl içinde kademeli olarak sunulması planlanıyor
405B hâlen eğitim aşamasında ve şimdiden 85 MMLU’ya ulaştı; çeşitli benchmark’larda lider olması bekleniyor
8B Llama 3 modeli, en büyük boyutlu Llama 2 modeliyle neredeyse eşdeğer performans gösteriyor
70B de çok güçlü ve şimdiden 82 MMLU seviyesinde

GPU

Meta, hisse fiyatının sert düştüğü 2022 yılında Reels’i geliştirmek için H100 GPU tedarik etti
TikTok’un yaptıklarını istedikleri hızda yakalamada altyapı sınırlayıcıydı; aynı duruma bir daha düşmemek için siparişi iki katına çıkardılar
İleride büyük model eğitimi için gerekeceğini öngörmüş olsalar da, o dönemde bunun sadece içerik önerileri için olduğunu düşünüyorlardı
Geriye dönüp bakınca bu çok iyi bir karardı ve bunu, geride kalmış olmaları sayesinde alabildiler
Bu, “Ah, fazla erken davrandım” türünden bir durum değildi
Aslında aldıkları kararların iyi sonuçlandığı çoğu durumda, bunun nedeni daha önce bir şeyi yanlış yapmış olmaları ve aynı hatayı tekrar etmek istememeleri

AGI’ye (Artificial General Intelligence) giden yolda kodlama ve muhakeme yeteneğinin önemi

Meta, modellerin gerçek kullanım senaryolarını çözebilmesi için, doğrudan kodlama soruları almasa bile kodlama ve muhakeme yeteneklerinin önemli olduğunu kabul ediyor
Nihai hedef, AGI’yi çözmek ve modelin çok adımlı karmaşık görevleri yerine getirebilmesini sağlamak
AGI’ye, çok modluluk, duygu anlayışı, hafıza gibi farklı yeteneklerin kademeli olarak eklenmesiyle ulaşılacağı düşünülüyor

Enerji ve ölçeklenebilirlik darboğazları

Model boyutlarında üstel ilerleme sürebilir, ancak sonunda enerji ve altyapı darboğazlarına çarpılacak
Bugün birçok veri merkezi yaklaşık 50 megavat veya 100MW düzeyinde; büyük veri merkezleri ise 150MW civarında
Ancak 300MW, 500MW hatta 1GW ölçeğinde veri merkezleri kurulmaya başlanacak; 1GW ölçeği henüz yok ama yakında olabilir
Fakat 1GW seviyesinde, sadece model eğitimi için nükleer santral ölçeğinde güç gerekir; bu tür gigawatt ölçekli kümeleri kurmak da sıkı izin süreçleri nedeniyle yıllar alacaktır

Yapay zeka devriminin önemi

Yapay zeka, bilgisayarın icadı kadar temelden bir dönüşüm ve çalışma biçimimizi değiştirip yeni yaratıcı araçlar sağlayacak
Kozmik zaman ölçeğinde ilerleme hızlı olacak, ancak darboğazlar nedeniyle bir gecede bir zeka patlaması yaşanmayacak
Zekanın bilinç ve öznellikten ayrılabildiği bir yöne gidiliyormuş gibi görünüyor; bunun çok değerli bir araç olabileceği düşünülüyor

Açık kaynak ve güç dengesi

Güçlü yapay zekanın az sayıda elde yoğunlaşması, yaygın biçimde erişilebilir olmasından daha az riskli olmayabilir
Açık kaynağı net biçimde destekliyorlar, ancak yaptıkları her şeyi açık hâle getirmiş değiller
Açık kaynak sayesinde topluluk modeli güçlendirebilir ve daha dengeli bir rekabet zemini sağlanabilir
Ancak bir noktada bu yeteneklerde niteliksel bir değişim olur ve açık kaynak yapmanın uygun olmadığına karar verilirse, bunu açık kaynak yapmayacaklar. Her şeyi öngörmek çok zor
Meta, sorumlu ve faydalı olduğu sürece açık kaynağı benimsiyor; ayrıca bulut sağlayıcılarından model kullanımı için ücret talep edebilir
Kısa vadede odak, modelin kötüye kullanımından doğan gerçek zararları azaltmak; uzun vadede ise varoluşsal riskler

10 milyar dolarlık modeli neden açık kaynak yaptılar

Mobil ekosistemin can sıkıcı yanı, Apple ve Google gibi iki kapı bekçisi şirketin bulunması
Bu iki şirket, ne inşa edip edemeyeceğinizi size söylüyor
Bir de ekonomik taraf var; biz bir şey yaptığımızda paranın bir kısmını onlar alıyor, ama daha da sinir bozucu olan niteliksel taraf
Birçok kez bir özelliği yayımladıkları ya da yayımlamak istedikleri hâlde Apple “Hayır, bu yayımlanamaz” dedi
Bu gerçekten sinir bozucu; peki yapay zekada da böyle bir dünyaya girmek ister miyiz?
Kapalı model işleten birkaç şirket, API’leri kontrol edip sizin ne inşa edebileceğinizi belirleyebilir mi?
Böyle bir konuma düşmemek için modeli kendilerinin inşa etmesinin değerli olduğu söylenebilir
Başka hiçbir şirketin, ne yapabileceklerini kendilerine söylemesini istemiyorlar
Açık kaynak açısından bakıldığında, birçok geliştiricinin de bu şirketlerin kendilerine ne yapabileceklerini söylemesini istemediği düşünülüyor
O hâlde mesele, bunun etrafında nasıl bir ekosistem kurulacağı
- İlginç yeni şeyler neler olacak?
- Bu, ürünlerini ne kadar iyileştirebilir?
Veritabanı, caching sistemi ya da mimaride olduğu gibi, topluluktan daha iyi ürünler inşa etmeye yardımcı olan değerli katkılar alınabileceği düşünülüyor
Böylece uygulamaya özel yaptıkları işler yine farklılaştırıcı olacak ve modelin kendisi görece daha az belirleyici hâle gelebilecek
Kendi yaptıkları işi yapmaya devam edebilecekler
Açık kaynak olduğu için hem onların hem de topluluğun tüm sistemleri daha iyi olacak
Ama bunun geçerli olmadığı bir dünya da olabilir
Belki de model, ürünün kendisine daha yakın bir şeye dönüşebilir
Ekonomik hesap daha karmaşık hâle gelebilir; açık kaynak yapılsa da yapılmasa da kendinizi ciddi ölçüde metalaştırmış olursunuz
Ama şu ana kadar görünen tabloya göre henüz o aşamada değiller

Modelin gelir modeli

Bulut sağlayıcılarına model lisansı verildiğinde önemli gelir elde edilmesi bekleniyor mu?
Llama, birçok açıdan oldukça izin verici bir açık kaynak lisansına sahip
Ancak bunu kullanan büyük şirketlere yönelik bazı sınırlamalar var; bu sınırlamaların sebebi de bu
Onların kullanmasını engellemeye çalışmıyorlar; ama temelde Meta’nın yaptığını alıp yeniden satarak para kazanmak istiyorlarsa, önce gelip konuşmalarını istiyorlar
Microsoft Azure veya Amazon gibi şirketler modeli yeniden satacaksa, bunun için bir gelir paylaşımı olması gerektiğini düşünüyorlar
Yani bunu yapmadan önce gelip konuşmaları isteniyor; süreç bu şekilde işliyor
Bu nedenle Llama-2 için fiilen tüm büyük bulut şirketleriyle anlaşma yaptılar ve Llama-2 bugün tüm bulutlarda barındırılan hizmet olarak sunuluyor
Gittikçe daha büyük modeller yayımladıkça bunun daha da büyük bir konu hâline geleceğini düşünüyorlar
Bu, yaptıkları ana iş değil; ancak bu şirketler onların modelini satıyorsa, ortaya çıkan avantajın bir şekilde paylaşılmasının makul olduğu düşünülüyor

Özel silikon

Meta, büyük modelleri verimli çalıştırmak için özel silikon geliştiriyor
Llama-4 için değil ama önce sıralama ve öneri türü çıkarımları çalıştırabilecek özel silikon geliştirip Reels, News Feed reklamları gibi alanlarda kullandılar
Bunları kendi silikonlarına taşıyabildikleri için artık daha pahalı NVIDIA GPU’ları yalnızca eğitim için kullanabiliyorlar
Bir gün silikonu kendileri geliştirip önce basit eğitimlerde, sonra da gerçekten büyük modellerin eğitiminde kullanabilmeyi umuyorlar
Bu arada programın oldukça iyi ilerlediğini, sistematik biçimde devreye alındığını ve uzun vadeli bir yol haritasına sahip olduğunu söylüyorlar

4 yorum

laeyoung 2024-04-22

"1GW ise, sadece model eğitimi için bile bir nükleer santral ölçeği gerekiyor"

Artık foundation model eğitmek için nükleer program geliştirmek(?) gerekiyor galiba.

tsboard 2024-04-22

Oldukça fazla kaygısı var gibi görünüyor. Platformu elinde tutan Google ve Apple’a karşı net antipatisi ise anlaşılabilir.

daejin 2024-04-22

"10 milyar dolarlık modeli neden açık kaynak yaptıkları" bölümü, özet bir yazı olmasına rağmen yine de insanın ufkunu açan tarafları var gibi görünüyor.

realg 2024-04-21

Güzel içerik için teşekkürler