Gemma - Google'ın son teknoloji açık modeli

xguru · 2024-02-22T09:52:20+09:00

Google, herkes için faydalı yapay zeka üretmeye inanıyor ve Transformers, TensorFlow, BERT, T5, JAX, AlphaFold, AlphaCode gibi açık topluluğa yenilikler kazandırdı Gemma, Gemini modellerini oluşturmak için kullanılan aynı araştırma ve teknoloji temel alınarak geliştirilmiş hafif, son teknoloji açık model ailesidir Google DeepMind ve diğer ekipler tarafından geliştirildi; adı, Latince'de "mücevher" anlamına gelen gemma sözcüğünden esinlenmiştir Bugünden itibaren dünya genelinde kullanılabilir; model ağırlıkları, geliştirici inovasyonunu destekleyen araçlar, iş birliğini teşvik eden kaynaklar ve Gemma modellerinin sorumlu kullanımına rehberlik eden araçlarla birlikte sunuluyor Gemini ile teknoloji ve altyapı bileşenlerini paylaşan Gemma 2B ve 7B, diğer açık modellere kıyasla boyutlarına göre en yüksek performansı elde ediyor Geliştiricilerin dizüstü veya masaüstü bilgisayarlarında doğrudan çalışabilir; temel benchmark'larda çok daha büyük modelleri geride bırakırken güvenli ve sorumlu çıktılar üretmeye yönelik sıkı standartlara da uyuyor Native Keras 3.0 üzerinden JAX, PyTorch, TensorFlow dahil tüm büyük framework'lerde çıkarım ve SFT (gözetimli ince ayar) için bir araç zinciri sunuyor Colab ve Kaggle notebook'ları ile Hugging Face, MaxText, NVIDIA NeMo ve TensorRT-LLM gibi popüler araçlarla entegrasyon sayesinde Gemma'ya başlamak kolay Önceden eğitilmiş ve instruction tuning uygulanmış Gemma modelleri, Vertex AI ve Google Kubernetes Engine (GKE) üzerine kolayca dağıtılarak notebook, workstation veya Google Cloud üzerinde çalıştırılabiliyor NVIDIA GPU'lar ve Google Cloud TPU dahil birden çok yapay zeka donanım platformu için optimizasyonlar sayesinde sektör lideri performans sağlanıyor Kullanım şartlarına uygun olmak kaydıyla, ölçekten bağımsız olarak tüm kuruluşlar için ticari kullanım ve dağıtıma izin veriliyor Tasarım gereği sorumlu Gemma, yapay zeka ilkeleri önceliklendirilerek tasarlandı ve eğitim kümesindeki kişisel bilgiler ile diğer hassas verileri filtrelemek için otomatik teknikler kullanıyor Ayrıca, sorumlu davranışla uyumlu olacak şekilde instruction tuning uygulanmış modeller için insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) yaygın biçimde kullanıldı Gemma modellerinin risk profilini anlamak ve azaltmak için manuel red team çalışmaları, otomatik adversarial testler ve tehlikeli faaliyetler karşısında model yetenek değerlendirmeleri gibi güçlü değerlendirmeler yapıldı Framework'ler, araçlar ve donanım genelinde optimize edildi Gemma modelleri, belirli uygulama gereksinimlerine uyacak şekilde kendi verileriniz üzerinde ince ayar yapılabilecek ve çeşitli araçlar ile sistemleri destekleyecek biçimde tasarlandı Çoklu framework araçları: Keras 3.0, native PyTorch, JAX ve Hugging Face Transformers dahil tercih ettiğiniz framework kullanılabiliyor. Referans implementasyonlar sunuluyor Cihazlar arası uyumluluk: dizüstü bilgisayarlar, masaüstü bilgisayarlar, IoT, mobil ve bulut dahil popüler cihazlarda çalışabiliyor Son teknoloji donanım platformları: NVIDIA ile ortaklık sayesinde veri merkezlerinden buluta ve yerel RTX AI PC'lere kadar NVIDIA GPU'lar için yapılan optimizasyonlar, sektör lideri performans ve son teknoloji entegrasyonlarını güvence altına alıyor Google Cloud üzerinde optimize edildi: Vertex AI kullanılarak geniş bir MLOps araç seti ve çeşitli tuning seçenekleri sunuluyor; yerleşik çıkarım optimizasyonlarıyla tek tıkla dağıtım yapılabiliyor Araştırma ve geliştirme için ücretsiz krediler Gemma, yapay zeka inovasyonunu ileri taşıyan geliştirici ve araştırmacı topluluğu için oluşturuldu; Kaggle'da ücretsiz erişim, Colab notebook'larının ücretsiz katmanı ve ilk kez Google Cloud kullananlar için $300 kredi ile bugünden itibaren çalışmaya başlanabiliyor Araştırmacılar, projelerini hızlandırmak için $500,000'a kadar Google Cloud kredisine başvurabiliyor

(blog.google)

17 puan yazan xguru 2024-02-22 | 2 yorum | WhatsApp'ta paylaş

Google, herkes için faydalı yapay zeka üretmeye inanıyor ve Transformers, TensorFlow, BERT, T5, JAX, AlphaFold, AlphaCode gibi açık topluluğa yenilikler kazandırdı
Gemma, Gemini modellerini oluşturmak için kullanılan aynı araştırma ve teknoloji temel alınarak geliştirilmiş hafif, son teknoloji açık model ailesidir
- Google DeepMind ve diğer ekipler tarafından geliştirildi; adı, Latince'de "mücevher" anlamına gelen gemma sözcüğünden esinlenmiştir
Bugünden itibaren dünya genelinde kullanılabilir; model ağırlıkları, geliştirici inovasyonunu destekleyen araçlar, iş birliğini teşvik eden kaynaklar ve Gemma modellerinin sorumlu kullanımına rehberlik eden araçlarla birlikte sunuluyor
Gemini ile teknoloji ve altyapı bileşenlerini paylaşan Gemma 2B ve 7B, diğer açık modellere kıyasla boyutlarına göre en yüksek performansı elde ediyor
Geliştiricilerin dizüstü veya masaüstü bilgisayarlarında doğrudan çalışabilir; temel benchmark'larda çok daha büyük modelleri geride bırakırken güvenli ve sorumlu çıktılar üretmeye yönelik sıkı standartlara da uyuyor
Native Keras 3.0 üzerinden JAX, PyTorch, TensorFlow dahil tüm büyük framework'lerde çıkarım ve SFT (gözetimli ince ayar) için bir araç zinciri sunuyor
Colab ve Kaggle notebook'ları ile Hugging Face, MaxText, NVIDIA NeMo ve TensorRT-LLM gibi popüler araçlarla entegrasyon sayesinde Gemma'ya başlamak kolay
Önceden eğitilmiş ve instruction tuning uygulanmış Gemma modelleri, Vertex AI ve Google Kubernetes Engine (GKE) üzerine kolayca dağıtılarak notebook, workstation veya Google Cloud üzerinde çalıştırılabiliyor
NVIDIA GPU'lar ve Google Cloud TPU dahil birden çok yapay zeka donanım platformu için optimizasyonlar sayesinde sektör lideri performans sağlanıyor
Kullanım şartlarına uygun olmak kaydıyla, ölçekten bağımsız olarak tüm kuruluşlar için ticari kullanım ve dağıtıma izin veriliyor

Tasarım gereği sorumlu

Gemma, yapay zeka ilkeleri önceliklendirilerek tasarlandı ve eğitim kümesindeki kişisel bilgiler ile diğer hassas verileri filtrelemek için otomatik teknikler kullanıyor
Ayrıca, sorumlu davranışla uyumlu olacak şekilde instruction tuning uygulanmış modeller için insan geri bildirimiyle pekiştirmeli öğrenme (RLHF) yaygın biçimde kullanıldı
Gemma modellerinin risk profilini anlamak ve azaltmak için manuel red team çalışmaları, otomatik adversarial testler ve tehlikeli faaliyetler karşısında model yetenek değerlendirmeleri gibi güçlü değerlendirmeler yapıldı

Framework'ler, araçlar ve donanım genelinde optimize edildi

Gemma modelleri, belirli uygulama gereksinimlerine uyacak şekilde kendi verileriniz üzerinde ince ayar yapılabilecek ve çeşitli araçlar ile sistemleri destekleyecek biçimde tasarlandı
Çoklu framework araçları: Keras 3.0, native PyTorch, JAX ve Hugging Face Transformers dahil tercih ettiğiniz framework kullanılabiliyor. Referans implementasyonlar sunuluyor
Cihazlar arası uyumluluk: dizüstü bilgisayarlar, masaüstü bilgisayarlar, IoT, mobil ve bulut dahil popüler cihazlarda çalışabiliyor
Son teknoloji donanım platformları: NVIDIA ile ortaklık sayesinde veri merkezlerinden buluta ve yerel RTX AI PC'lere kadar NVIDIA GPU'lar için yapılan optimizasyonlar, sektör lideri performans ve son teknoloji entegrasyonlarını güvence altına alıyor
Google Cloud üzerinde optimize edildi: Vertex AI kullanılarak geniş bir MLOps araç seti ve çeşitli tuning seçenekleri sunuluyor; yerleşik çıkarım optimizasyonlarıyla tek tıkla dağıtım yapılabiliyor

Araştırma ve geliştirme için ücretsiz krediler

Gemma, yapay zeka inovasyonunu ileri taşıyan geliştirici ve araştırmacı topluluğu için oluşturuldu; Kaggle'da ücretsiz erişim, Colab notebook'larının ücretsiz katmanı ve ilk kez Google Cloud kullananlar için $300 kredi ile bugünden itibaren çalışmaya başlanabiliyor
Araştırmacılar, projelerini hızlandırmak için $500,000'a kadar Google Cloud kredisine başvurabiliyor

2 yorum

dodok8 2024-02-22

Artık sadece OpenAI kapalı durumda gibi görünüyor.

xguru 2024-02-22

Hacker News görüşleri

Google'ın Gemma kullanım şartlarında dikkat çeken nokta, kullanıcıların Gemma'nın en güncel sürümünü kullanmak için makul çaba göstermesi gerektiğini belirten bir madde bulunması. Bu, kendi modelini çalıştırırken model güncellemelerinin dikkatle test edilmiş prompt'ları bozma riskine karşı sağlanan büyük avantajı ortadan kaldırabileceği için, özellikle bu maddeden memnun olunmadığı belirtiliyor.
Gemma 7B'nin benchmark sonuçları Mistral 7B ile benzer seviyede görünüyor. MMLU, HellaSwag, HumanEval gibi testlerde Gemma 7B'nin performansının Mistral 7B ile karşılaştırıldığında rekabetçi olduğu görülüyor.
Gemma modelinin birkaç ilginç özelliği var:
- feedforward hidden size, çoğu modelde 4 kat iken d_model'in 16 katı.
- vocabulary size, Mistral'ın 32K'sine kıyasla 10 kat fazla, yani 256K.
- eğitim token sayısı, Llama2'nin 2T'sine kıyasla 3 kat fazla, yani 6T.
- Bunun dışında MQA, RoPE ve RMSNorm gibi klasik transformer varyasyonlarını kullanıyor.
- Modelin hızlı eğitilebilmesi için batch size'ın ne kadar olduğu soruluyor.
Modelin "alignment" olmadan (muhtemelen ideolojik fine-tuning kastediliyor) sunulup sunulamayacağı sorgulanıyor. Gemini modelinin yanıtlarının ideolojik fine-tuning nedeniyle çoğu zaman kullanışsız hale geldiği belirtiliyor.
Google'ın modellerine güvenilemeyeceğine dair kişisel bir görüş paylaşılıyor. Japonya'nın Heian dönemi hakkında sorulan bir soruya modelin tamamen anlamsız bilgiler verdiği, hatanın o kadar bariz olduğu ki şaka ya da parodi gibi durduğu eleştiriliyor. Llama modelinin çok daha iyi performans gösterdiği de ekleniyor.
Gemma ekibinin yorumlar bölümüne katılıp soruları yanıtlamasının övgüye değer olduğu yönünde olumlu bir görüş ifade ediliyor.
Gemma modelinin dünyanın en yüksek insan yapımı yapısı, dünyanın en zengin ülkesi ve fit başına düşen santimetre sayısı hakkında yanlış bilgiler verdiği belirtiliyor. Bu hatalar modelin doğruluğu hakkında soru işaretleri yaratıyor.
Gemma-7B modeli Vectara HHEM liderlik tablosuna girdi ve %100 yanıt oranı ile %7,5 halüsinasyon oranı kaydetti. 7B parametreli bir model için bu oldukça iyi bir performans.
Gemma modelinin etkileyici benchmark sonuçlarına değiniliyor; hatta 2B modelinin bile oldukça iyi göründüğü söyleniyor. Hafta sonunu bu modeli keşfetmeye ayırma konusunda bir heyecan ifade ediliyor.
Beş yıl önce OpenAI, Meta ve Google arasında hangisinin yapay zeka konusunda en açık olacağının sorulması halinde çoğu kişinin OpenAI'ı seçeceği belirtiliyor. Ancak bugün Meta ve Google gibi trilyon dolarlık şirketlerin ticari olarak kullanılabilen güçlü açık modeller yayımlıyor olmasının ironik olduğu ifade ediliyor.