5 puan yazan GN⁺ 2024-03-08 | 1 yorum | WhatsApp'ta paylaş

LLM’leri tamamen sıfırdan eğitmek

  • Reka’da güçlü çok modlu dil modellerini başarıyla eğitme deneyimine dair büyük merak var.
  • Altyapı kurma ile büyük dil ve çok modlu modelleri sıfırdan eğitme sürecindeki zorluklar ve dersler paylaşılıyor.
  • Bu yazının birçok kişi için ilgi çekici ve öğretici olması umuluyor.

LLM çağının donanım piyangosu

  • Model eğitimi için ilk temel gereklilik, hesaplama gücünü güvence altına almak.
  • Hesaplama sağlayıcılarının istikrarsızlığına ve küme, hızlandırıcı ile bağlantı kalitesindeki farklara şaşırılıyor.
  • Donanım kalitesindeki farklar büyük ve bu, eğitim açısından gerçekten bir 'donanım piyangosu' gibi.

GPU ve TPU

  • Reka’da modeller çoğunlukla GPU kullanılarak eğitiliyor.
  • Google’da TPU kullanma deneyimiyle karşılaştırıldığında, GPU’ların arıza oranı şaşırtıcı bulunuyor.
  • Donanım ekibinin yetkinliği önemli ve bu da 'donanım piyangosu' kavramını güçlendiriyor.

Çoklu küme kurulumunun acısı

  • Birden fazla kümede yeni ortamlar kurma fikri alışılmadık geliyor.
  • Birden fazla kümenin hızlandırıcı havuzlarına sahip olmak kaçınılmaz.
  • Büyük ölçekli verilerle çalışırken rahatsızlıklar var; veri çoğaltma büyük ölçekte basit değil.

Vahşi doğadaki kod

  • T5X ve MeshTensorflow sevilen kod tabanlarıydı, ancak Google dışında destekleri az ve kullanımları zor.
  • Daha erişilebilir olduğu için PyTorch seçiliyor.
  • Dışarıdaki kod tabanlarının kalitesinin, Google içindekilere kıyasla geride kaldığı hissediliyor.

Daha az ilkesel, daha çok Yolo

  • İlkesel olarak modeller sistematik biçimde ölçeklenmeli, ancak startup ortamında hesaplama kaynakları az olduğu için çok sayıda Yolo denemesi yapılıyor.
  • Sınırlı sayıda denemeyle güçlü bir model eğitmek zorlayıcı.

Özet

  • Vahşi doğadaki deneyim ilginç ama acı vericiydi.
  • Hesaplama kaynaklarının eksikliği ve istikrarsız sağlayıcılar nedeniyle iş beklenenden daha zordu, ancak teknik güçle bunun üstesinden gelindi.
  • Şirket kurma, fon toplama, çip satın alma ve Gemini pro/GPT 3.5 ile rekabet edip daha pek çoğunu geride bırakma sürecinin yalnızca bir kısmı anlatılıyor.

GN⁺ görüşü

  • Bu yazı, bir startup’ın büyük dil modellerini sıfırdan eğitirken yaşadığı gerçek sorunları ve zorlukları iyi gösteriyor. Bu, giriş seviyesi yazılım mühendisleri için gerçekçi içgörüler sunabilir.
  • Donanım seçiminin önemi ile buna bağlı arıza oranı ve destek düzeyi farkları, startup’larda ya da küçük şirketlerde büyük projelere başlarken mutlaka dikkate alınmalı.
  • Yazı, Google gibi büyük şirketlerin altyapısıyla karşılaştırıldığında startup’ların karşılaştığı teknik kısıtları vurguluyor. Bu da startup’ların teknoloji seçerken neden dikkatli olması gerektiğini gösteriyor.
  • Büyük modelleri eğitmek için gereken altyapı ve araçları kurma sürecinin son derece karmaşık ve zor olabileceğine işaret ediyor. Bu, bulut hizmeti sağlayıcısı seçimi ya da kendi donanımını kurma kararı açısından önemli bir değerlendirme noktası.
  • Teknik sorunlara ve zorluklara rağmen, startup’ların teknik güçle bu engelleri aşabileceği ve başarılı sonuçlar elde edebileceği yönünde olumlu bir mesaj veriyor.

1 yorum

 
GN⁺ 2024-03-08
Hacker News görüşleri
  • Startup, az sayıda çalışanı olup eğitim kümesine yatırım yapacak büyük sermayeye sahip bir organizasyon anlamına geliyor. Yazıda, birçok startup ve yerleşik şirketin sunucu kiralayarak faaliyet gösterdiği anlatılıyor. LLM (Large Language Model) geliştiricilerinin çoğu, benzer donanım ve verileri kullanarak metin ve görsel verilerle eğitim yapıyor. Her LLM’in kendine özgü bir "gizli sosu" var ve bu da çıktı kalitesindeki farkı yaratıyor. Ancak genel olarak bu süreç enerji yoğun ve tekrarlı bir çalışma gibi görünüyor.
  • Bu yazı, Google’ın PaLM, UL2, Flan ve Bard gibi teknolojilerinde teknik liderlik yapmış Yi Tay’in Reka’nın ortak kurucusu olarak bağımsız bir startup bünyesinde LLM eğitme deneyimini anlatıyor. Yi Tay’i bu gönderiyi yazmaya yönelten konuşma burada kayda alınmış.
  • Reka.ai’yi bu gönderi sayesinde öğrendim. Reka.ai’nin LLM’i Hacker News’te pek tartışılmamış. Merakımdan Reka Flash’ın sohbet arayüzünü ChatGPT 4, Gemini Advanced, Claude 3 ve Mistral Large ile karşılaştırmalı olarak test ettim. Sonuçlar burada. Genel olarak Reka Flash diğer LLM’lere göre belirgin biçimde daha kötü ya da daha iyi değil. Elbette kesin yargıya varmak için daha fazla test gerekiyor.
  • Yazar, okurların "vahşi doğa" ifadesini "Google dışı" olarak anlayacağını varsayıyor. Bu yazı, Google’ın altyapı ve donanım ekiplerine büyük paye veriyor; bu yüzden bir Google içinden gelen kişinin başka bir yerde benzer işleri yaparken edindiği bakış açısını okumak ilginç.
  • Reka.AI’nin ana sayfası, token bazlı ödeme yapan tipik bir ChatGPT klonu, yani bir LLM gibi görünüyor. Bunun diğer şirketlerden nasıl ayrıştığı net değil. Fiyatlandırma da ChatGPT 3.5-Turbo’ya benziyor gibi duruyor.
  • Sıfırdan LLM eğitmek, yalnızca ham donanım iyileştirmeleri kadar değil, yapay zekanın evrim hızı ve kapsamı açısından da önemli bir mesele. Blog ilgi çekici ama biraz yüzeysel ve teknik derinlikten yoksun; GPU kümesiyle çalışma deneyimi olan biri için şaşırtıcı pek bir şey yok. Google dışında LLM için neden PyTorch yerine Jax önerildiği de tam olarak anlaşılmıyor. Bu yeni şirketin eğitim macerasına dair daha teknik bir rapor yayımlamasını umuyorum.
  • Hikâyenin yalnızca küçük bir kısmı ele alınıyor; bir şirket kurup fon topluyorlar, çip satın alıyorlar ve bir yıldan kısa sürede GPT 3.5 seviyesinde bir LLM inşa edip birçok başka ürünü geride bırakıyorlar. Çipler/bulut GPU’ları için ne kadar bütçe harcandığını merak ediyorum. Kabaca 2 ila 5 milyon dolar mı?
  • Uygun geçmişi ya da kariyeri olmayan küçük startup’ların LLM ürünleri için finansmanı nasıl sağladığı büyük bir soru. LLM startup dünyası, tohum yatırım/fonlama için ön koşulun saygın iş geçmişi ya da uygun bir kariyer ve ürün daha başlamadan yatırım yapmaya hazır güçlü bir yatırımcı ağı olduğu hedge fon ve private equity dünyasına benziyor.
  • Başlığın "ground zero" yerine "from the ground up" olması gerekmiyor mu diye merak ediyorum.
  • Eğitim verisi sürecine dair anlatılanlar çok ilgi çekici, ama daha fazlasını duymak isterdim.