Gerçek anlamda açık bir LLM: Hello OLMo sahnede

(blog.allenai.org)

7 puan yazan GN⁺ 2024-04-09 | 1 yorum | WhatsApp'ta paylaş

AI2, OLMo 7B modelini duyurdu. Bu model, ön eğitim verileri ve eğitim kodu birlikte yayımlandığı için kelimenin tam anlamıyla açık kaynaklı bir büyük dil modeli.
- Araştırmacıların ve geliştiricilerin en iyi açık modelleri kullanarak dil modeli bilimini kolektif biçimde ilerletmesini sağlıyor.
- Meta'nın yapay zeka bilim insanı Yann LeCun, açık kaynak topluluğunun yapay zekanın geleceğini en hızlı ve en etkili şekilde inşa edebileceğini söyledi.
OLMo çerçevesinin başlıca özellikleri:
- Tam ön eğitim verisi: AI2'nin Dolma veri kümesini kullanıyor ve eğitim verisini üreten kodu da içeriyor.
- Eğitim kodu ve model ağırlıkları: 7B ölçeğinde 4 model varyantı için tam model ağırlıkları, çıkarım kodu, eğitim metrikleri ve eğitim günlükleri sağlanıyor.
- Değerlendirme: Catwalk projesi kapsamında 500'den fazla checkpoint, değerlendirme kodu ve geliştirmede kullanılan değerlendirme araçları yayımlanıyor.
OLMo sayesinde yapay zeka araştırmacıları ve geliştiriciler şu deneyimleri yaşayabilir:
- Daha doğru analiz: Eğitim verisine dair tam görünürlük sayesinde daha hızlı çalışabilirler.
- Karbon emisyonlarının azaltılması: Tüm eğitim ve değerlendirme ekosisteminin açılmasıyla yinelenen geliştirme azaltılabilir.
- Süreklilik gösteren sonuçlar: Model ve veri kümeleri yayımlanarak önceki modellerden öğrenme ve onların üzerine inşa etme imkanı sağlanır.
OLMo'nun geliştirilmesi; AMD, CSC(Lumi Supercomputer), University of Washington, Databricks ve diğerleriyle yapılan iş birlikleri sayesinde mümkün oldu.

GN⁺ görüşü

Yapay zeka modellerinde şeffaflığı artırmak için eğitim verileri ve kodun yayımlanması büyük önem taşıyor gibi görünüyor. Ancak veri önyargısı gibi sorunlar olabileceğinden, bunların da incelenmesi gerekiyor.
Açık kaynak dil modeli ekosisteminin canlanmasıyla teknolojik gelişmenin hızlanması bekleniyor. Yine de büyük BT şirketlerinin kapalı yapay zeka modelleriyle rekabette nasıl bir sonuç çıkacağını görmek gerekiyor.
Yapay zeka geliştirme için gereken devasa hesaplama kaynaklarını sağlamak adına farklı kurumlarla iş birliği çok önemli görünüyor. Bu, akademi-sanayi iş birliği modeli için iyi bir örnek olabilir.
OLMo sayesinde dil modellerinin çalışma prensiplerine ilişkin bilimsel araştırmaların canlanması bekleniyor. Bu da daha güvenli ve daha güvenilir yapay zeka geliştirilmesine katkı sağlayabilir.

1 yorum

GN⁺ 2024-04-09

Hacker News görüşleri

LLM kullanırken yazara hangi amaçla kullanıldığını bildirmek gerekiyor. Bu, lisansda açıkça belirtiliyor.
Türev bir çalışma oluşturulursa AI2'ye bir Derivative Impact Report sunulmalı ya da benzer bilgiler yazılı olarak sağlanmalı. AI2 bu bilgileri kamuya açık hâle getirebilir.
Türevin kullanım amacı hakkında şeffaf açıklama yapılmalı.
Derivative Impact Report, iyi niyetli açıklamaları cezalandırmak için değil. Bununla ilgili dava açılırsa sözleşme derhal sona eriyor.
Gerçek anlamda açık kaynak modellerden biri. Çoğu yalnızca ağırlıkları yayımlarken bu model uçtan uca açık.
Mistral 7b ile karşılaştırmadan bahsedilmemesi şaşırtıcı.
"The Pile" eğitim verisine dahil edilmemiş gibi görünüyor. Hukuki açıdan diğer "açık" LLM'lerden daha sağlıklı olabilir.
Veri kümesine uygulanan risk sınıflandırmasının pratikte anlamı ne? Lisans sayfasındaki açıklama yetersiz. Eğitim veri kümesi olarak kullanımda lisans açısından uyumsuzluk riski anlamına mı geliyor?
Küçük boyutuna rağmen şaşırtıcı derecede hızlı.
AMD GPU üzerinde başarıyla eğitilen ilk dikkat çekici LLM'lerden biri olabilir mi? Sürecin ne kadar sorunsuz geçtiğini, herhangi bir zorluk yaşanıp yaşanmadığını merak ediyorum.
Bu modelde ve benzer modellerde çıkarım sırasında "tekrarlayan token" sorunu yaşanıyor. Bağlam penceresi orta uzunlukta ya da uzunsa sık görülüyor.
Eğitim sırasında bir tür yerel minimuma takılıyor gibi görünüyor. Sıcaklık etkili gibi ama sorunu tamamen çözmüyor.
Blog yazısında karşılaştırma tablosu olmaması üzücü.
Bana göre en ilgi çekici LLM bu. Aramanın yerini alabilecek, hatta araştırma yapıp nihai yanıt verebilecek güçlü bir araç. OpenAI, Anthropic gibi kapalı modeller denetlenemiyor.
Gerçek LLM'lere önyargı enjekte edildiği örnekler var (ör. Google Gemini'nin gizli meta prompt'u nedeniyle tarihsel olarak hatalı görseller üretmesi).
AI2'nin yaklaşımını beğeniyorum. Yalnızca ağırlıkları değil, eğitim kaynak kodunu, veriyi, değerlendirme araçlarını vb. de Apache lisansı ile paylaşıyor.
Llama gibi açık ağırlıklı modeller, OpenAI gibi kapalı modelleri yakalıyor. OLMo gibi gerçekten açık modellerin de gelişmeye devam etmesini umuyorum.
Açık kaynak yapay zeka geliştirmesinin düzenlemelerle engellenmemesini umuyorum. Gelecekte toplumun bir ifade aracı olabilir; bu yüzden düzenleme ifade özgürlüğünü kısıtlamaya benzer. Rekabet baskısının azalması inovasyona zarar verir.
Bu, 2 ay önce yazılmış bir yazı.

Gerçek anlamda açık bir LLM: Hello OLMo sahnede

GN⁺ görüşü

İlgili okumalar

1 yorum

Hacker News görüşleri