7 puan yazan GN⁺ 2024-04-09 | 1 yorum | WhatsApp'ta paylaş
  • AI2, OLMo 7B modelini duyurdu. Bu model, ön eğitim verileri ve eğitim kodu birlikte yayımlandığı için kelimenin tam anlamıyla açık kaynaklı bir büyük dil modeli.

    • Araştırmacıların ve geliştiricilerin en iyi açık modelleri kullanarak dil modeli bilimini kolektif biçimde ilerletmesini sağlıyor.
    • Meta'nın yapay zeka bilim insanı Yann LeCun, açık kaynak topluluğunun yapay zekanın geleceğini en hızlı ve en etkili şekilde inşa edebileceğini söyledi.
  • OLMo çerçevesinin başlıca özellikleri:

    • Tam ön eğitim verisi: AI2'nin Dolma veri kümesini kullanıyor ve eğitim verisini üreten kodu da içeriyor.
    • Eğitim kodu ve model ağırlıkları: 7B ölçeğinde 4 model varyantı için tam model ağırlıkları, çıkarım kodu, eğitim metrikleri ve eğitim günlükleri sağlanıyor.
    • Değerlendirme: Catwalk projesi kapsamında 500'den fazla checkpoint, değerlendirme kodu ve geliştirmede kullanılan değerlendirme araçları yayımlanıyor.
  • OLMo sayesinde yapay zeka araştırmacıları ve geliştiriciler şu deneyimleri yaşayabilir:

    • Daha doğru analiz: Eğitim verisine dair tam görünürlük sayesinde daha hızlı çalışabilirler.
    • Karbon emisyonlarının azaltılması: Tüm eğitim ve değerlendirme ekosisteminin açılmasıyla yinelenen geliştirme azaltılabilir.
    • Süreklilik gösteren sonuçlar: Model ve veri kümeleri yayımlanarak önceki modellerden öğrenme ve onların üzerine inşa etme imkanı sağlanır.
  • OLMo'nun geliştirilmesi; AMD, CSC(Lumi Supercomputer), University of Washington, Databricks ve diğerleriyle yapılan iş birlikleri sayesinde mümkün oldu.

GN⁺ görüşü

  • Yapay zeka modellerinde şeffaflığı artırmak için eğitim verileri ve kodun yayımlanması büyük önem taşıyor gibi görünüyor. Ancak veri önyargısı gibi sorunlar olabileceğinden, bunların da incelenmesi gerekiyor.
  • Açık kaynak dil modeli ekosisteminin canlanmasıyla teknolojik gelişmenin hızlanması bekleniyor. Yine de büyük BT şirketlerinin kapalı yapay zeka modelleriyle rekabette nasıl bir sonuç çıkacağını görmek gerekiyor.
  • Yapay zeka geliştirme için gereken devasa hesaplama kaynaklarını sağlamak adına farklı kurumlarla iş birliği çok önemli görünüyor. Bu, akademi-sanayi iş birliği modeli için iyi bir örnek olabilir.
  • OLMo sayesinde dil modellerinin çalışma prensiplerine ilişkin bilimsel araştırmaların canlanması bekleniyor. Bu da daha güvenli ve daha güvenilir yapay zeka geliştirilmesine katkı sağlayabilir.

1 yorum

 
GN⁺ 2024-04-09
Hacker News görüşleri
  • LLM kullanırken yazara hangi amaçla kullanıldığını bildirmek gerekiyor. Bu, lisansda açıkça belirtiliyor.
  • Türev bir çalışma oluşturulursa AI2'ye bir Derivative Impact Report sunulmalı ya da benzer bilgiler yazılı olarak sağlanmalı. AI2 bu bilgileri kamuya açık hâle getirebilir.
  • Türevin kullanım amacı hakkında şeffaf açıklama yapılmalı.
  • Derivative Impact Report, iyi niyetli açıklamaları cezalandırmak için değil. Bununla ilgili dava açılırsa sözleşme derhal sona eriyor.
  • Gerçek anlamda açık kaynak modellerden biri. Çoğu yalnızca ağırlıkları yayımlarken bu model uçtan uca açık.
  • Mistral 7b ile karşılaştırmadan bahsedilmemesi şaşırtıcı.
  • "The Pile" eğitim verisine dahil edilmemiş gibi görünüyor. Hukuki açıdan diğer "açık" LLM'lerden daha sağlıklı olabilir.
  • Veri kümesine uygulanan risk sınıflandırmasının pratikte anlamı ne? Lisans sayfasındaki açıklama yetersiz. Eğitim veri kümesi olarak kullanımda lisans açısından uyumsuzluk riski anlamına mı geliyor?
  • Küçük boyutuna rağmen şaşırtıcı derecede hızlı.
  • AMD GPU üzerinde başarıyla eğitilen ilk dikkat çekici LLM'lerden biri olabilir mi? Sürecin ne kadar sorunsuz geçtiğini, herhangi bir zorluk yaşanıp yaşanmadığını merak ediyorum.
  • Bu modelde ve benzer modellerde çıkarım sırasında "tekrarlayan token" sorunu yaşanıyor. Bağlam penceresi orta uzunlukta ya da uzunsa sık görülüyor.
  • Eğitim sırasında bir tür yerel minimuma takılıyor gibi görünüyor. Sıcaklık etkili gibi ama sorunu tamamen çözmüyor.
  • Blog yazısında karşılaştırma tablosu olmaması üzücü.
  • Bana göre en ilgi çekici LLM bu. Aramanın yerini alabilecek, hatta araştırma yapıp nihai yanıt verebilecek güçlü bir araç. OpenAI, Anthropic gibi kapalı modeller denetlenemiyor.
  • Gerçek LLM'lere önyargı enjekte edildiği örnekler var (ör. Google Gemini'nin gizli meta prompt'u nedeniyle tarihsel olarak hatalı görseller üretmesi).
  • AI2'nin yaklaşımını beğeniyorum. Yalnızca ağırlıkları değil, eğitim kaynak kodunu, veriyi, değerlendirme araçlarını vb. de Apache lisansı ile paylaşıyor.
  • Llama gibi açık ağırlıklı modeller, OpenAI gibi kapalı modelleri yakalıyor. OLMo gibi gerçekten açık modellerin de gelişmeye devam etmesini umuyorum.
  • Açık kaynak yapay zeka geliştirmesinin düzenlemelerle engellenmemesini umuyorum. Gelecekte toplumun bir ifade aracı olabilir; bu yüzden düzenleme ifade özgürlüğünü kısıtlamaya benzer. Rekabet baskısının azalması inovasyona zarar verir.
  • Bu, 2 ay önce yazılmış bir yazı.