2023, açık LLM'lerin yılıydı

xguru · 2023-12-21T10:33:04+09:00

Büyük dil modellerine (LLM) yönelik kamu ilgisi arttı ve açık kaynak ile kapalı kaynak üzerine tartışmalar yaygınlaştı Pretrained LLM için tarif Model mimarisi: belirli uygulamaları ve matematiksel biçimi açıklar Eğitim veri kümesi: modelin öğrendiği örnekleri ve belgeleri içerir Tokenizer: metnin sayılara nasıl dönüştürüldüğünü tanımlar Eğitim hiperparametreleri: modelin nasıl eğitileceğini tanımlar Hesaplama gücü ve uzman gözetimi gerekir Önceden eğitilmiş modelin ağırlıkları çıkarımda kullanılır 2022, boyut yarışından veri yarışına 2022'nin başına kadar model boyutu performansta önemli bir unsurdu BLOOM, OPT, GLM-130B gibi modeller yayımlandı DeepMind'ın yeni araştırmasıyla veri ölçeğinin önemi vurgulandı ve paradigma değişti 2023, açık sürümlerin yılı Küçük LLM'lerin yükselişi: Şubat'ta LLaMA (Meta), Nisan'da Pythia (Eleuther AI), Mayıs'ta MPT (MosaicML), Haziran'da X-GEN (Salesforce) ve Falcon (TIIUAE), Temmuz'da Llama 2 (Meta) yayımlandı. Eylül'de Qwen (Alibaba) ve Mistral (Mistral.AI), Kasım'da Yi (01-ai), Aralık'ta ise DeciLM (Deci), Phi-2 (Microsoft) ve SOLAR (Upstage) çıktı Model ağırlıkları da paylaşıldı ve küçük ölçekli modellerde iyi performans gösterdikleri için topluluk tarafından hızla benimsendi Temel farklar eğitim verisi ve model lisanslarıydı Diyalog odaklı modellerin ortaya çıkışı 2023'te önceden eğitilmiş modellerin çoğu diyalog sürümleriyle birlikte yayımlandı Sohbet tabanlı fine-tuning, instruction fine-tuning, insan geri bildiriminden pekiştirmeli öğrenme (RLHF), DPO (Direct Preference Optimization) gibi yöntemler kullanıldı MPT, Falcon, XGen, Llama-2, Qwen, Yi ve DeciLM modellerinin diyalog sürümleri yayımlandı Topluluğun rolü Topluluk ve araştırmacılar, sağlanan temel modelleri kullanarak yeni veri kümeleri ve ince ayar yapılmış modeller geliştirdi Çeşitli veri kümeleri ve ince ayar stratejileri yayımlandı Human Preference: OpenAI'nin WebGPT veri kümesi, HH-RLHF veri kümesi (Anthropic) ve Summarize (OpenAI) Instruction: BigScience tarafından Public Pool of Prompts, Google tarafından FLAN 1 ve 2, AllenAI tarafından Natural Instructions, Self Instruct, SuperNatural Instructions, Unnatural Instructions Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,.. Erişilebilirliğin yaygınlaşması Model/veri birleştirme: modellerin ağırlıklarını birleştirerek güçlü yönleri entegre etme PEFT: tüm modeli kullanmadan da ince ayar yapabilme Quantization: model boyutunu küçülten ve daha fazla kişinin LLM kullanmasını sağlayan teknik Sırada ne var? Transformer'ı aşan yeni mimarilerin ortaya çıkışı ve performans artışı Mixtral, Mamba, Striped Hyena gibi yeni modellerin yayımlanması

(huggingface.co)

19 puan yazan xguru 2023-12-21 | 1 yorum | WhatsApp'ta paylaş

Büyük dil modellerine (LLM) yönelik kamu ilgisi arttı ve açık kaynak ile kapalı kaynak üzerine tartışmalar yaygınlaştı

Pretrained LLM için tarif

Model mimarisi: belirli uygulamaları ve matematiksel biçimi açıklar
Eğitim veri kümesi: modelin öğrendiği örnekleri ve belgeleri içerir
Tokenizer: metnin sayılara nasıl dönüştürüldüğünü tanımlar
Eğitim hiperparametreleri: modelin nasıl eğitileceğini tanımlar
Hesaplama gücü ve uzman gözetimi gerekir
Önceden eğitilmiş modelin ağırlıkları çıkarımda kullanılır

2022, boyut yarışından veri yarışına

2022'nin başına kadar model boyutu performansta önemli bir unsurdu
BLOOM, OPT, GLM-130B gibi modeller yayımlandı
DeepMind'ın yeni araştırmasıyla veri ölçeğinin önemi vurgulandı ve paradigma değişti

2023, açık sürümlerin yılı

Küçük LLM'lerin yükselişi: Şubat'ta LLaMA (Meta), Nisan'da Pythia (Eleuther AI), Mayıs'ta MPT (MosaicML), Haziran'da X-GEN (Salesforce) ve Falcon (TIIUAE), Temmuz'da Llama 2 (Meta) yayımlandı. Eylül'de Qwen (Alibaba) ve Mistral (Mistral.AI), Kasım'da Yi (01-ai), Aralık'ta ise DeciLM (Deci), Phi-2 (Microsoft) ve SOLAR (Upstage) çıktı
Model ağırlıkları da paylaşıldı ve küçük ölçekli modellerde iyi performans gösterdikleri için topluluk tarafından hızla benimsendi
Temel farklar eğitim verisi ve model lisanslarıydı

Diyalog odaklı modellerin ortaya çıkışı

2023'te önceden eğitilmiş modellerin çoğu diyalog sürümleriyle birlikte yayımlandı
Sohbet tabanlı fine-tuning, instruction fine-tuning, insan geri bildiriminden pekiştirmeli öğrenme (RLHF), DPO (Direct Preference Optimization) gibi yöntemler kullanıldı
MPT, Falcon, XGen, Llama-2, Qwen, Yi ve DeciLM modellerinin diyalog sürümleri yayımlandı

Topluluğun rolü

Topluluk ve araştırmacılar, sağlanan temel modelleri kullanarak yeni veri kümeleri ve ince ayar yapılmış modeller geliştirdi
Çeşitli veri kümeleri ve ince ayar stratejileri yayımlandı
- Human Preference: OpenAI'nin WebGPT veri kümesi, HH-RLHF veri kümesi (Anthropic) ve Summarize (OpenAI)
- Instruction: BigScience tarafından Public Pool of Prompts, Google tarafından FLAN 1 ve 2, AllenAI tarafından Natural Instructions, Self Instruct, SuperNatural Instructions, Unnatural Instructions
- Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Erişilebilirliğin yaygınlaşması

Model/veri birleştirme: modellerin ağırlıklarını birleştirerek güçlü yönleri entegre etme
PEFT: tüm modeli kullanmadan da ince ayar yapabilme
Quantization: model boyutunu küçülten ve daha fazla kişinin LLM kullanmasını sağlayan teknik

Sırada ne var?

Transformer'ı aşan yeni mimarilerin ortaya çıkışı ve performans artışı
Mixtral, Mamba, Striped Hyena gibi yeni modellerin yayımlanması

1 yorum

laeyoung 2023-12-22

İyi açık kaynak modellerin çok çıkmış olması güzeldi. LLaMA da öyle, Web’de de çalışacak şekilde sunulan açık kaynak modeller de öyle; şunu bunu indirip epey denemiştim. Ama işin aslı, gerçekten kullanıp günlük hayatta kullandığım şeyler yalnızca ChatGPT ya da GPT-4’ü alıp SaaS olarak sunan servisler olunca biraz ironik geliyor. Açık kaynak modeller de önemli ama sonuçta bunu istikrarlı biçimde çalıştıracak altyapı ve onu yine istikrarlı biçimde destekleyecek mali sponsorlar(?) yoksa iş zorlaşıyor galiba diye düşünüyorum.