19 puan yazan xguru 2023-12-21 | 1 yorum | WhatsApp'ta paylaş
  • Büyük dil modellerine (LLM) yönelik kamu ilgisi arttı ve açık kaynak ile kapalı kaynak üzerine tartışmalar yaygınlaştı

Pretrained LLM için tarif

  • Model mimarisi: belirli uygulamaları ve matematiksel biçimi açıklar
  • Eğitim veri kümesi: modelin öğrendiği örnekleri ve belgeleri içerir
  • Tokenizer: metnin sayılara nasıl dönüştürüldüğünü tanımlar
  • Eğitim hiperparametreleri: modelin nasıl eğitileceğini tanımlar
  • Hesaplama gücü ve uzman gözetimi gerekir
  • Önceden eğitilmiş modelin ağırlıkları çıkarımda kullanılır

2022, boyut yarışından veri yarışına

  • 2022'nin başına kadar model boyutu performansta önemli bir unsurdu
  • BLOOM, OPT, GLM-130B gibi modeller yayımlandı
  • DeepMind'ın yeni araştırmasıyla veri ölçeğinin önemi vurgulandı ve paradigma değişti

2023, açık sürümlerin yılı

  • Küçük LLM'lerin yükselişi: Şubat'ta LLaMA (Meta), Nisan'da Pythia (Eleuther AI), Mayıs'ta MPT (MosaicML), Haziran'da X-GEN (Salesforce) ve Falcon (TIIUAE), Temmuz'da Llama 2 (Meta) yayımlandı. Eylül'de Qwen (Alibaba) ve Mistral (Mistral.AI), Kasım'da Yi (01-ai), Aralık'ta ise DeciLM (Deci), Phi-2 (Microsoft) ve SOLAR (Upstage) çıktı
  • Model ağırlıkları da paylaşıldı ve küçük ölçekli modellerde iyi performans gösterdikleri için topluluk tarafından hızla benimsendi
  • Temel farklar eğitim verisi ve model lisanslarıydı

Diyalog odaklı modellerin ortaya çıkışı

  • 2023'te önceden eğitilmiş modellerin çoğu diyalog sürümleriyle birlikte yayımlandı
  • Sohbet tabanlı fine-tuning, instruction fine-tuning, insan geri bildiriminden pekiştirmeli öğrenme (RLHF), DPO (Direct Preference Optimization) gibi yöntemler kullanıldı
  • MPT, Falcon, XGen, Llama-2, Qwen, Yi ve DeciLM modellerinin diyalog sürümleri yayımlandı

Topluluğun rolü

  • Topluluk ve araştırmacılar, sağlanan temel modelleri kullanarak yeni veri kümeleri ve ince ayar yapılmış modeller geliştirdi
  • Çeşitli veri kümeleri ve ince ayar stratejileri yayımlandı
    • Human Preference: OpenAI'nin WebGPT veri kümesi, HH-RLHF veri kümesi (Anthropic) ve Summarize (OpenAI)
    • Instruction: BigScience tarafından Public Pool of Prompts, Google tarafından FLAN 1 ve 2, AllenAI tarafından Natural Instructions, Self Instruct, SuperNatural Instructions, Unnatural Instructions
    • Human ChatGPT Instruction corpus (HC3), Alpaca, Vicuna, ShareGPT, Koala, Dolly, UltraChat, UltraLM, Zephyr, OpenHermes2,..

Erişilebilirliğin yaygınlaşması

  • Model/veri birleştirme: modellerin ağırlıklarını birleştirerek güçlü yönleri entegre etme
  • PEFT: tüm modeli kullanmadan da ince ayar yapabilme
  • Quantization: model boyutunu küçülten ve daha fazla kişinin LLM kullanmasını sağlayan teknik

Sırada ne var?

  • Transformer'ı aşan yeni mimarilerin ortaya çıkışı ve performans artışı
  • Mixtral, Mamba, Striped Hyena gibi yeni modellerin yayımlanması

1 yorum

 
laeyoung 2023-12-22

İyi açık kaynak modellerin çok çıkmış olması güzeldi. LLaMA da öyle, Web’de de çalışacak şekilde sunulan açık kaynak modeller de öyle; şunu bunu indirip epey denemiştim. Ama işin aslı, gerçekten kullanıp günlük hayatta kullandığım şeyler yalnızca ChatGPT ya da GPT-4’ü alıp SaaS olarak sunan servisler olunca biraz ironik geliyor. Açık kaynak modeller de önemli ama sonuçta bunu istikrarlı biçimde çalıştıracak altyapı ve onu yine istikrarlı biçimde destekleyecek mali sponsorlar(?) yoksa iş zorlaşıyor galiba diye düşünüyorum.