4 puan yazan GN⁺ 2023-12-03 | 1 yorum | WhatsApp'ta paylaş

ChatGPT'nin piyasaya sürülüşünün 1. yılı: Açık kaynak büyük dil modellerinin yetişme yarışı

  • 2022'nin sonunda piyasaya sürülen ChatGPT, yapay zeka alanının genelinde büyük bir değişim yarattı.
  • Büyük dil modelleri (LLM), gözetimli öğrenme ve insan geri bildirimiyle pekiştirmeli öğrenme kullanılarak ayarlandı; böylece çeşitli görevlerde insanların sorularını yanıtlayabilme ve talimatları izleyebilme yeteneği gösterdi.
  • Bu başarının ardından akademi ve sanayide LLM'lere olan ilgi arttı, birçok startup LLM'lere odaklandı ve açık kaynak LLM'ler hızla gelişerek belirli görevlerde ChatGPT ile eşdeğer ya da daha iyi performans gösterdiğini öne sürdü.

Araştırma ve iş dünyasına etkisi

  • Her ne kadar kapalı kaynak LLM'ler (ör. OpenAI'nin GPT'si, Anthropic'in Claude'u) genel olarak açık kaynak modellerden daha üstün performans gösterse de, açık kaynak LLM'lerin gelişimi hızlı ilerliyor ve bazı görevlerde eşdeğer ya da daha iyi performansa ulaştığı yönünde iddialar var.
  • Bu gelişmeler yalnızca araştırma için değil, iş dünyası için de önemli etkiler yaratıyor.

GN⁺ görüşü

  • ChatGPT'nin piyasaya sürülüşünün 1. yılında, açık kaynak büyük dil modellerinin hızla gelişiyor olması ve belirli görevlerde ChatGPT'ye benzer ya da daha iyi performans göstermesi önemli.
  • Bu durum hem araştırma hem de iş dünyası üzerinde ciddi etkiler yaratıyor; yapay zeka teknolojisinin demokratikleşmesini ve inovasyonu hızlandırmaya katkı sağlayabilir.
  • Bu yazı, yapay zeka teknolojisinin gelişimi ve bunun toplum üzerindeki etkileriyle ilgilenenler için ilgi çekici içerik sunuyor.

1 yorum

 
GN⁺ 2023-12-03
Hacker News görüşü
  • Son birkaç gün içinde duyurulan büyük ve güçlü modeller:

    • Qwen 72B (ve 1.8B): 32K bağlam, 3T token ile eğitildi, aylık kullanıcı sayısı 100 milyonun altındakiler için ticari lisans, benchmark'larda güçlü performans
    • DeepSeek LLM 67B: 4K bağlam, 2T token, Apache 2.0 lisansı, kod alanında güçlü (DeepSeek Code 33B ile kıyaslandığında bile daha iyi)
    • Çin'de piyasaya sürülen modeller: Yi 34B (100B söylentisi var), XVERSE-65B, Aquila2-70B, Yuan 2.0-102B
    • OpenChat 3.5: 7b model olarak Mart 2023'teki ChatGPT'ye benzer sonuçlar elde ediyor, 8k bağlam penceresi, chatbot arena liderlik tablosunda Llama-2-70b-chat'in üzerinde sıralanıyor
    • Açık kaynak LLM'ler özellikle parametre verimliliği ve kullanıcıların kendi donanımlarında çalıştırabileceği faydalı modeller sunma açısından sektöre öncülük ediyor
  • 1,3 milyar parametreli llama2 modelinin qlora ile fine-tune edilme yeteneğinin gösterimi:

    • Inkbot bilgi grafiği üretiyor ve YAML biçiminde uygun yapıyı döndürüyor; GPT4'ten daha iyi sonuç veriyor
    • Basit prompt'lar ve karmaşık prompt'lar için örnekler sunuluyor
    • Parça özetleme işlevi de yerine getiriliyor
  • Kod, sohbet, matematik, SQL, sağlık vb. alanlarda uzmanlaşmış birden fazla modelin önüne bir prompt router koymak gerekli hale gelebilir:

    • Genel model, çalışan router'a istek gönderir
    • Prompt/soru ayrıştırılır ve uzman modellere sınıflandırılıp iletilir
    • Yanıtlar geri gelir ve genel model tarafından birleştirilir
    • Buna benzer projelerin yürütülüp yürütülmediğine dair soru
  • Şu anda yaklaşık 70B modeller ChatGPT 3.5 ile eşdeğer düzeyde; küçük modeller ilk başta benzer görünebilse de daha yüksek oranda halüsinasyon üretiyor ve dünya hakkında bilgi eksikliği yaşıyor

  • GPT 4 daha derin bir düzeyde "anlıyor" ve açık kaynak modeller henüz onunla kıyaslanabilir değil

  • Açık kaynak teknolojiler, OpenAI'nin uygulamadığı çıktı kontrol özelliklerine sahip (ör. llama.cpp'deki grammar veya ControlNet); bu açıdan açık kaynak OpenAI'nin önünde

  • DeepSeek 67B modelini kullanma deneyimi paylaşılıyor:

    • ChatGPT ihtiyacının yerini alacak kadar yeterli
  • Mistral OpenOrca, yaratıcı yazarlık/analiz konusunda GPT4-turbo ile neredeyse eşdeğer ve benzer metinler üretme eğiliminde

  • Uzun vadede açık kaynak LLM'lerin yetişmesi neredeyse kaçınılmaz; açık kaynak topluluğunun kaynakları çok daha sınırlı olsa da <30B parametreli modellerin geliştirme hızını büyük ölçüde artırıyor

  • Kişisel deneyime göre açık kaynak LLM'ler henüz GPT 3.5 kalitesine ulaşmadı, ancak bugün bile faydalı ve yerel makinede çalıştırılabiliyor

  • Neovim eklentisi gen.nvim ile basit işler yapılıyor ve çok zaman kazandırıyor

  • Geleceğe dair heyecan dile getiriliyor

  • GPT4 son bir aydır sürekli gerilerken açık kaynak modellerin yetiştiğine dair güçlü bir inanç var