ChatGPT'nin piyasaya sürülüşünün 1. yılı: Açık kaynak büyük dil modellerinin yetişme yarışı
- 2022'nin sonunda piyasaya sürülen ChatGPT, yapay zeka alanının genelinde büyük bir değişim yarattı.
- Büyük dil modelleri (LLM), gözetimli öğrenme ve insan geri bildirimiyle pekiştirmeli öğrenme kullanılarak ayarlandı; böylece çeşitli görevlerde insanların sorularını yanıtlayabilme ve talimatları izleyebilme yeteneği gösterdi.
- Bu başarının ardından akademi ve sanayide LLM'lere olan ilgi arttı, birçok startup LLM'lere odaklandı ve açık kaynak LLM'ler hızla gelişerek belirli görevlerde ChatGPT ile eşdeğer ya da daha iyi performans gösterdiğini öne sürdü.
Araştırma ve iş dünyasına etkisi
- Her ne kadar kapalı kaynak LLM'ler (ör. OpenAI'nin GPT'si, Anthropic'in Claude'u) genel olarak açık kaynak modellerden daha üstün performans gösterse de, açık kaynak LLM'lerin gelişimi hızlı ilerliyor ve bazı görevlerde eşdeğer ya da daha iyi performansa ulaştığı yönünde iddialar var.
- Bu gelişmeler yalnızca araştırma için değil, iş dünyası için de önemli etkiler yaratıyor.
GN⁺ görüşü
- ChatGPT'nin piyasaya sürülüşünün 1. yılında, açık kaynak büyük dil modellerinin hızla gelişiyor olması ve belirli görevlerde ChatGPT'ye benzer ya da daha iyi performans göstermesi önemli.
- Bu durum hem araştırma hem de iş dünyası üzerinde ciddi etkiler yaratıyor; yapay zeka teknolojisinin demokratikleşmesini ve inovasyonu hızlandırmaya katkı sağlayabilir.
- Bu yazı, yapay zeka teknolojisinin gelişimi ve bunun toplum üzerindeki etkileriyle ilgilenenler için ilgi çekici içerik sunuyor.
1 yorum
Hacker News görüşü
Son birkaç gün içinde duyurulan büyük ve güçlü modeller:
1,3 milyar parametreli llama2 modelinin qlora ile fine-tune edilme yeteneğinin gösterimi:
Kod, sohbet, matematik, SQL, sağlık vb. alanlarda uzmanlaşmış birden fazla modelin önüne bir prompt router koymak gerekli hale gelebilir:
Şu anda yaklaşık 70B modeller ChatGPT 3.5 ile eşdeğer düzeyde; küçük modeller ilk başta benzer görünebilse de daha yüksek oranda halüsinasyon üretiyor ve dünya hakkında bilgi eksikliği yaşıyor
GPT 4 daha derin bir düzeyde "anlıyor" ve açık kaynak modeller henüz onunla kıyaslanabilir değil
Açık kaynak teknolojiler, OpenAI'nin uygulamadığı çıktı kontrol özelliklerine sahip (ör. llama.cpp'deki grammar veya ControlNet); bu açıdan açık kaynak OpenAI'nin önünde
DeepSeek 67B modelini kullanma deneyimi paylaşılıyor:
Mistral OpenOrca, yaratıcı yazarlık/analiz konusunda GPT4-turbo ile neredeyse eşdeğer ve benzer metinler üretme eğiliminde
Uzun vadede açık kaynak LLM'lerin yetişmesi neredeyse kaçınılmaz; açık kaynak topluluğunun kaynakları çok daha sınırlı olsa da <30B parametreli modellerin geliştirme hızını büyük ölçüde artırıyor
Kişisel deneyime göre açık kaynak LLM'ler henüz GPT 3.5 kalitesine ulaşmadı, ancak bugün bile faydalı ve yerel makinede çalıştırılabiliyor
Neovim eklentisi gen.nvim ile basit işler yapılıyor ve çok zaman kazandırıyor
Geleceğe dair heyecan dile getiriliyor
GPT4 son bir aydır sürekli gerilerken açık kaynak modellerin yetiştiğine dair güçlü bir inanç var