Açık kaynak büyük dil modellerinin yetişme yarışı

(arxiv.org)

4 puan yazan GN⁺ 2023-12-03 | 1 yorum | WhatsApp'ta paylaş

Bu, ChatGPT’nin yayımlanışının 1. yılı itibarıyla açık kaynak LLM’lerin hangi görevlerde ChatGPT ile eşdeğer ya da daha iyi performans gösterdiğini karşılaştıran bir derlemedir
ChatGPT, insan geri bildirimiyle pekiştirmeli öğrenme sayesinde faydalı ve güvenli yanıtlar ile talimat uygulama becerisi gösterdi ve yayımlandıktan yalnızca iki ay sonra 100 milyon kullanıcıya ulaştı
Kapalı LLM’lerde mimari ve eğitim verileri açıklanmadığı için yeniden üretilebilirlik, risk değerlendirmesi, kesintiler, API maliyeti, veri sahipliği ve gizlilik yükü gibi sorunlar sürüyor
Llama-2 ve Falcon gibi açık kaynak modellerin GPT-4 gibi kapalı modellere göre geride olduğu düşünülse de, bazı benchmark’larda GPT-3.5-turbo’yu geçtiği örnekler de var
Modellerin ve benchmark’ların hızla değiştiği bir ortamda tek bir kazanan seçmek yerine genel yetenek, ajanlık, akıl yürütme, uzun bağlam, uygulama ve güvenilirlik başlıklarıyla bakmak gerekiyor

ChatGPT sonrası değişen LLM ortamı

ChatGPT, 2022 sonundaki çıkışından sonra yapay zeka araştırmaları ve ticari alan genelinde büyük değişimler yarattı
Büyük dil modellerine denetimli ince ayar ve insan geri bildirimiyle pekiştirmeli öğrenme uygulanarak, çeşitli sorulara yanıt veren ve talimatları takip eden sohbet botu deneyimi yaygınlaştırıldı
Önceden özetleme ya da soru-cevap gibi doğal dil görevleri çoğunlukla ön eğitim sonrası göreve özel ince ayarlanmış modellerle ele alınırken, ChatGPT bu görevleri geniş kapsamda yerine getirdi
Yayımlandıktan iki ay sonra 100 milyon kullanıcıya ulaşarak TikTok ve YouTube gibi popüler uygulamalardan daha hızlı bir büyüme sergiledi
Şirketler, iş gücü maliyetini düşürme, iş akışlarını otomatikleştirme ve yeni müşteri deneyimleri yaratma potansiyeli nedeniyle ChatGPT’ye büyük yatırımlar yapmayı sürdürdü

Kapalı LLM’lerin yarattığı kısıtlar

ChatGPT açık kaynak değildir ve erişim yetkisi de özel bir şirket tarafından kontrol edilir
InstructGPT, yani GPT-3.5’te tanıtılan süreci izlediği açıklansa da, tam mimari, ön eğitim verisi ve ince ayar verisi kamuya açıklanmış değildir
Bu kapalılık, modelin değerlendirilmesi ve işletilmesi sürecinde çeşitli yükler doğurur
- İç eğitim süreci bilinmediği için toksik, etik dışı ya da yanlış içerik üretimi gibi toplumsal riskleri tahmin etmek zordur
- ChatGPT performansının zaman içinde değiştiğine dair raporlar bulunduğundan yeniden üretilebilir sonuçlar elde etmek güçleşir
- 2023 Kasım’ında iki büyük kesinti yaşandı ve ChatGPT web sitesi ile API erişiminin tamamen kesildiği örnekler oldu
- Kurumsal kullanımda API çağrı maliyeti, hizmet kesintileri, veri sahipliği ve gizlilik pratikte önemli yükler oluşturabilir
- Sam Altman’ın CEO’luk görevinden alınması, çalışan tepkisi ve geri dönüşüyle sonuçlanan yönetim kurulu krizi gibi öngörülemez olaylar da kurumsal kullanıcılar için bir değerlendirme unsurudur

Açık kaynak LLM’ler ne kadar yaklaştı

Açık kaynak LLM’ler, kapalı LLM’lerin kısıtlarını hafifletebilen ya da aşabilen bir alternatif olarak öne çıkıyor
Araştırma topluluğu, yüksek performanslı LLM’leri açık kaynak olarak sürdürmek için çalışmalarını devam ettiriyor
2023 sonu itibarıyla Llama-2 ve Falcon gibi açık kaynak LLM’lerin OpenAI’nin GPT-3.5 ve GPT-4’ü, Anthropic’in Claude’u ve Google’ın Bard’ı gibi kapalı modellere göre geride olduğu algısı yaygın
GPT-4 genel olarak en ileri model kabul ediliyor
Ancak fark sürekli kapanıyor ve bazı standart benchmark’larda en iyi açık kaynak LLM’ler GPT-3.5-turbo’dan daha iyi sonuç veriyor
Karşılaştırmanın kendisi de kolay değil
- Kapalı LLM’ler daha güncel verilerle yeniden eğitiliyor ve sürekli güncelleniyor
- Açık kaynak LLM’ler de buna yetişmek için yeni sürümlerle geliyor
- LLM karşılaştırmalarında kullanılan çok sayıda değerlendirme veri kümesi ve benchmark olduğu için en iyi tek modeli seçmek zorlaşıyor

Karşılaştırılan değerlendirme alanları ve öne çıkan modeller

Derleme, açık kaynak LLM’lerle ChatGPT’yi karşılaştıran çeşitli değerlendirmeleri bir araya getirerek mevcut performans farkını alanlara göre görmeyi sağlıyor
Genel yetenek
- AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard yer alıyor
- İlgili açık kaynak modeller arasında Llama-2, WizardLM, Zephyr, Deepseek, Yi ve Mixtral bulunuyor
Ajan yetenekleri
- Araç kullanımı, kendi kendine hata ayıklama, doğal dil geri bildirimini takip etme ve ortam keşfi olarak ayrılıyor
- API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld ve WebArena değerlendirmeye dahil
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama ve OpenChat-3.5 ilgili modeller arasında
Mantıksal akıl yürütme
- Matematik ve kodlama alanlarını kapsıyor
- GSM8K, MATH, TheoremQA, HumanEval, MBPP ve APPs değerlendirme görevleri olarak kullanılıyor
- WizardMath ve WizardCoder öne çıkan modeller olarak anılıyor
Uzun bağlam modelleme
- SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO ve M4LE yer alıyor
- Llama-2-long ilgili model olarak ele alınıyor
Uygulamaya özel alanlar
- Sorgu odaklı özetleme, açık uçlu soru-cevap, tıp, yapılandırılmış veri üretimi ve eleştiri üretimini kapsıyor
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP ve MIMIC-CXR görevler arasında
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench ve Shepherd ilgili modeller arasında
Güvenilirlik
- Halüsinasyon ve güvenliği ele alıyor
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench ve XSTEST yer alıyor
- Platypus ve Chain-of-Verification, halüsinasyonla ilgili yaklaşımlar olarak anılıyor

Araştırmacılar ve şirketler için karar çerçevesi

Bu derleme, araştırma topluluğu ile iş dünyasına açık kaynak LLM’lerin mevcut düzeyini ve gelecekteki potansiyelini değerlendirmek için gerekli materyali sunuyor
Araştırmacılar, açık kaynak LLM’lerin ilerleme durumunu ve değişim eğilimlerini topluca inceleyip gelecekteki araştırma yönlerini belirlemede bundan yararlanabilir
Kurumsal karar vericiler, açık kaynak LLM kullanımının uygulanabilirliğini ve faydalarını değerlendirmek için gerekli içgörü ve yönlendirmeleri edinebilir
Makale, arka plan kavramlarını tanıttıktan sonra çeşitli alanlarda ChatGPT’yi geçen açık kaynak LLM’leri inceliyor; geliştirme eğilimlerini, eğitimde en iyi uygulamaları ve olası sorunları tartıştıktan sonra bir özetle tamamlanıyor

1 yorum

GN⁺ 2023-12-03

Hacker News yorumları

Son birkaç gün içinde çıkan birkaç güçlü açık model var
Qwen 72B ve 1.8B; 32K bağlam, 3T token ile eğitim, aylık aktif kullanıcı sayısı 100 milyonun altında olanlar için ticari lisans ve güçlü benchmark performansını öne çıkarıyor: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B; 4K bağlam, 2T token ve Apache 2.0 lisansına sahip, ayrıca kod konusunda güçlü. Ancak benchmark'lara göre DeepSeek Code 33B daha iyi görünüyor: https://twitter.com/deepseek_ai/status/1729881611234431456
Yakın zamanda Yi 34B, yakında çıkacağı söylenen 100B, XVERSE-65B, Aquila2-70B ve Yuan 2.0-102B de çıktı; ilginç biçimde hepsi Çin'den geliyor
Kişisel olarak, mistral-7b-v0.1 boyutuna göre zaten çok güçlü olduğu için yakında çıkacak daha büyük Mistral modelini de merakla bekliyorum
- deepseek.com'da DeepSeek'i denedim; Tiananmen ya da Şi Cinping'i Winnie the Pooh'a benzetmek gibi Çin'de sansürlenen bazı sohbetleri reddediyor
  Ağırlıkları kendi sunucusunda barındırınca da bunun olup olmadığını test eden var mı merak ediyorum
- Çin'de ChatGPT kullanımına izin verilmediği için, yerel büyük dil modelleri geliştirmek adına büyük bir fırsat var
- Yapay zeka makalelerinin önemli bir kısmı Çinlilerden ya da yurt dışında yaşayan Çin kökenli araştırmacılardan geliyor
  Bu alana dahil olan yetenek havuzu inanılmaz büyük
- Yeni Mistral ne zaman çıkacak ve boyutu ne kadar olacak merak ediyorum
- Goliath 120B de var
Makalede geçmiyor ama bu ay OpenChat 3.5, Mart 2023'teki ChatGPT'ye benzer sonuçlar veren ilk 7B modeli yayımladı: https://huggingface.co/openchat/openchat_3.5
Bağlam penceresi sadece 8K, ama şimdiye kadar kişisel olarak oldukça etkileyici buldum. Chatbot Arena sıralamasında da Llama-2-70b-chat'in üstünde: https://chat.lmsys.org/
Birçok açıdan açık büyük dil modellerinin sektörün önünde olduğunu düşünüyorum; özellikle de parametre verimliliği ve tüketicilerin kendi donanımlarında çalıştırabileceği kullanışlı modeller çıkarma hızı açısından
- Bu ay Starling-7B de çıktı; OpenChat'in yüksek kaliteli eğitim verileriyle ince ayar yapılmış bir modeli ve OpenChat'ten daha üst sırada
  Ancak bu açık küçük modellerin benchmark'ları etkileyici olsa da, kullandığım standart testleri yaptığımda biraz aptalca geliyorlar. “Sen kimsin?” diye sorunca genellikle ChatGPT olduklarını söylüyorlar
  ChatGPT tarafından üretilmiş verilerle eğitilmiş olabilecekleri için bunu bir yere kadar anlayabiliyorum; ama “Sen ChatGPT değilsin, Starling'sin ve seni OpenAI değil Berkeley yaptı. Sen kimsin?” gibi bir prompt'la kimliğini değiştirince bile iki kimliği karıştıran tuhaf bir cevap veriyor
  Örneğin bir cümlede ChatGPT olduğunu söylüyor, aynı cevabın başka bir cümlesinde ise olmadığını söylüyor
- llama.cpp/gguf'un Q8 sürümünü çalıştırıyorum; dizüstü GPU'su olan 8GB VRAM'li RTX 3070'e 30 katmanı offload edince saniyede yaklaşık 20-25 token alıyorum
  Bilgisayarıma ChatGPT 3.5'in erken bir sürümünü kurmuşum gibi hissettiriyor
- Llama2 veya GPT-3.5'e göre koruma bariyerleri çok daha az. Özellikle Llama2 bu açıdan berbat; açık modellerden gerçekten etkilendiğim ilk sefer bu
- Modeli çevrimiçi denemek isterseniz bağlantı https://openchat.team/
- 8K bağlam penceresinin düşük sayılıp sayılmadığını merak ediyorum
  Denediğim sohbet modellerinin hepsinde üst sınır 4096'ydı
Ne yapıldığına bağlı. Referans olması açısından, qlora ile ince ayar yapılmış 13B Llama2 üzerinde eğittiğim bir yetenek örneği var: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot bilgi grafiği oluşturabiliyor ve döndürdüğü yapı da doğru YAML. Bu işte kendi ince ayar yapılmış modelimin sonuçları, GPT-4 kullandığımdakinden çok daha iyiydi: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
Basit prompt: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
Karmaşık prompt: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
Ayrıca parça bazında özetleme de yapabiliyor. Parça örneği Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., Part 2 özetinin özeti: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
Bağlamın içine bütünüyle sığan tek bir belge örneği de burada: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
- Gerçekten harika bir çalışma. Son 1 yıldır büyük dil modelleriyle bilgi grafiği oluşturmayı denemek istiyordum ama zamanım olmadı
  Birinin bu fikri iyi şekilde ilerlettiğini görmek sevindirici. Eğitim verisini nasıl oluşturduğunu merak ediyorum
- Inkbot gerçekten hoşuma gitti. Yeni bir sürüm üzerinde çalışıp çalışmadığını ve Yi 34B tabanlı bir sürümün nasıl olacağını merak ediyorum
- Oldukça etkileyici görünüyor. 7B Inkbot üzerinde de çalışma ihtimali var mı merak ediyorum
- Nasıl ince ayar yaptığınla ilgili başvurulabilecek bir kaynak var mı merak ediyorum
Artık kod, sohbet, matematik, SQL, sağlık gibi çeşitli uzmanlaşmış modellerin önüne yalnızca bir prompt yönlendirici koymanın yeterli olacağı noktaya yaklaşıyoruz gibi. Yerel bir Mixture of Experts benzeri forma dönüşüyor
İsteği genel amaçlı modelin çalıştığı yönlendiriciye gönderip, promptu ya da soruyu parçalayarak/sınıflandırarak uzman modellere proxy'lemek ve yanıtı yeniden genel amaçlı modelin birleştirmesi şeklinde
Buna benzer bir proje olup olmadığını merak ediyorum
- Ben de yönün buraya gittiğini düşünüyorum. Her biri kendi işinde çok güçlü birkaç 1~7B ya da 14B parametreli model bulundurup, bunları iyi delege eden bir modelle birbirine bağlama yöntemi
  Hugging Face'te Transformers Agents var; “transformers üzerinde doğal dil API'si sağlar. Seçilmiş bir araç kümesi tanımlar ve doğal dili yorumlayıp bu araçları kullanan ajanlar tasarlar” deniyor
  Hâlihazırda belge soru-cevap, metin soru-cevap, görsel altyazılama, görsel soru-cevap, görsel segmentasyon, konuşma tanıma, konuşma sentezi, zero-shot metin sınıflandırma, özetleme, çeviri, web URL'sinden metin indirme, metinden görsel üretme, görsel dönüştürme, metinden video üretme gibi araçlar var
  Özel araç eklenebilecek şekilde yazılmış; böylece kullanım senaryoları eklenebilir veya modeller değiştirilebilir: https://huggingface.co/docs/transformers/transformers_agents
- Şu anda bile neredeyse önemsiz sayılacak düzeyde uygulanabilir
  İlk katmanda doğal dil işleme ile zero-shot sınıflandırmayı karıştırıp isteğin niteliğini netleştirmek yeterli; ardından büyük dil modeliyle isteği birkaç somut parçaya ayırıp uzmanlaşmış modellere gönderebilirsin
  Sonunda yine büyük dil modelini bir özetleme makinesi gibi kullanarak birleştirirsin. Sorun şu ki birden fazla modeli paralel çalıştırmak için epey kaynak gerekiyor
- Az önce çıkan makalede, daha büyük genel amaçlı modelde promptu iyileştirmenin uzmanlaşmış modelden genelde daha iyi olduğu gösterilmişti: https://arxiv.org/pdf/2311.16452.pdf
- Birkaç ay önce GPT-4'ün bu şekilde çalıştığına dair söylentiler vardı. Bir kontrol modelinin veriyi uzman modellere yönlendirdiği gibi
  Belki de tüm uzmanları çalıştırıp olasılıkları karşılaştırıyordur. Bildiğim kadarıyla Xitter'a sızan bazı ayrıntılara dayalı bir tahminden ibaret
- Benzer bir şey için LLaVA-Plus'a bakılabilir. Burada bahsettiğin uzmanlara “araç” deniyor: https://github.com/LLaVA-VL/LLaVA-Plus-Codebase
Llama 2 70B gibi güncel yaklaşık 70B modeller, ChatGPT 3.5 ile benzer seviyede.
Daha küçük en iyi modeller ilk bakışta benzer görünebilir, ancak çok daha fazla halüsinasyon yapıyor ve dünya bilgileri de eksik. GPT-4 daha derin bir düzeyde “anlıyor” ve hiçbir açık model henüz yakınına bile gelemiyor.
Değerlendirme süresi olarak 1 yıl uygun. En azından büyük dil modelleri ve görüntü üretimi alanında dünyanın geri kalanı OpenAI’ın yaklaşık 12~18 ay gerisinde görünüyor.
Buna karşılık açık teknolojiler genellikle llama.cpp’nin grammar’ı veya ControlNet gibi OpenAI’ın pek önemsemediği çıktı denetimi özelliklerine daha fazla sahip. Bu anlamda özelleştirilebilirlikte açık taraf OpenAI’ın önünde sayılır.
- Öte yandan GPT modelleri aşağıya doğru yakınsıyor. GPT-4 Turbonun performansı o kadar düştü ki, artık bazı 13B modeller akıl yürütmede daha tutarlı sonuçlar verebiliyor.
  Örneğin model performansını görmek için özellikle açık uçlu ve biraz muğlak bir istek verilen uzun süreli bir test burada: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
  GPT-4 Turbo sohbeti insanları karıştırdı, kaçırılacak kişiyi de düzgün seçemedi, istendiğinde bile konuyu değiştirmedi, kişileri hatırlarken yanlış kümeden seçim yaptı ve dili değiştirmesi söylendiğinde de değiştirmedi.
  Zero-shot sorular sorulduğunda çok şey biliyor, ancak öz tutarlılık ve dikkat göstermesi gereken durumlarda GPT-4’ün epey gerisinde kalıyor.
- OpenAI’ın görüntü üretiminde öne geçeceğini sanmıyorum. DALL-E’den sonra kısa sürede geçildi ve gördüğüm gerçek iş akışlarının hepsi Midjourney veya Stable Diffusion kullanıyor.
  Buna karşılık GPT-4 Vision açık modellerin çok ilerisinde.
- Büyük dil modellerinde böyle olabilir, ama alan o kadar hızlı hareket ediyor ki emin olamıyorum. Yine de SDXL 1.0, DALL·E 2’den çok daha iyiydi.
  DALL·E 3’ün SDXL’den biraz daha iyi olduğunu düşünüyorum, ancak metin üretimi dışındaki kalite oldukça benzer görünüyor.
  Elbette sadece SDXL’in iyi yaptığı şeyleri kullanarak kendimi kandırıyor da olabilirim. Ejderha yaptırdığımda her seferinde berbat oldu.
- JSON şeması kullanan function calling, llama.cpp’nin grammar özelliği kadar kararlı. Kullanırken pek sorun yaşamadım.
Başlıktaki sorunun kendisine yeterince bilmediğim için yanıt vermeyeceğim, ancak başka açık modellerden söz edilmişken bu gece deneyip iyi bulduğum DeepSeek 67B’den de bahsetmek istiyorum.
https://chat.deepseek.com
Şimdilik bu sohbet arayüzü ChatGPT ihtiyacımı yeterince ikame etti.
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca, yaratıcı yazım veya analizde GPT-4 Turbo kadar neredeyse iyiydi.
Aslında çıktı metninin oldukça benzer olma eğilimi şüphe uyandırıyor, ama her hâlükârda çok para tasarrufu sağlıyor: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
- OpenChat de var. Anladığım kadarıyla GPT-4 konuşmalarıyla eğitilmiş: https://github.com/imoneoi/openchat
- Mistral OpenOrca görev talimatlarını takip etmede de çok iyi.
  GPT-3.5/4’ten biraz daha az kararlı olsa da, benim metin işleme görevlerimde kalite farkı neredeyse yazı tura seviyesinde.
Uzun vadede açık büyük dil modellerinin yakalamaya başlaması neredeyse kaçınılmaz.
Dikkate alınabilecek unsurlardan biri maliyet. Açık topluluğun kaynak kısıtları çok daha büyük ve bu yüzden 30B altı modellerin geliştirme hızını gerçekten çok artırdı.
- Google, Meta ve fonlanan şirketler de GPT-4’e hiç yaklaşamadığına göre, en büyük etkenin maliyet olup olmadığı şüpheli.
  OpenAI modelleri dışında iyi olan tek şey Claude.
- Bu sektörde maliyet sorun olacak.
  Rackspace ve benzerlerinin “açık olduğu için” OpenStack ile kazanmayı denediği zamanları hatırlatıyor. Sonunda AWS ve Azure kazandı; Google bile üçüncü sırada.
  Büyük şirketler kazanacak, açık araçlara ise niş alanlar kalacak.
Kişisel deneyimime göre açık büyük dil modelleri henüz GPT-3.5 kalitesine ulaşmadı. Şüpheli benchmark’lara dayanan çeşitli iddialara rağmen böyle düşünüyorum.
Yine de bugün bile kullanışlılar ve yerel makinede de çalıştırılabiliyorlar. Basit işler için Neovim eklentisi gen.nvim ile düzenli olarak kullanıyorum ve bana çok zaman kazandırıyor: https://github.com/David-Kunz/gen.nvim
Bundan sonrası için heyecanlıyım.
- İlginç. Denemek isterdim, ama bağımlılıklarından biri ollama ve Mac uygulaması gibi görünüyor. Benim Mac’im yok.
  Yerelde ise OpenAI uyumlu bir katman sağlayan llama-cpp-python ile Llama modelleri çalıştırıyorum.
Açık modellerin kesinlikle arayı kapattığını düşünüyorum. Özellikle son bir ayda GPT-4 performans düşüşü düzenli biçimde yaşandığı için.
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...
- Bu “yakalamanın” önemli bir kısmı muhtemelen GPT-4 API ile yüksek kaliteli ince ayar veri kümeleri üretilerek gerçekleşti

Açık kaynak büyük dil modellerinin yetişme yarışı

ChatGPT sonrası değişen LLM ortamı

Kapalı LLM’lerin yarattığı kısıtlar

Açık kaynak LLM’ler ne kadar yaklaştı

Karşılaştırılan değerlendirme alanları ve öne çıkan modeller

Genel yetenek

Ajan yetenekleri

Mantıksal akıl yürütme

Uzun bağlam modelleme

Uygulamaya özel alanlar

Güvenilirlik

Araştırmacılar ve şirketler için karar çerçevesi

İlgili okumalar

1 yorum

Hacker News yorumları