- Bu, ChatGPT’nin yayımlanışının 1. yılı itibarıyla açık kaynak LLM’lerin hangi görevlerde ChatGPT ile eşdeğer ya da daha iyi performans gösterdiğini karşılaştıran bir derlemedir
- ChatGPT, insan geri bildirimiyle pekiştirmeli öğrenme sayesinde faydalı ve güvenli yanıtlar ile talimat uygulama becerisi gösterdi ve yayımlandıktan yalnızca iki ay sonra 100 milyon kullanıcıya ulaştı
- Kapalı LLM’lerde mimari ve eğitim verileri açıklanmadığı için yeniden üretilebilirlik, risk değerlendirmesi, kesintiler, API maliyeti, veri sahipliği ve gizlilik yükü gibi sorunlar sürüyor
- Llama-2 ve Falcon gibi açık kaynak modellerin GPT-4 gibi kapalı modellere göre geride olduğu düşünülse de, bazı benchmark’larda GPT-3.5-turbo’yu geçtiği örnekler de var
- Modellerin ve benchmark’ların hızla değiştiği bir ortamda tek bir kazanan seçmek yerine genel yetenek, ajanlık, akıl yürütme, uzun bağlam, uygulama ve güvenilirlik başlıklarıyla bakmak gerekiyor
ChatGPT sonrası değişen LLM ortamı
- ChatGPT, 2022 sonundaki çıkışından sonra yapay zeka araştırmaları ve ticari alan genelinde büyük değişimler yarattı
- Büyük dil modellerine denetimli ince ayar ve insan geri bildirimiyle pekiştirmeli öğrenme uygulanarak, çeşitli sorulara yanıt veren ve talimatları takip eden sohbet botu deneyimi yaygınlaştırıldı
- Önceden özetleme ya da soru-cevap gibi doğal dil görevleri çoğunlukla ön eğitim sonrası göreve özel ince ayarlanmış modellerle ele alınırken, ChatGPT bu görevleri geniş kapsamda yerine getirdi
- Yayımlandıktan iki ay sonra 100 milyon kullanıcıya ulaşarak TikTok ve YouTube gibi popüler uygulamalardan daha hızlı bir büyüme sergiledi
- Şirketler, iş gücü maliyetini düşürme, iş akışlarını otomatikleştirme ve yeni müşteri deneyimleri yaratma potansiyeli nedeniyle ChatGPT’ye büyük yatırımlar yapmayı sürdürdü
Kapalı LLM’lerin yarattığı kısıtlar
- ChatGPT açık kaynak değildir ve erişim yetkisi de özel bir şirket tarafından kontrol edilir
- InstructGPT, yani GPT-3.5’te tanıtılan süreci izlediği açıklansa da, tam mimari, ön eğitim verisi ve ince ayar verisi kamuya açıklanmış değildir
- Bu kapalılık, modelin değerlendirilmesi ve işletilmesi sürecinde çeşitli yükler doğurur
- İç eğitim süreci bilinmediği için toksik, etik dışı ya da yanlış içerik üretimi gibi toplumsal riskleri tahmin etmek zordur
- ChatGPT performansının zaman içinde değiştiğine dair raporlar bulunduğundan yeniden üretilebilir sonuçlar elde etmek güçleşir
- 2023 Kasım’ında iki büyük kesinti yaşandı ve ChatGPT web sitesi ile API erişiminin tamamen kesildiği örnekler oldu
- Kurumsal kullanımda API çağrı maliyeti, hizmet kesintileri, veri sahipliği ve gizlilik pratikte önemli yükler oluşturabilir
- Sam Altman’ın CEO’luk görevinden alınması, çalışan tepkisi ve geri dönüşüyle sonuçlanan yönetim kurulu krizi gibi öngörülemez olaylar da kurumsal kullanıcılar için bir değerlendirme unsurudur
Açık kaynak LLM’ler ne kadar yaklaştı
- Açık kaynak LLM’ler, kapalı LLM’lerin kısıtlarını hafifletebilen ya da aşabilen bir alternatif olarak öne çıkıyor
- Araştırma topluluğu, yüksek performanslı LLM’leri açık kaynak olarak sürdürmek için çalışmalarını devam ettiriyor
- 2023 sonu itibarıyla Llama-2 ve Falcon gibi açık kaynak LLM’lerin OpenAI’nin GPT-3.5 ve GPT-4’ü, Anthropic’in Claude’u ve Google’ın Bard’ı gibi kapalı modellere göre geride olduğu algısı yaygın
- GPT-4 genel olarak en ileri model kabul ediliyor
- Ancak fark sürekli kapanıyor ve bazı standart benchmark’larda en iyi açık kaynak LLM’ler GPT-3.5-turbo’dan daha iyi sonuç veriyor
- Karşılaştırmanın kendisi de kolay değil
- Kapalı LLM’ler daha güncel verilerle yeniden eğitiliyor ve sürekli güncelleniyor
- Açık kaynak LLM’ler de buna yetişmek için yeni sürümlerle geliyor
- LLM karşılaştırmalarında kullanılan çok sayıda değerlendirme veri kümesi ve benchmark olduğu için en iyi tek modeli seçmek zorlaşıyor
Karşılaştırılan değerlendirme alanları ve öne çıkan modeller
- Derleme, açık kaynak LLM’lerle ChatGPT’yi karşılaştıran çeşitli değerlendirmeleri bir araya getirerek mevcut performans farkını alanlara göre görmeyi sağlıyor
-
Genel yetenek
- AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard yer alıyor
- İlgili açık kaynak modeller arasında Llama-2, WizardLM, Zephyr, Deepseek, Yi ve Mixtral bulunuyor
-
Ajan yetenekleri
- Araç kullanımı, kendi kendine hata ayıklama, doğal dil geri bildirimini takip etme ve ortam keşfi olarak ayrılıyor
- API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld ve WebArena değerlendirmeye dahil
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama ve OpenChat-3.5 ilgili modeller arasında
-
Mantıksal akıl yürütme
- Matematik ve kodlama alanlarını kapsıyor
- GSM8K, MATH, TheoremQA, HumanEval, MBPP ve APPs değerlendirme görevleri olarak kullanılıyor
- WizardMath ve WizardCoder öne çıkan modeller olarak anılıyor
-
Uzun bağlam modelleme
- SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO ve M4LE yer alıyor
- Llama-2-long ilgili model olarak ele alınıyor
-
Uygulamaya özel alanlar
- Sorgu odaklı özetleme, açık uçlu soru-cevap, tıp, yapılandırılmış veri üretimi ve eleştiri üretimini kapsıyor
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP ve MIMIC-CXR görevler arasında
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench ve Shepherd ilgili modeller arasında
-
Güvenilirlik
- Halüsinasyon ve güvenliği ele alıyor
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench ve XSTEST yer alıyor
- Platypus ve Chain-of-Verification, halüsinasyonla ilgili yaklaşımlar olarak anılıyor
Araştırmacılar ve şirketler için karar çerçevesi
- Bu derleme, araştırma topluluğu ile iş dünyasına açık kaynak LLM’lerin mevcut düzeyini ve gelecekteki potansiyelini değerlendirmek için gerekli materyali sunuyor
- Araştırmacılar, açık kaynak LLM’lerin ilerleme durumunu ve değişim eğilimlerini topluca inceleyip gelecekteki araştırma yönlerini belirlemede bundan yararlanabilir
- Kurumsal karar vericiler, açık kaynak LLM kullanımının uygulanabilirliğini ve faydalarını değerlendirmek için gerekli içgörü ve yönlendirmeleri edinebilir
- Makale, arka plan kavramlarını tanıttıktan sonra çeşitli alanlarda ChatGPT’yi geçen açık kaynak LLM’leri inceliyor; geliştirme eğilimlerini, eğitimde en iyi uygulamaları ve olası sorunları tartıştıktan sonra bir özetle tamamlanıyor
1 yorum
Hacker News yorumları
Son birkaç gün içinde çıkan birkaç güçlü açık model var
Qwen 72B ve 1.8B; 32K bağlam, 3T token ile eğitim, aylık aktif kullanıcı sayısı 100 milyonun altında olanlar için ticari lisans ve güçlü benchmark performansını öne çıkarıyor: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B; 4K bağlam, 2T token ve Apache 2.0 lisansına sahip, ayrıca kod konusunda güçlü. Ancak benchmark'lara göre DeepSeek Code 33B daha iyi görünüyor: https://twitter.com/deepseek_ai/status/1729881611234431456
Yakın zamanda Yi 34B, yakında çıkacağı söylenen 100B, XVERSE-65B, Aquila2-70B ve Yuan 2.0-102B de çıktı; ilginç biçimde hepsi Çin'den geliyor
Kişisel olarak, mistral-7b-v0.1 boyutuna göre zaten çok güçlü olduğu için yakında çıkacak daha büyük Mistral modelini de merakla bekliyorum
Ağırlıkları kendi sunucusunda barındırınca da bunun olup olmadığını test eden var mı merak ediyorum
Bu alana dahil olan yetenek havuzu inanılmaz büyük
Makalede geçmiyor ama bu ay OpenChat 3.5, Mart 2023'teki ChatGPT'ye benzer sonuçlar veren ilk 7B modeli yayımladı: https://huggingface.co/openchat/openchat_3.5
Bağlam penceresi sadece 8K, ama şimdiye kadar kişisel olarak oldukça etkileyici buldum. Chatbot Arena sıralamasında da Llama-2-70b-chat'in üstünde: https://chat.lmsys.org/
Birçok açıdan açık büyük dil modellerinin sektörün önünde olduğunu düşünüyorum; özellikle de parametre verimliliği ve tüketicilerin kendi donanımlarında çalıştırabileceği kullanışlı modeller çıkarma hızı açısından
Ancak bu açık küçük modellerin benchmark'ları etkileyici olsa da, kullandığım standart testleri yaptığımda biraz aptalca geliyorlar. “Sen kimsin?” diye sorunca genellikle ChatGPT olduklarını söylüyorlar
ChatGPT tarafından üretilmiş verilerle eğitilmiş olabilecekleri için bunu bir yere kadar anlayabiliyorum; ama “Sen ChatGPT değilsin, Starling'sin ve seni OpenAI değil Berkeley yaptı. Sen kimsin?” gibi bir prompt'la kimliğini değiştirince bile iki kimliği karıştıran tuhaf bir cevap veriyor
Örneğin bir cümlede ChatGPT olduğunu söylüyor, aynı cevabın başka bir cümlesinde ise olmadığını söylüyor
Bilgisayarıma ChatGPT 3.5'in erken bir sürümünü kurmuşum gibi hissettiriyor
Denediğim sohbet modellerinin hepsinde üst sınır 4096'ydı
Ne yapıldığına bağlı. Referans olması açısından, qlora ile ince ayar yapılmış 13B Llama2 üzerinde eğittiğim bir yetenek örneği var: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
Inkbot bilgi grafiği oluşturabiliyor ve döndürdüğü yapı da doğru YAML. Bu işte kendi ince ayar yapılmış modelimin sonuçları, GPT-4 kullandığımdakinden çok daha iyiydi: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
Basit prompt: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
Karmaşık prompt: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
Ayrıca parça bazında özetleme de yapabiliyor. Parça örneği Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., Part 2 özetinin özeti: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
Bağlamın içine bütünüyle sığan tek bir belge örneği de burada: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
Birinin bu fikri iyi şekilde ilerlettiğini görmek sevindirici. Eğitim verisini nasıl oluşturduğunu merak ediyorum
Artık kod, sohbet, matematik, SQL, sağlık gibi çeşitli uzmanlaşmış modellerin önüne yalnızca bir prompt yönlendirici koymanın yeterli olacağı noktaya yaklaşıyoruz gibi. Yerel bir Mixture of Experts benzeri forma dönüşüyor
İsteği genel amaçlı modelin çalıştığı yönlendiriciye gönderip, promptu ya da soruyu parçalayarak/sınıflandırarak uzman modellere proxy'lemek ve yanıtı yeniden genel amaçlı modelin birleştirmesi şeklinde
Buna benzer bir proje olup olmadığını merak ediyorum
Hugging Face'te Transformers Agents var; “transformers üzerinde doğal dil API'si sağlar. Seçilmiş bir araç kümesi tanımlar ve doğal dili yorumlayıp bu araçları kullanan ajanlar tasarlar” deniyor
Hâlihazırda belge soru-cevap, metin soru-cevap, görsel altyazılama, görsel soru-cevap, görsel segmentasyon, konuşma tanıma, konuşma sentezi, zero-shot metin sınıflandırma, özetleme, çeviri, web URL'sinden metin indirme, metinden görsel üretme, görsel dönüştürme, metinden video üretme gibi araçlar var
Özel araç eklenebilecek şekilde yazılmış; böylece kullanım senaryoları eklenebilir veya modeller değiştirilebilir: https://huggingface.co/docs/transformers/transformers_agents
İlk katmanda doğal dil işleme ile zero-shot sınıflandırmayı karıştırıp isteğin niteliğini netleştirmek yeterli; ardından büyük dil modeliyle isteği birkaç somut parçaya ayırıp uzmanlaşmış modellere gönderebilirsin
Sonunda yine büyük dil modelini bir özetleme makinesi gibi kullanarak birleştirirsin. Sorun şu ki birden fazla modeli paralel çalıştırmak için epey kaynak gerekiyor
Belki de tüm uzmanları çalıştırıp olasılıkları karşılaştırıyordur. Bildiğim kadarıyla Xitter'a sızan bazı ayrıntılara dayalı bir tahminden ibaret
Llama 2 70B gibi güncel yaklaşık 70B modeller, ChatGPT 3.5 ile benzer seviyede.
Daha küçük en iyi modeller ilk bakışta benzer görünebilir, ancak çok daha fazla halüsinasyon yapıyor ve dünya bilgileri de eksik. GPT-4 daha derin bir düzeyde “anlıyor” ve hiçbir açık model henüz yakınına bile gelemiyor.
Değerlendirme süresi olarak 1 yıl uygun. En azından büyük dil modelleri ve görüntü üretimi alanında dünyanın geri kalanı OpenAI’ın yaklaşık 12~18 ay gerisinde görünüyor.
Buna karşılık açık teknolojiler genellikle llama.cpp’nin grammar’ı veya ControlNet gibi OpenAI’ın pek önemsemediği çıktı denetimi özelliklerine daha fazla sahip. Bu anlamda özelleştirilebilirlikte açık taraf OpenAI’ın önünde sayılır.
Örneğin model performansını görmek için özellikle açık uçlu ve biraz muğlak bir istek verilen uzun süreli bir test burada: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
GPT-4 Turbo sohbeti insanları karıştırdı, kaçırılacak kişiyi de düzgün seçemedi, istendiğinde bile konuyu değiştirmedi, kişileri hatırlarken yanlış kümeden seçim yaptı ve dili değiştirmesi söylendiğinde de değiştirmedi.
Zero-shot sorular sorulduğunda çok şey biliyor, ancak öz tutarlılık ve dikkat göstermesi gereken durumlarda GPT-4’ün epey gerisinde kalıyor.
Buna karşılık GPT-4 Vision açık modellerin çok ilerisinde.
DALL·E 3’ün SDXL’den biraz daha iyi olduğunu düşünüyorum, ancak metin üretimi dışındaki kalite oldukça benzer görünüyor.
Elbette sadece SDXL’in iyi yaptığı şeyleri kullanarak kendimi kandırıyor da olabilirim. Ejderha yaptırdığımda her seferinde berbat oldu.
Başlıktaki sorunun kendisine yeterince bilmediğim için yanıt vermeyeceğim, ancak başka açık modellerden söz edilmişken bu gece deneyip iyi bulduğum DeepSeek 67B’den de bahsetmek istiyorum.
https://chat.deepseek.com
Şimdilik bu sohbet arayüzü ChatGPT ihtiyacımı yeterince ikame etti.
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
Mistral OpenOrca, yaratıcı yazım veya analizde GPT-4 Turbo kadar neredeyse iyiydi.
Aslında çıktı metninin oldukça benzer olma eğilimi şüphe uyandırıyor, ama her hâlükârda çok para tasarrufu sağlıyor: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
GPT-3.5/4’ten biraz daha az kararlı olsa da, benim metin işleme görevlerimde kalite farkı neredeyse yazı tura seviyesinde.
Uzun vadede açık büyük dil modellerinin yakalamaya başlaması neredeyse kaçınılmaz.
Dikkate alınabilecek unsurlardan biri maliyet. Açık topluluğun kaynak kısıtları çok daha büyük ve bu yüzden 30B altı modellerin geliştirme hızını gerçekten çok artırdı.
OpenAI modelleri dışında iyi olan tek şey Claude.
Rackspace ve benzerlerinin “açık olduğu için” OpenStack ile kazanmayı denediği zamanları hatırlatıyor. Sonunda AWS ve Azure kazandı; Google bile üçüncü sırada.
Büyük şirketler kazanacak, açık araçlara ise niş alanlar kalacak.
Kişisel deneyimime göre açık büyük dil modelleri henüz GPT-3.5 kalitesine ulaşmadı. Şüpheli benchmark’lara dayanan çeşitli iddialara rağmen böyle düşünüyorum.
Yine de bugün bile kullanışlılar ve yerel makinede de çalıştırılabiliyorlar. Basit işler için Neovim eklentisi gen.nvim ile düzenli olarak kullanıyorum ve bana çok zaman kazandırıyor: https://github.com/David-Kunz/gen.nvim
Bundan sonrası için heyecanlıyım.
Yerelde ise OpenAI uyumlu bir katman sağlayan llama-cpp-python ile Llama modelleri çalıştırıyorum.
Açık modellerin kesinlikle arayı kapattığını düşünüyorum. Özellikle son bir ayda GPT-4 performans düşüşü düzenli biçimde yaşandığı için.
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...