- LLM alanında konuşulan 10 temel zorluk ve daha fazla öğrenme için bağlantı derlemesi
Halüsinasyonun azaltılması ve ölçülmesi
- Şirketlerin LLM benimsemesinin önündeki en büyük engel halüsinasyon
- Halüsinasyonu azaltmak ve ölçmek için metrikler geliştirmek popüler bir araştırma konusu ve birçok startup bu alana odaklanıyor
- Halüsinasyonu azaltmak için geçici ipuçları arasında prompt’a bağlam eklemek, Chain-Of-Thought, Self-Consistency ve modelden kısa yanıtlar istemek yer alıyor
Bağlam uzunluğu ve bağlam oluşturmanın optimize edilmesi
- Çoğu soru bağlama ihtiyaç duyar
- SituatedQA makalesine göre bilgi erişimi sorularının önemli bir kısmının yanıtı bağlama göre değişir (NQ-Open veri kümesinin %16,5’i buna giriyor)
- Şirket örneklerinde bu oran muhtemelen çok daha yüksektir (bir müşteri destek chatbot’u için bağlam, ilgili müşterinin geçmişi veya ürün hakkındaki bilgilerdir)
- Bağlam uzunluğu özellikle RAG (Retrieval Augmented Generation) için önemlidir
- RAG iki aşamada çalışır
- Chunking (indeksleme): LLM’de kullanılacak tüm belgeleri toplamak. Embedding üretmek, embedding’leri LLM’e vermek için bunları parçalara ayırmak ve embedding’leri bir vektör veritabanında saklamak
- Sorgu: Kullanıcı bir sorgu gönderdiğinde LLM sorguyu embedding’e dönüştürür. Vektör veritabanından embedding’e en benzer parçaları getirir
- Bağlam uzunluğu arttıkça daha fazla parça eklenebilir. Modelin erişebildiği bilgi arttığında yanıtlar da daha iyi olur, değil mi?
- Her zaman değil. Modelin kullandığı bağlam miktarı ile bu bağlamı ne kadar verimli kullandığı farklı sorulardır
- Model bağlam uzunluğunu artırma çabalarının yanında bağlamı verimli hale getirmeye yönelik çalışmalar da var
- Buna prompt engineering veya prompt construction deniyor
- Örneğin yakın tarihli bir makale, modelin bağlamın ortasındakinden ziyade başındaki veya sonundaki bilgileri daha iyi kavradığını gösteriyor
Farklı veri biçimlerinin (modalitelerin) entegrasyonu
- Multimodality çok güçlü ama hâlâ yeterince değer görmüyor
- Neden önemli olduğuna dair bazı noktalar
- Tıp, robotik, e-ticaret, perakende, oyun ve eğlence gibi farklı veri türlerini ele alan kullanım örnekleri var
- Tıbbi tahminler için metin (doktor notları, anketler) ile görüntü (CT, X-Ray, MRI) gerekir
- Ürün metadata’sı görüntü, video, açıklamalar ve tablo biçimli veriler içerir
- Multimodality model performansında büyük artışlar sağlayacaktır
- Metni ve görüntüyü anlayabilen modeller, yalnızca metni anlayan modellere göre daha iyi performans gösterir
- Metin tabanlı modeller çok büyük miktarda metin verisine ihtiyaç duyduğundan, yakında model eğitimi için gerekli internet verisinin tükeneceğine dair endişeler de var
- Metin azaldığında diğer veri biçimlerinden yararlanmak gerekir
- Özellikle heyecan verici olan şey: multimodality sayesinde görme engelli insanların internette arama yapabilmesi ve gerçek dünyayı keşfedebilmesi
LLM’leri daha hızlı ve daha ucuz hale getirmek
- GPT-3.5 Kasım 2022’de çıktığında birçok kişi üretimde gecikme ve kullanım maliyeti konusunda endişeliydi
- Ancak gecikme/maliyet analizi o zamandan beri çok değişti
- Yarım yıl bile geçmeden topluluk, GPT-3.5’in bellek alanının yalnızca %2’siyle performans açısından GPT-3.5’e çok yaklaşan modeller üretmenin yolunu buldu
- Ana fikir: Yeterince iyi bir şey yaparsanız, insanlar onu hızlı ve ucuz hale getirmenin yolunu bulur
- 4 yıl önce özetlenen model optimizasyonu/sıkıştırması için 4 temel teknik
- Quantization (nicemleme): En yaygın model optimizasyon yöntemi. Parametreleri temsil etmek için daha az bit kullanarak model boyutunu küçültür. 32-bit floating point yerine 16-bit, hatta 4-bit kullanılır
- Knowledge distillation (bilgi damıtımı): Küçük bir modeli (öğrenci), daha büyük bir modeli veya model topluluğunu (öğretmen) taklit edecek şekilde eğitmek
- Low-rank factorization (düşük dereceli çarpanlara ayırma): Parametre sayısını azaltmak için yüksek boyutlu tensörleri düşük boyutlu tensörlerle değiştirmek. Örneğin 3x3 bir tensörü 3x1 ve 1x3 tensörlerinin çarpımına ayırarak 9 yerine yalnızca 6 parametre kullanmak
- Pruning (budama)
- Bu dört teknik bugün de geçerliliğini koruyor ve popüler. Alpaca bilgi damıtımını kullandı, QLoRA ise düşük dereceli çarpanlara ayırma ile nicemlemenin birleşimini kullandı
Yeni model mimarileri tasarlamak
- 2012’deki AlexNet’ten sonra LSTM, seq2seq gibi birçok mimari yükseldi ve sonra kayboldu
- Buna kıyasla Transformer son derece kalıcı oldu. 2017’de çıktı ve ne kadar daha popüler kalacağını merak ettiriyor
- Transformer’ı geride bırakacak yeni bir mimari geliştirmek kolay değil. Son 6 yılda muazzam biçimde optimize edildi
- Yeni bir mimari, bugün insanların ilgi göstereceği ölçekte performans göstermeli
- Transformer başlangıçta TPU üzerinde hızlı çalışacak şekilde tasarlandı ve daha sonra GPU’ya optimize edildi
- 2021’de Chris Ré’nin laboratuvarında S4 etrafında büyük bir heyecan vardı.
Yakın zamanda da yeni mimarilere yatırım yapmaya devam ettiler ve en son Together ile ortaklaşa Monarch Mixer mimarisini geliştirdiler
GPU alternatifleri geliştirmek
- GPU, 2012’deki AlexNet’ten bu yana derin öğrenme için baskın donanım oldu
- AlexNet’in popüler olmasının nedenlerinden biri, sinir ağlarını eğitmek için GPU’yu başarıyla kullanan ilk makale olmasıydı
GPU’dan önce AlexNet ölçeğinde bir modeli eğitmek için binlerce CPU kullanmak gerekiyordu
Binlerce CPU’ya kıyasla 2 GPU, doktora öğrencileri ve araştırmacılar için çok daha erişilebilirdi ve derin öğrenme araştırmalarında patlama yarattı
- Son 10 yılda büyük şirketler, startup’lar ve birçok başka şirket yapay zeka için yeni donanım geliştirmeye çalıştı
- En çok öne çıkanlar Google’ın TPU’su, Graphcore’un IPU’su ve Cerebras
- SambaNova yeni yapay zeka çipleri geliştirmek için 1 milyar dolardan fazla fon aldı, ancak üretken yapay zeka platformuna pivot etti
- Bir dönem kuantum hesaplamaya büyük beklentiler vardı ve öne çıkan oyuncular şunlardı
- IBM’in QPU’su
- Google’ın kuantum bilgisayarı bu yılın başında Nature’da kuantum hata azaltımı konusunda önemli bir kilometre taşı yayımladı. Kuantum sanal makinesine Google Colab üzerinden erişilebiliyor
- MIT Kuantum Mühendisliği Merkezi, Max Planck Kuantum Optiği Enstitüsü, Chicago Quantum Exchange, Oak Ridge Ulusal Laboratuvarı vb.
- Bir başka çok ilginç yön de photonic çipler
- Günümüz çipleri veriyi taşımak için elektriği kullanıyor; bu da yüksek güç tüketimi ve gecikme yaratıyor
- Photonic çipler veriyi taşımak için fotonları kullanıyor ve daha hızlı, daha verimli hesaplama için ışık hızından yararlanıyor
- Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) ve Luminous Computing ($115M) dahil bu alandaki çeşitli startup’lar yüz milyonlarca dolar fon aldı
Ajanları kullanılabilir hale getirmek
- Ajanlar, internette arama, e-posta gönderme, rezervasyon yapma gibi işleri gerçekleştirebilen LLM’lerdir
- Bu yazıdaki diğer araştırma yönleriyle karşılaştırıldığında bunun en erken aşamadaki alan olduğu söylenebilir
- Yenilik ve devasa potansiyeli nedeniyle ajanlara yönelik büyük bir heyecan var
- Auto-GPT artık GitHub yıldız sayısına göre en popüler 25. repo
- GPT-Engineering de bir başka popüler depo
- Bu heyecana rağmen, LLM’lerin eylemde bulunma yetkisi devredilecek kadar güvenilir ve yeterince performanslı olup olmadığı konusunda hâlâ şüpheler var
- Bu alandaki en dikkat çekici startup Adept
- Transformer’ın iki ortak yazarı ve eski bir OpenAI VP tarafından kuruldu; şimdiye kadar neredeyse 500 milyon dolar fon topladı
İnsan tercihleriyle öğrenmeyi iyileştirmek
- RLHF, Reinforcement Learning from Human Preference, etkileyici ama biraz da hacky
İnsanların LLM’leri eğitmenin daha iyi bir yolunu bulması şaşırtıcı olmaz. RLHF ile ilgili hâlâ çözülmemiş sorular var
- İnsan tercihleri matematiksel olarak nasıl ifade edilir?
- Şu anda insan tercihleri karşılaştırma yoluyla belirleniyor
- İnsan etiketleyiciler yanıt A’nın yanıt B’den daha iyi olup olmadığını belirliyor, ancak A’nın B’den ne kadar daha iyi olduğunu hesaba katmıyor
- Peki insan zevkleri ne olacak?
- Anthropic model yanıt kalitesini üç eksende ölçtü: faydalılık, dürüstlük ve zararsızlık
- DeepMind çoğu insanı memnun edecek yanıtlar üretmeye çalışıyor
- Tavır alabilen bir yapay zeka mı istiyoruz, yoksa potansiyel olarak tartışmalı konulardan kaçınan sıradan bir yapay zeka mı?
- Kültür, din, siyasi eğilim gibi farklılıklar hesaba katıldığında kimin tercihleri “insani” tercih sayılacak?
- Tüm potansiyel kullanıcıları yeterince temsil eden eğitim verisini elde etmekte birçok zorluk var
Örneğin OpenAI’nin InstructGPT verisinde 65 yaş üstü etiketleyici yoktu. Etiketleyiciler çoğunlukla Filipinli ve Bangladeşliydi
- Topluluk güdümlü çabaların niyeti iyi olsa da önyargılı verilere yol açabilir
Örneğin OpenAssistant veri setinde 222 katılımcının 201’i (%90,5) erkek olduğunu beyan etti
Sohbet arayüzlerinin verimliliğini artırmak
- ChatGPT’den sonra sohbetin farklı görevler için uygun bir arayüz olup olmadığına dair pek çok tartışma yaşandı
- Bu yeni bir tartışma değil; Asya’da sohbet yaklaşık 10 yıldır süper uygulamaların arayüzü olarak kullanılıyor
- Kişisel olarak şu nedenlerle sohbet arayüzlerini seviyorum
- Sohbet, daha önce bilgisayar veya internete maruz kalmamış kişiler dahil, insanların kullanmayı hızla öğrenebildiği bir arayüzdür
- Sohbet arayüzleri erişilebilirdir. Elleriniz meşgulse metin yerine ses kullanabilirsiniz
- Sohbet inanılmaz derecede güçlü bir arayüzdür. Her türlü isteği yapabilirsiniz ve yanıt iyi olmasa bile yine de bir yanıt sağlar
- Ancak sohbet arayüzlerinde hâlâ geliştirilebilecek alanlar olduğunu düşünüyorum
- Tur başına birden fazla mesaj
- Multimodal girdi
- Üretken yapay zekanın iş akışlarına entegrasyonu
- Mesaj düzenleme ve silme
İngilizce dışındaki diller için LLM inşa etmek
- Şu anda English-first LLM’ler performans, gecikme ve hız açısından diğer dillerde iyi çalışmıyor
- Bu yazının bazı ilk okurları bu yönün dahil edilmemesi gerektiğini düşündüklerini söyledi
- Bunun araştırmadan çok lojistik meselesi olduğuna inanıyorlar. Yöntemi zaten biliyoruz; sadece para ve emek yatırmak yeterli diyorlar
Ama bu doğru değil. Çoğu dil düşük kaynaklı. İngilizce veya Çinceyle karşılaştırıldığında yüksek kaliteli veri çok daha az ve büyük modelleri eğitmek farklı teknikler gerektirebilir
- Daha karamsar olanlar gelecekte birçok dilin yok olacağını ve internetin İngilizce ile Mandarin’den oluşan iki ayrı dünyaya dönüşeceğini de söylüyor. Esperando’yu hatırlayan var mı?
- Makine çevirisi ve chatbot’lar gibi yapay zeka araçlarının dil öğrenimi üzerindeki etkisi hâlâ belirsiz
Bunlar insanların yeni bir dili daha hızlı öğrenmesine yardımcı mı olacak, yoksa yeni bir dil öğrenme ihtiyacını tamamen ortadan mı kaldıracak?
1 yorum
Bu yazının yazarı, O'Reilly'den çıkan Designing Machine Learning Systems adlı kitabın da yazarıymış.
Çeviri baskısı Hanbit Yayıncılık tarafından yayımlandı.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220