[Çeviri] Küçük Dil Modelleri (SLM) Üzerine Kapsamlı Bir Araştırma
(discuss.pytorch.kr)Küçük Dil Modelleri (SLM) Üzerine Kapsamlı Bir Araştırma (Small Language Models: Survey, Measurements, and Insights)
Makaleye Giriş
Son dönemde dil modellerindeki gelişmeler iki eğilime ayrılıyor. Birincisi, yüz milyonlarca GPU kullanılarak büyük veri merkezlerinde çalıştırılan büyük dil modelleri (LLM, Large Language Model). Bu modeller ileri düzey dil görevlerini yerine getiriyor ve yapay zekayı kullanarak bilim gibi alanlardaki karmaşık problemleri çözmeyi hedefliyor. Ancak bu tür LLM'ler yüksek maliyet ve devasa hesaplama kaynakları gerektiriyor; bu yüzden kişisel cihazlara dağıtılmaları pratik değil.
Buna karşılık küçük dil modelleri (SLM, Small Language Model), akıllı telefonlar, tabletler ve giyilebilir cihazlar gibi kaynak kısıtlı cihazlara dağıtılabilecek şekilde tasarlanıyor. Küçük dil modellerinin amacı, maliyet açısından verimli ve pratik yapay zeka sunarak AI'ı herkes için kolay erişilebilir hale getirmek. Bu makale, SLM'lere dair ilk kapsamlı inceleme olarak, son birkaç yılda yayımlanan küçük dil modellerini teknik yenilik, performans ve cihaz üzerindeki çalıştırma maliyeti açısından analiz ediyor.
Küçük Dil Modellerinin (SLM) yapısı, veri kümeleri ve eğitimi
Küçük Dil Modellerine (SLM, Small Language Model) genel bakış
SLM'ler, çok büyük parametrelere sahip dil modellerine kıyasla daha küçük olsa da sağduyu yürütme, matematiksel problem çözme ve bağlam içi öğrenme gibi çeşitli görevlerde performanslarını kanıtladı. Bu da doğrudan cihaz üzerinde çalışabilen yapay zekanın potansiyelini gösteriyor.
Bu araştırmada, 2023 sonundan itibaren hızla artan SLM'ler incelendi ve aşağıdaki ölçütlere göre 59 SLM seçilerek performans ve maliyet gibi özellikleri değerlendirildi:
-
SLM model boyutu 100M ile 5B arasındaki modeller olarak tanımlandı ve yalnızca değerlendirmeye uygun, ağırlıkları açık modeller ele alındı.
-
Yüksek performans ve gerçek dağıtım için yalnızca decoder-only Transformer mimarisine sahip modeller kapsama alındı. Yani RWKV ve Mamba gibi mimarilere sahip modeller dahil edilmedi.
-
Bu inceleme, ön eğitim sürecinde edinilen temel bilgiye odaklandığı için yalnızca instruct fine-tuned sürümü sunulan modeller (Microsoft Phi ve StabilityAI StableLM) hariç tutuldu; sadece temel modeller (Base Model) ele alındı.
-
Ayrıca önceden eğitilmiş modellerin fine-tuning ile türetilmiş sürümleri de kapsam dışında bırakıldı.
Bu ölçütlere göre seçilen model listesi aşağıdaki gibidir:
SLM'lerin model mimarisi (Model Architecture)
SLM'lerin model yapısı Transformer tabanlı olup çeşitli varyasyonlara sahiptir. Transformer mimarisinin çekirdeğini multi-head attention (MHA) ve feed-forward neural network (FFN) oluşturur. MHA, giriş verisinin farklı bölümlerine odaklanmayı mümkün kılarak paralel işlem verimliliğini artırır. Son dönem modellerde attention mekanizması, FFN ve aktivasyon fonksiyonları tarafında şu farklı denemeler öne çıkıyor:
-
Attention mekanizmaları (Attention Mechanisms):
- Multi-Head Attention (MHA): Giriş verisinin birden çok bölümüne aynı anda dikkat eden ve Transformer'ın temelini oluşturan mekanizma.
- Group-Query Attention (GQA): Attention hesaplama karmaşıklığını azaltmak için birden çok query değerini gruplayan yöntem.
- Multi-Query Attention (MQA): Her query için farklı key ve value projeksiyonlarına izin vererek hesaplama karmaşıklığını düşüren yöntem.
-
Feed-forward sinir ağı (Feed-Forward Network, FFN):
- Standart FFN (Standard FFN): İki katmandan oluşan basit ağ yapısı.
- Gated FFN: Ek bir gate katmanı içeren ve performansı artıran yapı.
-
Feed-forward sinir ağının boyut genişleme oranı (The intermediate ratio of the FFN): Girdi boyutuna kıyasla gizli katmanın (hidden layer) boyutunu oran olarak gösteren değerdir ve genellikle boyut genişleme oranını ifade eder. Bu oran büyüdükçe FFN daha karmaşık örüntüler öğrenebilir, ancak hesaplama maliyeti de artar. Standart FFN'de genellikle yaklaşık 4, gated FFN'de ise 2 ile 8 arasında oranlar görülür.
-
Aktivasyon fonksiyonları (Activation Functions): SLM'lerde ağırlıklı olarak ReLU (Rectified Linear Unit), GELU (Gaussian Error Linear Unit), $GELU_{tanh}$ ve SiLU (Sigmoid Linear Unit) kullanılır. 2022'de ReLU, 2023'te GELU ve türevleri, 2024'e gelindiğinde ise SiLU en yaygın aktivasyon fonksiyonu haline gelmiştir.
-
Katman normalizasyonu (Layer Normalization): Katman normalizasyonunda LayerNorm ve RMSNorm kullanılır. RMSNorm giderek daha yaygın hale geliyor ve bu da model eğitiminin kararlılığını artırmaya katkı sağlıyor.
-
Sözlük boyutu (Vocabulary Size): Sözlük boyutu, SLM'nin tanıyabildiği benzersiz token sayısını ifade eder. Son dönem SLM'ler çoğunlukla 50 binden büyük sözlük boyutlarına sahip ve sözlük boyutu büyüdükçe performansın iyileştiği görüldü.
Daha önce seçilen 59 model için, yukarıdaki 6 varyasyonun dağılımının zaman içinde nasıl değiştiği aşağıda özetlenmiştir:
Bu model yapılarına bakıldığında model mimarisindeki yenilikler (Model Architecture Innovations) de incelenebildi:
-
Parametre paylaşımı (Parameter Sharing)
- Parametre paylaşımı, büyük dil modellerinde (LLM) ağın farklı katmanlarında veya bileşenlerinde aynı ağırlık kümesinin yeniden kullanılmasını sağlayan bir tekniktir. Bu yaklaşım, performansı korurken modeldeki parametre sayısını önemli ölçüde azaltabilir ve daha verimli eğitim ile çıkarıma yol açabilir.
- Embedding-lm_head paylaşımı (Embedding-lm_head sharing): Embedding ağırlıklarının son
lm_headkatmanıyla paylaşılması en yaygın ağırlık paylaşım tekniğidir. Bu, sözcük embedding katmanının paylaşımıdır ve RoPE (Rotary Position Encoding) ile hiçbir ilgisi yoktur. Gemma ve Qwen gibi modellerin tamamı bu paylaşım tekniğini kullandı. - Katman bazlı Attention/FFN paylaşımı (Layer-wise Attention/FFN sharing): Bu yöntem, aynı ağırlık kümesini modelin birden fazla katmanında yeniden kullanır. Tüm Transformer katmanlarının aynı parametreleri paylaştığı SLM/LLM'lerde buna sık rastlanır. Örneğin MobiLLaMA, tüm Transformer bloklarının FFN ağırlıklarını paylaşırken, MobileLLM bitişik iki Transformer bloğunun Attention ve FFN ağırlıklarını paylaşır.
-
Katman bazlı parametre ölçekleme (Layer-wise Parameter Scaling)
- Bu teknik OpenELM'de önerildi ve kullanıldı. Mevcut SLM'ler modelin her Transformer katmanı için aynı yapılandırmayı kullandığından, katmanlar arasında parametreler eşit biçimde dağıtılır. Bu modellerden farklı olarak OpenELM'in her Transformer katmanı farklı yapılandırmalara sahiptir (örneğin başlık sayısı ve FFN boyutu); böylece modelin her katmanında farklı sayıda parametre kullanılabilir. Bu sayede OpenELM, mevcut parametre bütçesini (available parameter budget) daha iyi kullanarak daha yüksek doğruluk elde edebilir.
-
Doğrusal olmayanlık telafisi (Nonlinearity Compensation)
- PanGu-$\pi$, güncel dil modellerini analiz ederek feature collapse problem'ini çözmeyi amaçlar. Feature collapse problem, LLM gibi yüksek boyutlu temsil öğreniminde ortaya çıkan; modelin farklı girdiler için aynı veya çok benzer feature'lar öğrenmesi durumunu ifade eder. PanGu-$\pi$, bu sorunu çözmek için GELU veya ReLU gibi aktivasyon fonksiyonlarındaki doğrusal olmayanlığı telafi eder ve katman çıktılarının ölçeğini ayarlayarak çıktı değişim aralığını sabit tutar.
Temel içgörü: SLM model mimarisinde iki ana gözlem bulunmaktadır:
- Ağustos 2024 itibarıyla yaygın SLM mimarileri GQA (Group-Query Attention), SiLU aktivasyon fonksiyonu kullanan gated FFN, 2~8 arası FFN genişleme oranı (Intermediate Ratio of FFN), RMSNorm ve 50 binden büyük sözlük boyutu (Vocabulary Size) kullanmaktadır. Ancak bu ayarlar çoğunlukla ampirik olarak belirlenmiştir ve bunlara ilişkin katı, açık bir doğrulama yapılmamıştır.
- SLM'lerde transformer yapısına yönelik yenilikler sınırlıdır. Embedding-lm_head paylaşım tekniği dışında, diğer tekniklerin klasik transformer (Vanilla Transformer) yapısından daha üstün olduğuna dair güçlü bir kanıt gözlemlenmemiştir. Ayrıca bunlar çeşitli araştırma grupları veya şirketler tarafından genel olarak benimsenmemiş ya da kapsamlı biçimde incelenmemiştir; bu nedenle gelecekte doğrulanmaları gerekmektedir.
Eğitim veri seti (Training Dataset)
SLM'lerin performansı, eğitimde kullanılan veri setine büyük ölçüde bağlıdır. Bu araştırmada SLM modellerinin kullandığı 12 açık veri seti incelenmiştir:
| İsim | Token sayısı | Ana alan | Açıklama ve kullanım amacı |
|---|---|---|---|
| The Pile | 825B | bilim, akademik makaleler, web metni, hukuk belgeleri | Çeşitli küçük veri setlerini birleştiren bu veri seti, birçok alandan metin içererek modelin genel anlama yeteneğini geliştirmek için kullanılır. |
| FineWeb-Edu | 1.3T/5.4T | eğitim metinleri, ders kitapları, eğitim materyalleri | FineWeb'den filtrelenmiş eğitim odaklı metinlerden oluşan büyük ölçekli bir veri setidir; öğrenme ve eğitim alanıyla ilgili görevlerde model performansını artırmak amacıyla kullanılır. |
| StarCoder | 35B | Python kodu | Python programlama dilinde yazılmış kodları içeren bu veri seti, kod üretimi ve programlama ile ilgili görevlerde modeli eğitmek için kullanılır. |
| Cosmopedia | 25B | sentetik metin, eğitim materyalleri | Sentetik metinlerden oluşan bu veri seti; ders kitapları, blog yazıları, hikâyeler ve WikiHow makaleleri içererek modelin farklı yazım stillerini ve bağlamları öğrenmesine yardımcı olur. |
| RefinedWeb | 5T | web belgeleri, haber makaleleri, bloglar, teknik dokümanlar | CommonCrawl'dan çıkarılan yüksek kaliteli web verilerinin sıkı biçimde filtrelenmiş hâlinden oluşan bu veri seti, doğal dil işleme görevlerinde geniş alan bilgisi kazandırmak için kullanılır. |
| RedPajama | 1.2T | web verisi, haberler, sosyal medya | CommonCrawl anlık görüntülerinden çıkarılan büyük hacimli metin verileri içerir ve web metni tabanlı model eğitiminde kullanılır. |
| Dolma | - | tekrarı kaldırılmış İngilizce metin | MinHash algoritması kullanılarak yinelenen içeriklerin kaldırıldığı bir İngilizce derlemdir; temizlenmiş veriyle model performansını optimize etmek için kullanılır. |
| WuDaoCorpora | 4T | Çince metin | Çince veriye dayalı büyük ölçekli bir derlemdir; 3T token eğitim verisi ve 1.08T Çince karakter içerir ve Çince dil modellerinin eğitiminde kullanılır. |
| RoBERTa CCNewsV2 | - | haber makaleleri | CommonCrawl haber veri setinin güncellenmiş bir sürümüdür ve güncel haber verilerine dayalı doğal dil işleme görevlerinde kullanılır. |
| PushShift Reddit | - | sosyal medya verisi (Reddit gönderileri) | Reddit verilerini toplayan, analiz eden ve depolayan bir platformdan elde edilen bu veri, sosyal medya etkileşimleri ve diyalog odaklı dil modeli eğitiminde kullanılır. |
| DCLM-baseline | 1.35T | web metni | Common Crawl'dan çıkarılmış standartlaştırılmış bir derlemdir; önceden eğitilmiş dil modelleri için veri seti olarak kullanılır ve çeşitli değerlendirme görevlerine uygundur. |
| CulturaX | 6.3T | çok dilli metin | 167 dilden oluşan büyük bir çok dilli metin veri setidir ve çok dilli model eğitimi için büyük ölçekli metin kaynağı olarak kullanılır. |
Araştırma kapsamında incelenen SLM'lerin 2022'den 2024'e kadar ön eğitim veri seti kullanım eğilimleri şu şekildedir:
2022 ve 2023 yıllarında en yaygın kullanılan ön eğitim veri seti The Pile idi, ancak son dönemde daha fazla veri seti önerildiği için seçeneklerin çeşitlendiği görülmektedir. 2024 itibarıyla SLM ön eğitiminde The Pile veri seti artık kullanılmamakta, bunun yerine RefinedWeb ve RedPajama gibi veri setleri giderek daha yaygın kullanılmaktadır. Bu durum, daha yüksek kaliteli ön eğitim veri setleri oluşturmak için araştırma ve mühendislik çalışmalarının aktif biçimde sürdüğünü göstermektedir.
Ardından, kullanılan ön eğitim veri setine göre SLM performansı incelenmiştir. Son 3 yılda yayımlanan SLM'ler parametre boyutuna göre 4 gruba (<1B / 1B-1.4B / 1.5-2B / 2.5B-3B) ayrılmış ve her grup içinde ortalama doğruluk (sağduyu muhakemesi/anlama ile problem çözme olmak üzere iki doğruluk türünün ortalaması) temel alınarak sıralanmıştır; sonuçlar aşağıdaki gibidir:
Bu sonuçlar, yakın zamanda yayımlanan iki veri seti olan DCLM(DataComp-LM) ve FineWeb-Edu'nun diğer veri setlerine kıyasla daha üstün performans gösterdiğini ortaya koymaktadır. Bu iki veri setinin ortak özelliği, model tabanlı veri filtreleme yaklaşımını benimsemeleridir.
Ayrıca, kodlama yeteneği cihaza dağıtılan SLM'lerin temel görevlerinden biri olmamasına rağmen, StarCoder gibi ön eğitim veri setlerine kod verisinin sıkça dahil edildiği görülmektedir. Bunun nedeni, kod verisinin modelin muhakeme yeteneğini geliştirmeye yardımcı olabileceğine dair yaygın kanı olabilir.
Sonraki bölümde ön eğitimde kullanılan token sayısı ile model boyutu ve ön eğitimde kullanılan token sayısı ile ortalama doğruluk ilişkileri incelenmiştir.
Öncelikle, model boyutu ile eğitimde kullanılan veri miktarı (token sayısı) arasındaki ilişkiyi inceleyen Chinchilla Law, modelin parametre boyutu ile eğitim token sayısı arasındaki optimal oranın yaklaşık 20 olması gerektiğini öne sürmektedir. Örneğin 1B bir model için 20B token ölçeğinde bir eğitim veri seti gerektiği belirtilmektedir.
2022'den 2024'e kadar yayımlanan SLM'lerin boyutları ile eğitim token sayılarının istatistiksel analizi (aşağıdaki şeklin sol tarafı, (a)) genel olarak model büyüdükçe eğitimde kullanılan token sayısının arttığını ve daha yeni modellerin daha fazla eğitim token'ı kullanma eğiliminde olduğunu göstermektedir. Dikkat çekici nokta, SLM'lerin model boyutundan bağımsız olarak Chinchilla Law'un önerdiğinden çok daha fazla token ile, genellikle 1.5T'nin üzerinde, eğitiliyor olmasıdır.
SLM'lerin ön eğitimde kullandığı token sayısı ile ortalama doğruluk arasındaki ilişkiyi inceleyen analizde (aşağıdaki şeklin sağ tarafı (b)), genel olarak bu iki gösterge arasında pozitif korelasyon bulunduğu görülmektedir; bu durum özellikle eğitim token sayısı 700B'nin altındayken belirgindir. Ancak eğitim token sayısı 1T'yi aştığında, eğitim verisinin kalitesi token miktarından daha önemli hâle geldiği için bu korelasyon zayıflamaktadır.
Temel içgörü: SLM eğitim veri setlerinde iki ana gözlem vardır:
- Eğitim verisinin kalitesi, SLM performansı için son derece kritiktir ve son dönem SLM araştırmalarında giderek daha fazla ilgi görmektedir. Genel olarak veri kalitesinin SLM üzerindeki etkisi, çoğu durumda veri miktarı ve model mimarisinden daha büyüktür. Veri seti araştırmalarındaki dikkat çekici bir eğilim, model tabanlı filtreleme kullanılmasıdır; FineWeb-Edu(1.3T/5.4T) ve DCLM-baseline(4T) bunun başlıca örnekleridir. Bu iki veri setiyle eğitilen SLM'ler, kapalı veri setleriyle eğitilen SLM'lere kıyasla rekabetçi performans göstermiştir.
- Son dönemde SLM'ler, model boyutunu gözetmeksizin büyük ölçekli eğitim token'larıyla (genellikle 1.5T ve üzeri) eğitilmektedir. Bazı durumlarda ise daha küçük miktarda veri kullanılır. (Örn. Qwen2-0.5B 12T token kullanırken, Qwen2-1.5B yalnızca 7T token kullanır.) Bu, Chinchilla yasasına kıyasla oldukça fazla "aşırı eğitim (over-training)" yapıldığı anlamına gelir ve bu tür aşırı eğitim, daha fazla eğitim süresi harcayarak daha iyi performanslı SLM'leri (powerful SLM) dağıtıma almak için kullanılmaktadır.
Eğitim algoritması (Training Algorithm)
SLM eğitimi için çeşitli algoritmalar bulunmaktadır. Başlıca eğitim algoritmaları arasında Maximal Update Parameterization(μP), bilgi damıtma (Knowledge Distillation) ve iki aşamalı ön eğitim (Two Stage Pre-training) stratejileri yer alır.
-
Maximal Update Parameterization(μP): Model başlatmasını (initialization), katman bazlı öğrenme oranını (layer-wise learning rate), aktivasyon büyüklüğünü (activation magnitude) vb. kontrol ederek, model katmanlarının genişliğinden (model's layer width) bağımsız olarak kararlı eğitimi garanti eder. Bu yöntem yalnızca eğitim kararlılığını artırmakla kalmaz, aynı zamanda eğitim hiperparametrelerinin küçük ölçekli modellerden büyük ölçekli modellere aktarılabilirliğini (transferability) iyileştirerek öğrenme oranı (learning rate) gibi ayarların aynı şekilde kullanılabilmesini sağlar. Cerebras-GPT modeli bu tekniği kullanarak eğitilmektedir.
-
Bilgi damıtma (Knowledge Distillation): Büyük dil modellerinde (LLM) yaygın olarak kullanılan bir kavramdır; büyük ve karmaşık bir öğretmen modelden değerli bilgilerin çıkarılıp daha küçük ve verimli bir öğrenci modele öğretilmesini ifade eder. Bu bilgi damıtma (KD) tekniğinin özü, iki modelin çıktıları arasındaki farkı en aza indirerek öğrenci modelin öğretmen modelin davranışını ve tahminlerini yaklaşık olarak öğrenmesini sağlamaktır. LaMini-GPT ve Gemma-2 bu tekniği kullanmıştır.
-
İki aşamalı ön eğitim (Two Stage Pre-training): Adından da anlaşılacağı üzere, modelin birbirinden farklı iki aşamadan geçerek eğitildiği bir eğitim stratejisidir. İlk olarak ön eğitim aşamasında (Pretraining Phase), büyük ölçekli düşük kaliteli veriler kullanılarak eğitim yapılır. Bu süreç daha fazla hesaplama kaynağı gerektirir. Ardından iyileştirme aşamasında (Annealing Phase), yüksek kaliteli ve belirli görevlere odaklı SFT(Supervised Fine-Tuning) verileri ön eğitim verisiyle karıştırılarak kullanılır. MiniCPM bu tekniği kullanmaktadır.
SLM'lerin yetenekleri (Capabilities)
SLM değerlendirme veri setleri ve metrikleri (Evaluation Datasets and Metrics)
Bu çalışma, SLM'lerin yeteneklerini değerlendirmek için kullanılan 12 veri setini sağduyu muhakemesi (Commonsense Reasoning), problem çözme (Problem-Solving) ve matematiksel muhakeme (Mathematics) olmak üzere 3 kategori altında düzenlemiştir:
| İsim | Tür | Açıklama ve kullanım amacı |
|---|---|---|
| HellaSwag | Sağduyu muhakemesi | Anlatı anlama becerisini test eder ve olası cümle tamamlamalarını değerlendirir. |
| TruthfulQA | Sağduyu muhakemesi | Modelin yanlış bilgi vermemesini değerlendiren bir veri setidir. |
| Winogrande | Sağduyu muhakemesi | Zamir belirsizliğini çözme üzerinden sağduyu muhakemesi yeteneğini değerlendiren bir veri setidir. |
| CommonsenseQA | Sağduyu muhakemesi | Günlük yaşam bilgisi gerektiren çoktan seçmeli sorulardan oluşan sağduyu muhakemesi problemleri sunar. |
| PIQA | Sağduyu muhakemesi | Fiziksel sağduyu muhakemesini ve nesne etkileşimlerini değerlendiren bir veri setidir. |
| OpenBookQA | Sağduyu muhakemesi | Bilimsel bilgi ile sağduyuyu birleştirerek çözülmesi gereken açık uçlu bilim sorularını içerir. |
| BoolQ | Sağduyu muhakemesi | Evet/hayır soruları üzerinden sağduyu ve olgusal muhakeme yeteneğini değerlendirir. |
| ARC Easy | Problem çözme | Genel bilgi ve akıl yürütmeyi test eden basit bilim sorularını içeren bir veri setidir. |
| ARC Challenge | Problem çözme | Bilgi entegrasyonu gerektiren karmaşık bilim sınavı soruları sunar. |
| MMLU | Problem çözme | Çeşitli akademik alanlarda problem çözme yeteneğini değerlendiren bir veri setidir. |
| GSM8K | Matematiksel muhakeme | İlkokul düzeyinde matematiksel muhakeme yeteneğini değerlendiren bir veri setidir. |
| Minerva Math | Matematiksel muhakeme | Çeşitli konularda ileri düzey matematiksel muhakeme yeteneğini değerlendirir. |
Değerlendirme sırasında temel metrik olarak doğruluk (Accuracy) kullanılır; bu metrik, tüm değerlendirme veri setlerindeki doğru tahmin sayısının toplam örnek sayısına oranı olarak hesaplanır. Sağduyu muhakemesi, problem çözme ve matematik görevlerinde, doğru cevabın seçilip seçilmediği ya da ne kadar doğru bir çözüm üretildiği değerlendirilir.
SLM'lerin genel performansı (Overall Capabilities)
Sağduyu muhakemesi, problem çözme ve matematik olmak üzere üç görevde seçilmiş SLM'ler üzerinde deneyler yürütülmüş ve ilerleme aşağıdaki şekilde analiz edilmiştir. Genel olarak kayda değer performans artışları görülmüştür; her görev özelinde sırasıyla %10.4, %13.5 ve %13.5 iyileşme sağlanmıştır. Buna karşılık açık kaynaklı büyük dil modeli olan LLaMA modeli aynı dönemde ortalama yalnızca %7.5 gelişme göstermiştir:
Özellikle kapalı veri setleriyle eğitilen Microsoft Phi ailesi, 7B ölçeğindeki güncel LLaMA 3.1 ile benzer düzeyde performans elde ederek (sağduyu muhakemesinde %67.6, problem çözmede %72.4) diğer tüm modellerden daha iyi sonuç vermiştir. Matematik alanında hâlâ bir miktar fark bulunsa da, genel muhakeme alanında SLM ile LLM arasındaki fark hızla kapanmaktadır. Qwen2 gibi istisnalar olsa da genel eğilim, model boyutu büyüdükçe performansın artması yönündedir.
Bazı öncü SLM'ler kapalı veri setleri kullanılarak eğitilse de, sağduyu muhakemesi görevlerinde açık kaynaklı modeller ile kapalı modeller arasındaki fark giderek azalmaktadır. Örneğin SmolLM ve DCLM-1B, DCLM ve FineWeb-Edu gibi yüksek kaliteli veri setleri sayesinde sağduyu muhakemesinde son derece güçlü performans sergilemektedir (sırasıyla %64.2 ve %63.8). Ancak karmaşık muhakeme veya mantık gerektiren görevlerde, özellikle matematikte, yüksek kaliteli veri setlerinin eksikliği nedeniyle hâlâ önemli bir fark bulunmaktadır.
> #### Temel içgörüler: SLM’lerin gelişiminde 4 ana gözlem bulunmaktadır:
> - 2022’den 2024’e kadar SLM’ler, çeşitli dil görevlerinde kayda değer performans artışları gösterdi. Genel olarak önemli performans iyileşmeleri sergiliyor ve LLaMA-7B’nin (1/2/3/3.1 sürümlerinin) gelişimini geride bırakıyorlar. Bu sonuçlar, cihaz üzerinde çeşitli alt görevlerin çözülebileceğine dair beklenti yaratıyor.
> - Phi model ailesi, çoğu görevde istikrarlı biçimde en ileri düzey performans (state-of-the-art) gösteriyor. Phi-3-mini, Eylül 2024 itibarıyla Llama-3.1-8B ile boy ölçüşen bir doğruluk düzeyine ulaştı. Bu performansın Microsoft’un titiz veri mühendisliğinden kaynaklandığı tahmin edilse de, belirli veri kümelerine yönelik instruction tuning ve olası aşırı uyumdan da kaynaklanıyor olabilir.
> - Genel olarak model boyutu büyüdükçe performans da artıyor, ancak Qwen2-1.5B gibi istisnai durumlar da var. Bu istisnalar, daha küçük modellerin belirli görevlerde üstün performans gösterebileceğini ortaya koyuyor.
> - Sağduyu muhakemesi alanında, açık kaynak veri kümeleriyle eğitilmiş SLM’lerin performansı özel SLM’lerle aradaki farkı kapatıyor. Ancak karmaşık akıl yürütme veya mantık gerektiren görevlerde hâlâ belirgin bir fark bulunuyor; bu nedenle matematiksel muhakemeye odaklanan veri kümelerine ihtiyaç var.
Bağlam içi öğrenme yetenekleri (In-Context Learning Capabilities)
Bağlam içi öğrenme (In-Context Learning, ICL), SLM’lerin önemli bir yeteneğidir ve verilen giriş bağlamına dayanarak yeni görevleri yerine getirme becerisini ifade eder. Sağduyu muhakemesi ve problem çözmeyi içeren 8 farklı görevde, çeşitli modeller ve bu modellerin 2B boyutundaki varyantları kullanılarak bağlam içi öğrenme (ICL) yetenekleri üzerine deneyler yapıldı. Genel olarak SLM’ler tüm görevlerde anlamlı fayda sağlayabildi. Ancak HellaSwag ve PIQA gibi basit veri kümelerinde, ICL örnek sayısından (ICL shots) bağımsız olarak benzer performans görüldü. Bunun dışında ortalama olarak 5 örnekli (5-shot) bağlam içi öğrenme, tüm görevlerde zero-shot performansını %2,1 artırıyor.
Örneğin Gemma2 modeli, doğrulukta %4,8 artışla en büyük iyileşmeyi gösterdi. Buna karşılık LaMini modelinde %2’nin üzerinde performans düşüşü gözlendi. Bu durum için, LaMini’nin eğitim veri kümesine aşırı uyum sağlamış olabileceği ve ek örnekler verildiğinde bunun gürültü oluşturabileceği hipotezi ortaya atıldı.
Genel olarak, SLM’lerin model boyutu büyüdükçe bağlam içi öğrenme performanslarının (ICL capability) de arttığı doğrulandı.
> #### Temel içgörüler: SLM’lerin bağlam içi öğrenme yeteneklerinde 2 ana gözlem bulunmaktadır:
> - Genel olarak çoğu SLM belirli bir düzeyde bağlam içi öğrenme yeteneği içerir. Ancak bu yetenek, görevin türüne göre farklılık gösterir: çoğu SLM Arc Challenge görevinde belirgin gelişme gösterirken, HellaSwag veya PIQA gibi görevlerde iyileşme sınırlıdır.
> - SLM’nin model boyutu büyüdükçe, daha küçük modellere kıyasla bağlam içi öğrenme yeteneğinin daha güçlü olma eğilimi vardır. LaMini gibi bazı küçük ölçekli SLM’lerde ise bağlam içi öğrenme kullanıldığında performans düşüşü de görülebilir.
SLM’lerin çalışma maliyeti (Runtime Cost)
SLM’lerin çalışma maliyeti (Runtime Cost), modelin gerçek cihazlarda çalıştırılması sırasında ortaya çıkan gecikme süresi (latency) ve bellek kullanımı (memory footprint) gibi unsurları kapsar. Bu araştırma, SLM’lerin çalışma zamanı performansını değerlendiriyor ve farklı donanımlarda elde edilen deney sonuçlarını analiz ediyor. Ayrıca model mimarisinin (architecture) ve nicemlemenin (quantization) performans üzerindeki etkilerini açıklayarak, SLM’lerin gerçek zamanlı ortamlarda nasıl optimize edilebileceğini ele alıyor.
Çalışma maliyetini ölçerken aşağıdaki iki tür edge device kullanıldı. Bunlardan biri drone veya küçük robotlar gibi cihazlarda yaygın kullanılan Jetson Orin, diğeri ise günlük yaşamda insanların en çok kullandığı akıllı telefon olup, ayrıntılar şu şekildedir:
| Cihaz adı | Donanım türü | Özellikler (Specification) |
|---|---|---|
| Jetson Orin NX 16GB | GPU | 1024-core NVIDIA Ampere architecture GPU with 32 tensor cores, 16G DRAM |
| MEIZU 18Pro | CPU | Snapdragon 888, 8G RAM |
Ayrıca, her model için resmi parametre sayısını ölçme yöntemi farklı olduğundan, yazarlar llama.cpp’den elde edilen parametre değerlerini kullandı. Ölçümler, çıkarım sırasındaki prefill aşaması ve decode aşaması olarak ayrıldı; aksi özellikle belirtilmedikçe prompt uzunluğu 50, üretilen token uzunluğu da 50 olarak ayarlandı. Isınmaya bağlı performans düşüşünü (thermal throttling) önlemek için testler 10 saniyelik aralıklarla yapıldı; daha büyük modelleri ölçebilmek amacıyla da 4-bit quantization uygulandı.
- Gecikme süresi ölçümü: Model boyutuna göre ilk token’ın üretilme süresi (prefill) ve sonrasında her token’ın üretilme süresi (decode) ölçülür.
- Bellek kullanımı ölçümü: KV cache ve bellek tamponu kullanımı ölçülerek modelin ne kadar bellek kapladığı analiz edilir.
Çalışma maliyetine genel bakış (Overview)
Bu araştırmada ele alınan SLM’lerin çıkarım gecikmesi (Inference Latency) ve bellek kullanımı (Memory Footprint) özetle şu şekildedir:
-
Inference Latency (çıkarım gecikmesi): SLM’lerin çıkarım gecikmesi model boyutuna göre üç aralığa ayrılır: 0.1-1B, 1-2B, 2-3B. Bu aralıkların içinde her model benzer gecikme süreleri gösterir. Bununla birlikte model mimarisinin gecikme üzerindeki etkisi de oldukça büyüktür. Örneğin Qwen2-0.5B, aynı boyuttaki diğer modellere göre 1,46 kat daha uzun ilk token süresi gösterirken, Qwen1.5-0.5B ise kendisinden daha büyük bir model olan OpenELM-1.1B ile benzer performans gösterir.
- Prefill aşaması: Giriş prompt’unun işlendiği ve KV cache’in oluşturulduğu aşamadır; bu sırada birden fazla token paralel olarak işlenir.
- Decode aşaması: Üretilen her token’a dayanarak bir sonraki token’ın tahmin edildiği aşamadır ve daha fazla bellek kaynağı gerektirir.
-
Memory Footprint (bellek kullanımı): SLM’lerin bellek kullanımı model boyutuna ve bağlam uzunluğuna (context length) göre değişir. Özellikle Bloom-560M ve Gemma-2B gibi modeller, çok büyük sözlük boyutuna (256.000) sahip oldukları için daha fazla bellek kullanır. Buna karşılık OpenELM serisi, GQA (Group-Query Attention) kullanarak KV cache boyutunu küçültür ve böylece bellek kullanımından tasarruf sağlar.
> #### Temel içgörüler: SLM'lerin çalıştırma maliyeti konusunda 3 ana gözlem vardır:
> - Model boyutunun yanı sıra model mimarisi de gecikmeyi etkiler. Örneğin Qwen1.5-0.5B, Qwen2-0.5B'den %25,4 daha fazla parametreye sahip olmasına rağmen Jetson Orin üzerinde %31,9 daha hızlı çalışır. Bu da SLM geliştirirken modelin dağıtılacağı donanıma göre uyarlanması gerektiği anlamına gelir.
> - Model mimarisinin çıkarım hızına etkisi, decode aşamasına kıyasla prefill aşamasında daha belirgin ortaya çıkar. Bunun nedeni prefill aşamasının daha yüksek hesaplama yoğunluğuna sahip olması, decode aşamasının ise esas olarak bellek bağımlı (memory-bound) olmasıdır. Model mimarisindeki farklar, doğrudan hesaplama bağımlı (compute-bound) senaryolarda daha kolay etkili olabilir. Örneğin daha geniş ve daha sığ modeller daha yüksek hesaplama paralelliğine sahiptir.
> - Çalışma sırasındaki bellek kullanımı genellikle model boyutuyla doğrusal korelasyona sahiptir. Ancak sözlük boyutu (vocabulary size) daha büyük olan bazı modeller, benzer boyuttaki diğer modellere göre daha fazla bellek kullanır. Örneğin Bloom model ailesinin sözlük boyutu 250.880'dir ve bu değer çoğu modelden yaklaşık 5 ila 8 kat daha büyüktür.
Niceleme ve Donanımın Etkisi (Impact of Quantization and Hardware)
Öncelikle, beş farklı niceleme yöntemi (Q8_0, Q6_K, Q5_K, Q4_K_M, Q3_K) ile niceleme öncesi (FP16) Phi-1.5 modelinin gecikmesini ölçerek nicelemenin (Quantization) SLM'lerin çalıştırma maliyetine etkisini incelediler:
Mobil cihazlarda int8 işlemleri için destek yetersiz olabilir, ancak buna rağmen bellek erişim ek yükü etkili biçimde azaltılabilir. Bunun nedeni, düşük hassasiyet sayesinde verinin sıkıştırılması ve sonuç olarak önbellek kullanımının iyileşmesidir. Her yöntem n-bit niceleme uygular; Qn_K ve Qn_K_M, orta düzey parametreye sahip modelleri k-quant yöntemiyle n bit'e niceleyen yöntemlerdir, Qn_0 ise simetrik nicelemeyi ifade eder.
Prefill aşamasında nicelemenin etkisi prompt uzunluğu kısa olduğunda, niceleme gecikmeyi en az %25 azaltır. Ancak prompt uzunluğu arttıkça bu etki azalır ve prompt uzunluğu 50'ye yaklaştığında Q6_K ve Q3_K niceleme yöntemleri, niceleme uygulanmamış FP16 modeline benzer hatta daha uzun gecikme gösterebilir. Q8_0, Q4_K_M ve Q5_K yöntemleri istikrarlı performans iyileştirmesi sunar; özellikle Q4_K_M en iyi performansı göstererek ortalama %50 gecikme azalması sağlar.
Decode aşamasında nicelemenin etkisi daha tutarlı performans iyileştirmeleri sağlar; gecikme en fazla %75, en az %17 oranında azalır. Ayrıca, prefill aşamasında olduğu gibi en etkili yöntem Q4_K_M iken, Q6_K en verimsiz yöntemdir.
> #### Temel içgörüler: nicelemenin SLM'lerin çalıştırma maliyetine etkisi konusunda 2 ana gözlem vardır:
> - Nicelemenin faydası, prefill aşamasına kıyasla decode aşamasında daha büyüktür. Mobil cihazlarda niceleme esas olarak bellek erişim ek yükünü azaltır. Decode aşaması bellek bant genişliğinden daha fazla etkilendiği için, hesaplamadan daha çok etkilenen prefill aşamasına kıyasla nicelemeden daha fazla fayda sağlar.
> - Niceleme hassasiyeti (Quantization Precision) ne kadar düzenliyse (regular), performans da o kadar iyileşir. 3-bit niceleme 4-bit nicelemeye göre daha yüksek sıkıştırma oranı sunsa da, 4-bit niceleme hem prefill hem decode aşamalarında daha iyi performans verir. 3-bit nicelemenin daha düşük performans göstermesinin nedeni, düzensiz bit genişliği (irregular bit-width) nedeniyle donanım optimizasyon desteğinin yetersiz olması ve veri hizalama ile padding kaynaklı ek ek yük oluşmasıdır. Bu nedenle sıkıştırma oranı daha düşük olsa da 4-bit niceleme daha verimlidir; benzer şekilde 5-bit ve 6-bit niceleme de daha yüksek sıkıştırma oranı sunsa da 8-bit nicelemeye benzer veya daha yüksek çıkarım gecikmesi gösterir.
Ardından, Bloom-1B1 modeli Jetson Orin NX 16GB (GPU kullanımı) ve Meizu 18 Pro (CPU kullanımı) üzerinde test edilerek donanımın (Hardware) SLM'lerin çalıştırma maliyetine etkisi ölçüldü:
Prefill aşamasında prompt uzunluğu kısa olduğunda Jetson Orin, Meizu 18 Pro'dan 10 ila 20 kat daha hızlı performans gösterir. Ayrıca prompt uzunluğu arttıkça Jetson'ın performans üstünlüğü daha da belirginleşir. Prompt uzadıkça her iki cihazda da ilk token'ı üretmek için gereken süre doğrusal olarak artar, ancak Jetson daha uzun prompt'larda da istikrarlı performansını korur.
Decode aşamasında üretilen token sayısı arttıkça Meizu 18 Pro'nun token başına gecikmesi keskin biçimde artar. Özellikle ilk token ile 10. token arasında gecikme hızla yükselir, sonrasında ise sabitlenir. Meizu 18 Pro'daki bu ani gecikme artışı sıcaklık artışından kaynaklanır; çünkü DVFS (Dynamic Voltage and Frequency Scaling) veya termal kısma (Thermal Throttling), güç tüketimi ile frekansı ayarlarken hesaplama verimliliğini düşürür. Buna karşılık Jetson, daha verimli soğutma sistemi sayesinde 30 token üretilene kadar gecikmede daha az dalgalanma gösterir ve ancak sonrasında gecikme artışı gözlemlenir.
> #### Temel içgörüler: donanımın SLM'lerin çalıştırma maliyetine etkisi konusunda 2 ana gözlem vardır:
> - Decode aşaması token'ları sıralı olarak üretirken, prefill aşamasında prompt içindeki token'lar paralel işlenebilir; bu nedenle GPU'da çok daha hızlı performans görülür.
> - Uzun çıkarım işlerinde Jetson, akıllı telefona kıyasla daha iyi performans istikrarı gösterir. Bunun nedeni Jetson'ın nispeten daha basit donanım yapısı sayesinde ısı dağılımının (heat dissipation) daha kolay olmasıdır.
Gecikme ve Bellek Analizi (Latency and Memory Breakdown)
Gecikmeyi daha ayrıntılı incelemek için, Qwen1.5-0.5B ve Qwen2-0.5B modellerinde her katman (layer) ve işlemin (operation) toplam gecikmedeki payı analiz edildi:
Qwen1.5-0.5B ve Qwen2-0.5B modelleri benzer boyutta olsa da gecikme (latency) açısından farklılık gösterir; her model için yapılan ayrıntılı gecikme analiziyle katmanların (Embedding, Attention, FFN, LM_Head) zaman dağılımı ölçüldü.
Prefill aşamasında Qwen1.5 modelinde attention katmanı, FFN katmanına göre daha büyük bir paya sahiptir. Bunun nedeni KV cache boyutunun artmasıyla attention katmanında daha fazla hesaplama gerekmesidir. Buna karşılık Qwen2 modelinde FFN katmanı, attention katmanından daha büyük pay alır. Bu durum, Qwen2 modelindeki FFN katmanının daha geniş olmasından kaynaklanır.
Decode aşamasında Qwen1.5 modelinde attention işlemlerinin oranı daha da artar. Bunun nedeni, üretilen token'ların daha önce üretilmiş token'larla etkileşime girmesi sonucu daha fazla hesaplama gerekmesidir; KV cache boyutu arttıkça bu eğilim daha da belirginleşir. Qwen2 modelinde ise FFN katmanı hâlâ en fazla zamanı alır; çünkü FFN'nin hesaplama genişliği arttıkça süre de uzar.
Operatör (operator) analizi yapıldığında, her iki modelde de ortak olarak matris-vektör çarpımı işlemi (matrix-vector multiplication, mul_mat_vec_q) toplam işlem süresinin %80'inden fazlasını oluşturur. Özellikle Qwen2-0.5B modelinde FFN katmanı daha geniş olduğu için mul_mat_vec_q işlemi daha büyük pay alır.
Ayrıca, bellek (Memory) kullanımını analiz ettiğimizde sonuçlar şöyledir:
Analiz sonuçları, yalnızca model boyutunun değil, sözlük boyutunun (vocabulary size) da bellek kullanımını büyük ölçüde etkilediğini vurguluyor. Modelin kullandığı sözlük ne kadar büyükse, çıktı katmanında kullanılan hesaplama arabelleğinin (Compute Buffer) boyutu da o kadar büyüyor. Örneğin Bloom-560M modelinin sözlük boyutu 250.880; bu nedenle söz konusu modelin hesaplama arabelleği boyutu 492MB’a ulaşıyor ve bu, sözlük boyutu 32.000 olan OpenELM-1.1B’ye kıyasla 3,5 kat daha fazla bellek kullanıyor.
Ayrıca GQA (Group-Query Attention) kullanan modellerin KV Cache boyutu, MHA (Multi-Head Attention) kullanan modellere göre daha küçüktür. Örneğin OpenELM-3B modelinin KV cache boyutu 164MB’dir; bu da StableLM-zephyr-3B modeline göre yaklaşık 3,9 kat daha küçüktür.
Bağlam uzunluğu (context length) arttıkça, hesaplama arabelleği (Compute Buffer) ve KV Cache model bellek kullanımının başlıca belirleyici unsurları hâline gelir. Qwen2 model serisinde bağlam uzunluğu 131.072’ye ulaştığında, Compute Buffer ve KV Cache toplam bellek kullanımının %83 ila %87’sini oluşturur. Buna karşılık Qwen1.5 modelinde azami bağlam uzunluğu 32.768 iken bu iki unsur toplam belleğin %85 ila %90’ını kaplar.
Bu analizler, sözlük boyutunun (Vocabulary Size) ve bağlam uzunluğunun (Context Length) SLM’lerin bellek kullanımı üzerindeki etkisini açıkça ortaya koyuyor; sözlük boyutu büyüdükçe ve bağlam uzadıkça bellek kullanımı da hızla artıyor.
Sonuç ve gelecekteki araştırma yönleri
Şimdiye kadar 100M ile 5B arasında değişen boyutlara sahip küçük dil modelleri (SLM) üzerine kapsamlı araştırma ve performans ölçümleri yapıldı; model performansı ve çalıştırma maliyetleri gibi unsurlar değerlendirildi. Bu sayede SLM’lerin mevcut başarıları ve sınırlamaları analiz edilerek, gelecekte araştırma gerektiren çeşitli başlıklar ortaya kondu:
-
SLM mimarisi ile işlemcilerin ortak tasarımı ve ortak optimizasyonu (Co-design and co-optimizations of SLM architecture and device processors.): SLM performansı, aynı model boyutu içinde bile mimari yapılandırmaya bağlı olarak büyük ölçüde değişebilir. Örneğin transformer’ın derinlik-genişlik oranı, attention türü ve aktivasyon fonksiyonu gibi unsurların çalışma hızı üzerindeki etkisi çok büyüktür. Özellikle NPU (Neural Processing Unit) gibi tamsayı işlemleri için optimize edilmiş işlemcilerde verimli çalışabilecek şekilde SLM’lerin nasıl nicemleneceği önemlidir. En iyi doğruluk-hız dengelerini (trade-offs) elde etmek için belirli donanımlara uygun mimari tasarım ve optimizasyon şarttır; ön eğitimden önce hız için optimize edilmiş mimarileri bulmak da bir araştırma yönü olabilir.
-
Yüksek kaliteli sentetik veri kümesi oluşturma (Constructing high-quality synthetic dataset): Yakın zamanda yayımlanan DCLM ve FineWeb-Edu gibi ön eğitim veri kümeleri, SLM performansını önemli ölçüde artırdı. Bu veri kümelerindeki temel yenilik, büyük ölçekli corpus içinden yüksek kaliteli veriyi filtrelemek için önceden eğitilmiş modellerin kullanılmasıdır. Sentetik veri araştırmaları henüz başlangıç aşamasında olsa da büyük bir potansiyel taşımaktadır. Veri tekilleştirme, filtreleme, karıştırma ve değerlendirme gibi standartlaştırılmış sentetik veri yönetim süreçlerinin kurulmasına acil ihtiyaç vardır.
-
Dağıtım ortamını dikkate alan Chinchilla yasasının genişletilmesi (A deployment-aware Chinchilla law for model scaling): Chinchilla yasasına göre model performansını optimize etmek için model boyutu ile eğitim verisi boyutu (token sayısı) arasında bir dengeye (yaklaşık 1:20) ihtiyaç vardır; ancak SLM’ler, sınırlı cihaz belleği ve işlem kapasitesine sığmak zorunda oldukları için çok daha fazla miktarda eğitim verisi kullanma eğilimindedir. Bu yaklaşım belirli bir noktaya kadar etkili olsa da eğitim verisini sonsuza kadar ölçeklendirmek mümkün değildir; dolayısıyla en uygun veri ölçekleme yöntemini bulmak hâlâ çözülmesi gereken bir sorundur. Ayrıca yalnızca veri ölçeği ile eğitim ve çıkarım maliyetleri değil, SLM’lerin yaşam döngüsü ve ekonomik getirileri de hesaba katılmalıdır; MoE (Mixture-of-Experts) gibi seyreklik (sparsity) yöntemleri uygulandığında bu sorun daha da karmaşık hâle gelir.
-
Kişiselleştirme için sürekli cihaz üstü öğrenme (Continual on-device learning for personalization): SLM’ler cihaza dağıtıldığında, veri sızıntısı endişesi olmadan daha iyi performans veya kişiselleştirme sağlamak için cihaz içi verilerden (On-Device Data) yararlanabilir. Buna yönelik ilk yaklaşım, kişisel verileri prompt içine enjekte etmek için RAG (Retrieval-Augmented Generation) tekniğinin kullanılmasıdır. Ancak bu yöntem, metin embedding üretimini ve prompt işleme süresini artırır; ayrıca kişiselleştirme verisinin cihazda uzun süre saklanmasını gerektirir. İkinci yaklaşım ise SLM’i ince ayar (fine-tuning) ile güncellemektir; bu sayede kişiselleştirme için gereken bilgi model ağırlıklarına gömülebilir ve veriler ince ayardan sonra silinebilir. Ancak cihaz üstünde ince ayar yapmak yüksek bellek ve enerji tüketimine yol açtığından ciddi kaynak sorunları doğurabilir. Örneğin, bellek içindeki aktivasyon değerlerini saklamadan çalışan ve çıkarım aşamasında donanım hızlandırıcılarından yararlanabilen zero-order optimization yöntemleri üzerine araştırmalar yapılabilir.
-
Cihaz ve bulutta SLM ile LLM iş birliği (Device-cloud SLM-LLM collaboration): SLM yetenekleri hızla gelişiyor olsa da bulutta çalışan büyük dil modelleriyle (LLM) aradaki fark hâlâ sürüyor. Bunu aşmak için cihaz ile bulutun birlikte çalışması önemli bir araştırma konusu olacaktır. Sezgisel olarak SLM, cihaz üzerinde kolayca çözülebilen görevleri üstlenebilir; buluttaki LLM ise karmaşık görevleri ele alan bir filtre görevi görebilir. Ancak hangi görevlerin SLM tarafından işlenebileceğini, hangilerinin işlenemeyeceğini ayıracak bir karar modülüne ihtiyaç vardır; ayrıca cihaz-bulut iş birliğinin en uygun biçimini belirlemek için daha fazla araştırma gereklidir.
-
SLM performans değerlendirmesinde adillik sorunu (Benchmarking SLMs fairly): SLM’ler, özellikle GSM8k gibi yaygın kullanılan benchmark’larda aşırı uyum (overfitting) sorunu yaşamaktadır. Ayrıca birçok SLM, kapalı veri kümeleriyle eğitildiği için performanslarını adil biçimde karşılaştırmak zordur. SLM’ler çoğunlukla cihaz içinde (On-Device) çalıştığından, bulut ortamındakinden farklı görevler üstlenir. Akıllı telefonlara dağıtılan SLM’ler, kullanıcı verisine duyarlı görevleri işleme eğilimindedir; bu tür özelleşmiş görevler (ad-hoc task) mevcut benchmark’larda yer almadığından, önemli değerlendirme başlıklarının dışında kalabilir.
-
Seyreklik (Sparsity) uygulanan SLM’ler (Sparse SLMs): Günümüzde SLM’lerde seyreklik (Sparsity) uygulamalarına ilişkin çalışma neredeyse yoktur. Bunun nedeni, LLM’lerle karşılaştırıldığında SLM’lerin görece daha düşük seyreklik düzeylerine sahip olmasının beklenmesi ve seyrekliğin sağlayacağı hız artışı ya da bellek tasarrufu avantajlarının sınırlı kalabilmesidir. Ayrıca MoE (Mixture-of-Experts) gibi seyreklik tabanlı mimariler, bellek kullanımını azaltırken hesaplama karmaşıklığını artırabildiğinden bellek kısıtlı cihazlar için uygun olmayabilir. Akıllı telefonların harici depolamasını (örneğin flash bellek) kullanarak sabit ağırlıkları (Cold Weights) saklayıp gerektiğinde yükleme yöntemiyle SLM’ler daha da ölçeklenebilir; ancak bu tür yöntemler için I/O gecikmesi sorunları ve heterojen donanım hızlandırıcılarıyla uyumluluğun korunması gibi konularda daha fazla araştırmaya ihtiyaç vardır.
Küçük Dil Modelleri Üzerine Kapsamlı Araştırma makalesi: Small Language Models: Survey, Measurements, and Insights
https://arxiv.org/abs/2409.15790
Proje ana sayfası
https://ubiquitouslearning.github.io/TinyLLMLeaderBoard/#/slm
GitHub deposu
https://github.com/UbiquitousLearning/SLM_Survey
Bu yazı, GPT modeliyle özetlenen bir metne dayanıyor; bu nedenle içerik, orijinal metnin içeriğinden veya niyetinden farklı biçimde düzenlenmiş olabilir. İlginizi çekiyorsa lütfen orijinal metne de göz atın! Okurken garip ya da hatalı bir içerik fark ederseniz, lütfen yorumlarda bize bildirin. 🤗
⚠️Reklam⚠️: 🔥PyTorch Kore Kullanıcı Topluluğu🇰🇷 tarafından derlenen bu yazıyı faydalı buldunuz mu? Üye olursanız, önemli yazıları size e-posta💌 ile göndeririz! (Varsayılan olarak Weekly'dir, ancak Daily olarak da değiştirebilirsiniz.)
Henüz yorum yok.