SmolLM3 - küçük, çok dilli ve uzun bağlamlı akıl yürütme LLM'i
(huggingface.co)- SmolLM3 modeli, 3B parametre boyutunda verimlilik ve performansı aynı anda hedefleyen açık kaynaklı bir LLM'dir
- İngilizce, Fransızca, İspanyolca, Almanca, İtalyanca, Portekizce olmak üzere 6 dili destekler ve en fazla 128k bağlam uzunluğuna kadar genişletilebilir
- dual mode (reasoning/non-reasoning) ile
/think,/no_thinkbayrakları kullanılarak akıl yürütme modu değiştirilebilir - Pretraining, mid-training, post-training gibi farklı eğitim aşamaları ile birlikte herkese açık veri kümeleri ve mühendislik blueprint'lerinin tamamını sunar
- Performans açısından Llama-3.2-3B ve Qwen2.5-3B modellerini geride bırakır ve 4B modellere yakın rekabet gücü sunar
Genel bakış
SmolLM3, 3B parametre ölçeğinde verimlilik ve performansı aynı anda hedefleyen açık kaynaklı bir büyük dil modelidir. Küçük ve hızlı olmasına rağmen long-context, çok dillilik ve akıl yürütmeyi aynı anda desteklemesi en büyük farkıdır.
- 3B parametre ile 11 trilyon (11T) token eğitimi
- En güncel performans (SoTA), 4B modellerle rekabet edebilir
- Çift modlu instruct model:
/thinkve/no_thinkile reasoning ve non-reasoning arasında geçiş desteği - İngilizce, Fransızca, İspanyolca, Almanca, İtalyanca, Portekizce desteği
- NoPE, YaRN uygulaması ile en fazla 128k bağlam
Tüm eğitim sürecinin mimarisi, veri bileşimi ve her aşamadaki tarifler tamamen açıklandı.
Pretraining
Mimari ve eğitim ayarları
SmolLM3, transformer decoder tabanlıdır ve Llama yapısı, verimliliği ve uzun bağlam performansını artıracak şekilde değiştirilmiştir.
- Grouped Query Attention (GQA): multi-head attention'a göre daha bellek verimlidir, benzer performansı korur
- NoPE: rotary position embedding'in her 4. katmanda kaldırılmasıyla uzun bağlam performansı iyileştirilir
- Belge içi maskeleme: farklı belgelerin birbirine attend etmesini engelleyen maskeleme ile kararlı long-context eğitimi sağlanır
- embedding üzerinde weight decay kaldırıldı: kararlı eğitim davranışı sağlanır
Eğitim yapılandırması:
- 2.36M token'lık global batch, 4096 sequence length, learning rate 2e-4, AdamW(β1:0.9, β2:0.95), weight decay 0.1, gradient clipping 1
- WSD scheduler: 2000 warmup, son %10'da lineer düşüş
- Dağıtık eğitim için nanotron framework, veri için datatrove, değerlendirme için lighteval kullanıldı
- 384 adet H100 GPU, 24 günlük eğitim
Veri karışımı ve aşamalı eğitim
3 aşamalı pretraining:
- 1. aşama (0T→8T): web (%85, bunun %12'si çok dilli), kod (%12), matematik (%3)
- 2. aşama (8T→10T): web (%75, bunun %12'si çok dilli), kod (%15), matematik (%10) - daha yüksek kaliteli kod ve matematik verisi eklendi
- 3. aşama (10T→11.1T): web (%63, bunun %12'si çok dilli), kod (%24), matematik (%13) - yüksek kaliteli kod, matematik upsampling'i, instruction/akıl yürütme verisi eklendi
Her aşamadaki veri karışım oranı, çok sayıda ablation deneyiyle optimize edildi.
Pretraining sonrasında long-context ve reasoning performansını güçlendirmek için ek mid-training süreci uygulandı.
Mid-training
Long-context eğitimi
Pretraining sonrasında, ek 100B token kullanılarak bağlam uzunluğu 2 aşamada (4k→32k→64k) artırıldı.
- RoPE theta ayarıyla uzunluk genişletildi
- Matematik, kod ve reasoning verisi upsampling'i
- NoPE ve decay mixture ile uzun sequence performansı optimize edildi
- Eğitim sırasında 64k'ya kadar, çıkarımda YaRN uygulaması ile 128k'ya kadar işlenebilir
Reasoning mid-training
Akıl yürütme yeteneğini artırmak için model, 35B token (OpenThoughts3-1.2M, Llama-Nemotron-Post-Training-Dataset vb.) ile yeniden eğitildi.
- Belirli bir alana odaklanmadan genel reasoning yeteneği eğitildi
- ChatML template ve wrapped packing kullanıldı
- 4 epoch (~140B token) sonrasında checkpoint kaydedildi
Post-training
Çoğu reasoning modeli kapalı ya da karmaşık RL süreçleri gerektirirken, SmolLM3 açık veri ve net tariflerle dual instruction (reasoning/non-reasoning) yapısını hayata geçiriyor.
Chat template
- System prompt içine
/think,/no_thinkbayrakları eklenerek reasoning modu değiştirilir - Kod ve araç çağrılarını desteklemek için ayrı XML Tools ve Python Tools bölümleri sunulur
- system message ve metadata (date, knowledge cut-off, reasoning mode) kullanılır ve esnek biçimde override edilebilir
Supervised Finetuning (SFT)
140B reasoning verili mid-training sonrasında, 1.8B token (SFT verisi: mantıksal reasoning / non-reasoning) ile supervised fine-tuning yapıldı.
- Reasoning'in nadir alanlarını tamamlamak için Qwen3-32B ile sentetik reasoning verisi üretildi
- Best-fit decreasing packing gibi yöntemlerle bellek/verimlilik en üst düzeye çıkarıldı
- Tüm veri ve eğitim script'leri yayımlanacak
Anchored Preference Optimization (APO)
- SFT sonrasında, Tulu3 preference (non-reasoning) ve Qwen3-32B/0.6B synthetic preference pairs (reasoning) temel alınarak, DPO'nun bir türevi olan APO ile model hizalaması yapıldı
- triplet prompt + response ile loss oluşturuldu, kararlı optimizasyon ve performans elde edildi
- Reasoning mid-training etkisiyle long-context performansında düşüş gözlendiği için bu sorun model merging ile aşıldı
Model merging
- MergeKit kütüphanesi kullanılarak APO checkpoint modeli (%0.9) + mid-training checkpoint'i (%0.1) oranında lineer merging yapıldı
- 128k long-context performansı geri kazanıldı ve genel performans korundu
- Nihai model, en iyi checkpoint ile yayımlandı
Değerlendirme
Temel model
12 ana benchmark'ta diğer 3B modelleri açık ara geride bırakan ve 4B modellere yaklaşan performans
- Belge anlama, reasoning, matematik ve kodlamada dengeli güçlü yönler
- RULER 64k gibi testlerde bağlam uzunluğu genişletme yeteneği net biçimde doğrulandı
- Global MMLU, MLMM HellaSwag, Flores-200, Belebele gibi testlerde çok dilli yetenek kanıtlandı
- İngilizce dışındaki 5 Avrupa dilinde de tutarlı performans
Dual Instruct / Reasoning modeli
non-reasoning değerlendirmesi
SmolLM3, Llama3.2-3B Instruct ve Qwen2.5 3B Instruct'tan daha iyi olup, 4B reasoning modelleri seviyesinde verimlilik-performans dengesi sunuyor
reasoning değerlendirmesi
/think etkinleştirildiğinde çoğu benchmark'ta performans belirgin şekilde artıyor
- AIME 2025 (%36.7 vs %9.3), LiveCodeBench (%30.0 vs %15.2), GPQA Diamond (%41.7 vs %35.7) gibi zor problemleri de çözebiliyor
- Qwen3 4B ile yarışabilecek düzeyde 3B akıl yürütme, matematiksel reasoning ve karmaşık problem çözme yeteneği
Çift mod sayesinde hız ile derin analiz arasında seçim yapılabilir
Gerçek kullanım rehberi
SmolLM3, transformers v4.53.0 ve sonrasında resmi olarak desteklenir
- Basit kodlarla model yükleme, prompt yazma ve çıkarım yapılabilir
- reasoning / non-reasoning, system prompt içindeki
/think,/no_thinkbayraklarıyla değiştirilir
Araç çağrıları (Agentic) için xml_tools, python_tools parametreleri desteklenir
Sonuç
SmolLM3, 3B ölçeğinde long-context, çok dillilik ve reasoning'i bir arada sunan fully open bir modeldir.
- Aşamaların tamamındaki eğitim tarifleri, veri kümeleri, eğitim log'ları ve mühendislik blueprint'leri tamamen açıklandı
- Topluluğun geliştirme ve doğrulama sürecine katılımını en üst düzeye çıkarabilir
Kaynaklar
- Model, script'ler, veri kümeleri vb.: HuggingFaceTB/SmolLM3-3B
- Makale, değerlendirme, hafifletme ve merging araçları için ilgili GitHub, Hugging Face ve makale bağlantılarına bakılabilir
1 yorum
Hacker News görüşü
./llama.cpp/llama-cli -hf unsloth/SmolLM3-3B-GGUF:Q4_K_XL --jinja -ngl 99