- Qwen3.5 model ailesi (0.8B~122B), LLM fine-tuning ve pekiştirmeli öğrenme için açık kaynak bir framework olan Unsloth ile metin ve görsel tabanlı fine-tuning yapabiliyor
- Unsloth, FlashAttention-2'ye kıyasla 1,5 kat daha hızlı eğitim hızı ve %50 daha az VRAM kullanımı sunuyor; bf16 LoRA ayarıyla verimli eğitim mümkün
- Colab notebook'ları üzerinden 0.8B, 2B, 4B modelleri ücretsiz olarak denenebiliyor; ayrıca A100 ortamı için 27B·35B model notebook'ları da sunuluyor
- MoE modelleri (35B, 122B vb.), en yeni kernel ile 12 kat daha hızlı eğitim, %35 daha az VRAM, 6 kat daha uzun bağlam uzunluğu desteği sunuyor
- Eğitimden sonra modeller GGUF, vLLM, Ollama, LM Studio, SGLang gibi çeşitli dağıtım formatlarına aktarılabiliyor
Qwen3.5 ince ayar genel bakış
- Qwen3.5 model ailesi (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B), Unsloth ile ince ayar yapılabiliyor
- Hem metin hem de vision desteği var
- Qwen3.5‑35B‑A3B bf16 LoRA, 74GB VRAM üzerinde çalışıyor
- Unsloth, 1,5 kat daha hızlı eğitim ve %50 daha az VRAM kullanımı sağlıyor
- VRAM kullanımı: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
- Ücretsiz Google Colab notebook'ları ile 0.8B, 2B, 4B modelleri denenebiliyor
- Muhakeme yeteneğini korumak için veride reasoning örneklerinin %75'ten fazla yer alması öneriliyor
- Full Fine-Tuning (FFT) de mümkün, ancak VRAM kullanımı 4 kat artıyor
Eğitim ortamı ve ayarlar
- Qwen3.5, 201 dili destekleyen çok dilli bir model
- Reinforcement Learning (RL) ve Vision RL (VLM RL) de Unsloth üzerinden destekleniyor
- A100 Colab notebook'ları sunuluyor: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- Yerelde eğitim yaparken en güncel sürüme güncellemek gerekiyor
- Komut:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
- transformers v5 zorunlu; eski sürümler çalışmıyor
- Mamba Triton kernel derlemesi nedeniyle ilk eğitim yavaş olabilir (özellikle T4 GPU'da)
- QLoRA(4-bit) eğitimi önerilmiyor
MoE model ince ayarı (35B, 122B)
- Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B modelleri destekleniyor
- 12 kat daha hızlı eğitim, %35 daha az VRAM, 6 kat daha uzun bağlam uzunluğu
- bf16 LoRA veya Full Fine-Tuning öneriliyor
- MoE QLoRA 4-bit, BitsandBytes sınırlamaları nedeniyle tavsiye edilmiyor
- Unsloth MoE kernel varsayılan olarak etkin; backend,
UNSLOTH_MOE_BACKEND ile değiştirilebiliyor
- Router-layer fine-tuning, kararlılık nedeniyle varsayılan olarak devre dışı
- Qwen3.5‑122B‑A10B bf16 LoRA için 256GB VRAM gerekiyor
- Çoklu GPU kullanımında
device_map = "balanced" ayarı veya multiGPU rehberi öneriliyor
Quickstart
- Yalnızca metin için SFT (denetimli ince ayar) örneği sunuluyor
- Qwen3.5, Causal Language Model + Vision Encoder mimarisine sahip
- Vision bağımlılıklarının (
torchvision, pillow) kurulması gerekiyor
- En güncel Transformers sürümünün kullanılması öneriliyor
- GRPO eğitimi, fast vLLM devre dışı bırakıldıktan sonra Unsloth inference ile yapılabiliyor
- OOM (bellek taşması) oluşursa
per_device_train_batch_size=1, max_seq_length küçültülmeli
gradient_checkpointing="unsloth" korunarak VRAM tasarrufu ve daha uzun bağlam sağlanabilir
- MoE bf16 LoRA yükleyici örneği sunuluyor
Vision ince ayarı
- Çok modlu Qwen3.5 modelleri için vision ince ayarı destekleniyor
- Qwen3-VL GRPO/GSPO RL notebook'ları kullanılabiliyor (yalnızca model adı değiştirilmeli)
- Yalnızca vision / yalnızca metin eğitimi seçilebiliyor
- Vision, Language, Attention, MLP katmanları arasında seçmeli ince ayar yapılabiliyor
- Varsayılan olarak hepsi etkin
- Çoklu görsel eğitimi için ayrı multi-image vision rehberine bakılmalı
Model kaydetme ve dağıtım
- llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang gibi çeşitli dağıtım yöntemleri destekleniyor
GGUF kaydetme
- Unsloth, GGUF formatında doğrudan kaydetme ve Hugging Face'e yükleme desteği sunuyor
- Çıkarımda performans düşüşü yaşanırsa, başlıca neden yanlış chat template'i veya EOS token'ı kullanılmasıdır
vLLM kaydetme
- vLLM 0.16.0, Qwen3.5'i desteklemiyor
- 0.170 ve üzeri ya da Nightly sürüm gerekiyor
- 16-bit kaydetme ve yalnızca LoRA adaptörünü kaydetme mümkün
- Ayrıntılar için Unsloth'un inference rehberine bakılabilir
2 yorum
Geçen sefer ajan üzerinden fine-tuning denediğimde, veriye bağlı olarak aşırı öğrenme sorununun sık yaşandığı görülüyordu; bu not defterinde ise LoRA/QLoRA kombinasyonuyla bunun mümkün olup olmayacağını merak ediyorum.
Hacker News görüşleri
Qwen modelini NVIDIA Jetson donanımında fine-tune etmeyi denedim ve performansı şaşırtıcı derecede iyiydi
Çeşitli 7B türevlerini edge AI kullanımına dağıttım; doğruluktan çok gecikmenin (latency) önemli olduğu endüstriyel denetim veya perakende analizi gibi ortamlarda özellikle faydalıydı
LoRA fine-tuning sayesinde model küçüldü, birleşik belleğe iyi sığdı ve gerçek zamanlı çıkarım hızı da yeterince yüksekti
En çok şaşırdığım şey güç verimliliği oldu — Jetson Orin, 15W’ın altında sürekli çıkarım çalıştırabildi ve bu, buluta gidiş-dönüşten çok daha fazla enerji tasarrufu sağladı
Son zamanlarda Twitter ve Reddit’te de bu tür sahte anekdot tarzı formatta yorumları sık görüyorum. Gerçek bir insan yazmış gibi görünüyor ama tamamen uydurulmuş hikayeler gibi duruyor
Nano (40 TOPS), NX (100), AGX (275) seçeneklerinden hangisi? Ayrıca Thor (2070) üzerinde daha büyük modelleri de denediniz mi, bunu da bilmek isterim
İnsanların gerçekten küçük/orta ölçekli modelleri fine-tune ederek kullandığı örnekleri merak ediyorum
İlgili gönderi
Örneğin,
Llama-70B, Gemma-4B, Ministral-14B gibi modeller arasında doğruluk ve maliyeti karşılaştırdım,
4B modellerin de oldukça iyi performans gösterdiğini gördüm.
Yalnız “veri miktarı ile performans artışı arasındaki ilişki” hakkında sezgimin kaybolduğu hissine kapıldım
Kendim fine-tuning denemeyi düşünüyorum
Temel model zaten iyi çalışıyor ama benim kötü el yazım yüzümden bazen tanıma hataları oluyor
Son zamanlarda LLM fine-tuning ihtiyacının giderek azaldığını düşünüyorum
En yeni modeller, yalnızca few-shot öğrenme ile bile karmaşık görevleri iyi yerine getiriyor
Qwen3.5 gibi büyük context window’a sahip modellerde güçlü prompt tasarımı çoğu zaman bunun yerini alabiliyor
Görüntü modelleri veya eski LLM’ler için hâlâ anlamlı olabilir, ama metin LLM’lerinde giderek daha verimsiz hale geliyor
Büyük modellerde context genişletmenin maliyeti çok yüksek
Unsloth rehberi gibi kaynaklarla vision+text fine-tuning de yapılabiliyor
İleride model routing yaygınlaşacak gibi görünüyor; yerelde küçük LoRA modelleri kullanıp karmaşık işleri buluta devreden bir yapı oluşabilir
Nitekim DoorDash, Vercel, NASA, Cursor gibi şirketler de kendi fine-tuning süreçlerini yürütüyor
Claude, Qwen, Llama, Gemma gibi modellerle denedim ama stil aktarımı pek iyi olmadı
Eğitim verisi olarak yüzlerce kendi yorumumu kullansam da, Instruct modeller zaten aşırı ayarlanmış olduğu için ek eğitim neredeyse imkânsızdı
Qwen, eğitim sırasında bu verileri filtrelediği için ancak fine-tuning ile geri getirilebiliyor
İlgili çalışma örneği: chenrm’in Qwen3 LoRA modeli
Deterministik ve denetlenebilir davranış, halüsinasyon azaltma ve maliyet düşüren LoRA/QLoRA kombinasyonları faydalı oluyor
RAG’i FAISS vektör veritabanı ile birlikte kullanırsanız context taşmasını önleyebilirsiniz
Uzun vadede prompt ayarlamaktan ziyade küçük adaptörleri yönetmek çok daha verimli olacaktır
Qwen ekibindeki bazı liderlerin değişmiş olması üzücü
Yeni yönetimin iş odaklı hale gelmesiyle açık kaynak ruhunun zayıflamasından endişe ediyorum
Alibaba CEO/CTO acil toplantı haberi
Umarım iyi çözülür
Belge merkezli bir RAG yaklaşımı zaten yeterli görünüyor; fine-tuning gerçekten daha iyi sonuç veriyor mu diye merak ediyorum
Örnek: FlashCheck
Bu materyal sanki yalnızca büyük MoE modellerini ele alıyor gibi
Kullanıcıların çoğu muhtemelen küçük modelleri (ör. 9B) hedefleyecektir,
bu model ise hibrit Mamba mimarisi kullandığından ayrı değerlendirilmesi gerekebilir