Qwen3.5 Fine-Tuning Rehberi

(unsloth.ai)

16 puan yazan GN⁺ 2026-03-06 | 2 yorum | WhatsApp'ta paylaş

Qwen3.5 model ailesi (0.8B~122B), LLM fine-tuning ve pekiştirmeli öğrenme için açık kaynak bir framework olan Unsloth ile metin ve görsel tabanlı fine-tuning yapabiliyor
Unsloth, FlashAttention-2'ye kıyasla 1,5 kat daha hızlı eğitim hızı ve %50 daha az VRAM kullanımı sunuyor; bf16 LoRA ayarıyla verimli eğitim mümkün
Colab notebook'ları üzerinden 0.8B, 2B, 4B modelleri ücretsiz olarak denenebiliyor; ayrıca A100 ortamı için 27B·35B model notebook'ları da sunuluyor
MoE modelleri (35B, 122B vb.), en yeni kernel ile 12 kat daha hızlı eğitim, %35 daha az VRAM, 6 kat daha uzun bağlam uzunluğu desteği sunuyor
Eğitimden sonra modeller GGUF, vLLM, Ollama, LM Studio, SGLang gibi çeşitli dağıtım formatlarına aktarılabiliyor

Qwen3.5 ince ayar genel bakış

Qwen3.5 model ailesi (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B), Unsloth ile ince ayar yapılabiliyor
- Hem metin hem de vision desteği var
- Qwen3.5‑35B‑A3B bf16 LoRA, 74GB VRAM üzerinde çalışıyor
Unsloth, 1,5 kat daha hızlı eğitim ve %50 daha az VRAM kullanımı sağlıyor
- VRAM kullanımı: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
Ücretsiz Google Colab notebook'ları ile 0.8B, 2B, 4B modelleri denenebiliyor
Muhakeme yeteneğini korumak için veride reasoning örneklerinin %75'ten fazla yer alması öneriliyor
Full Fine-Tuning (FFT) de mümkün, ancak VRAM kullanımı 4 kat artıyor

Eğitim ortamı ve ayarlar

Qwen3.5, 201 dili destekleyen çok dilli bir model
Reinforcement Learning (RL) ve Vision RL (VLM RL) de Unsloth üzerinden destekleniyor
A100 Colab notebook'ları sunuluyor: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
Yerelde eğitim yaparken en güncel sürüme güncellemek gerekiyor
- Komut: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 zorunlu; eski sürümler çalışmıyor
Mamba Triton kernel derlemesi nedeniyle ilk eğitim yavaş olabilir (özellikle T4 GPU'da)
QLoRA(4-bit) eğitimi önerilmiyor

MoE model ince ayarı (35B, 122B)

Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B modelleri destekleniyor
- 12 kat daha hızlı eğitim, %35 daha az VRAM, 6 kat daha uzun bağlam uzunluğu
bf16 LoRA veya Full Fine-Tuning öneriliyor
MoE QLoRA 4-bit, BitsandBytes sınırlamaları nedeniyle tavsiye edilmiyor
Unsloth MoE kernel varsayılan olarak etkin; backend, UNSLOTH_MOE_BACKEND ile değiştirilebiliyor
Router-layer fine-tuning, kararlılık nedeniyle varsayılan olarak devre dışı
Qwen3.5‑122B‑A10B bf16 LoRA için 256GB VRAM gerekiyor
- Çoklu GPU kullanımında device_map = "balanced" ayarı veya multiGPU rehberi öneriliyor

Quickstart

Yalnızca metin için SFT (denetimli ince ayar) örneği sunuluyor
Qwen3.5, Causal Language Model + Vision Encoder mimarisine sahip
- Vision bağımlılıklarının (torchvision, pillow) kurulması gerekiyor
En güncel Transformers sürümünün kullanılması öneriliyor
GRPO eğitimi, fast vLLM devre dışı bırakıldıktan sonra Unsloth inference ile yapılabiliyor
OOM (bellek taşması) oluşursa
- per_device_train_batch_size=1, max_seq_length küçültülmeli
- gradient_checkpointing="unsloth" korunarak VRAM tasarrufu ve daha uzun bağlam sağlanabilir
MoE bf16 LoRA yükleyici örneği sunuluyor

Vision ince ayarı

Çok modlu Qwen3.5 modelleri için vision ince ayarı destekleniyor
- Qwen3-VL GRPO/GSPO RL notebook'ları kullanılabiliyor (yalnızca model adı değiştirilmeli)
Yalnızca vision / yalnızca metin eğitimi seçilebiliyor
- Vision, Language, Attention, MLP katmanları arasında seçmeli ince ayar yapılabiliyor
- Varsayılan olarak hepsi etkin
Çoklu görsel eğitimi için ayrı multi-image vision rehberine bakılmalı

Model kaydetme ve dağıtım

llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang gibi çeşitli dağıtım yöntemleri destekleniyor

GGUF kaydetme

Unsloth, GGUF formatında doğrudan kaydetme ve Hugging Face'e yükleme desteği sunuyor
Çıkarımda performans düşüşü yaşanırsa, başlıca neden yanlış chat template'i veya EOS token'ı kullanılmasıdır

vLLM kaydetme

vLLM 0.16.0, Qwen3.5'i desteklemiyor
- 0.170 ve üzeri ya da Nightly sürüm gerekiyor
16-bit kaydetme ve yalnızca LoRA adaptörünü kaydetme mümkün
Ayrıntılar için Unsloth'un inference rehberine bakılabilir

2 yorum

hmmhmmhm 2026-03-06

Geçen sefer ajan üzerinden fine-tuning denediğimde, veriye bağlı olarak aşırı öğrenme sorununun sık yaşandığı görülüyordu; bu not defterinde ise LoRA/QLoRA kombinasyonuyla bunun mümkün olup olmayacağını merak ediyorum.

GN⁺ 2026-03-06

Hacker News görüşleri

Qwen modelini NVIDIA Jetson donanımında fine-tune etmeyi denedim ve performansı şaşırtıcı derecede iyiydi
Çeşitli 7B türevlerini edge AI kullanımına dağıttım; doğruluktan çok gecikmenin (latency) önemli olduğu endüstriyel denetim veya perakende analizi gibi ortamlarda özellikle faydalıydı
LoRA fine-tuning sayesinde model küçüldü, birleşik belleğe iyi sığdı ve gerçek zamanlı çıkarım hızı da yeterince yüksekti
En çok şaşırdığım şey güç verimliliği oldu — Jetson Orin, 15W’ın altında sürekli çıkarım çalıştırabildi ve bu, buluta gidiş-dönüşten çok daha fazla enerji tasarrufu sağladı
- Bu yorum yapay zeka tarafından üretilmiş gibi görünüyor
  Son zamanlarda Twitter ve Reddit’te de bu tür sahte anekdot tarzı formatta yorumları sık görüyorum. Gerçek bir insan yazmış gibi görünüyor ama tamamen uydurulmuş hikayeler gibi duruyor
- İlginç. Doğruluğun biraz daha düşük olmasının sorun olmadığı endüstriyel görev örnekleri verilebilir mi diye merak ediyorum
- Gerçekte bu tür modellerin hangi işlerde kullanıldığına dair somut örnekleri merak ediyorum
- Basit bir soru ama, bu tür kullanım alanlarında geleneksel sinir ağları (neural network) zaten yeterli olmaz mı diye düşünüyorum
- 7B modeli 15W’ta çalıştırdığınızı söylediniz; Orin serisinde tam olarak hangi modeli kullandığınızı merak ediyorum
  Nano (40 TOPS), NX (100), AGX (275) seçeneklerinden hangisi? Ayrıca Thor (2070) üzerinde daha büyük modelleri de denediniz mi, bunu da bilmek isterim
İnsanların gerçekten küçük/orta ölçekli modelleri fine-tune ederek kullandığı örnekleri merak ediyorum
- Bu konuyla ilgili X’te derlenmiş bir gönderi var
  İlgili gönderi
  Örneğin,
  1. Cursor, çevrimiçi RL ile onay oranını %28 artırdı (bağlantı)
  2. Vercel, AutoFix modeline RFT uyguladı (bağlantı)
  3. Perplexity Sonar, Deep Research Reasoning için fine-tune edilmiş bir model (bağlantı)
  4. DoorDash, LoRA/QLoRA ile bir özellik çıkarım modeli kurdu (bağlantı)
  5. NASA’nın sel tespit modeli (bağlantı)
  6. Robotik için çevrimiçi RL
  7. OpenAI RFT kullanım örnekleri derlemesi (bağlantı)
  8. Mercor’un uzman verisine dayalı model performansı iyileştirmesi (bağlantı)
- Basit bir belge sınıflandırma görevini birkaç modelle benchmark etmiştim
  Llama-70B, Gemma-4B, Ministral-14B gibi modeller arasında doğruluk ve maliyeti karşılaştırdım,
  4B modellerin de oldukça iyi performans gösterdiğini gördüm.
  Yalnız “veri miktarı ile performans artışı arasındaki ilişki” hakkında sezgimin kaybolduğu hissine kapıldım
  Kendim fine-tuning denemeyi düşünüyorum
- Kendi el yazımı tanıma doğruluğunu artırmak için fine-tuning düşünüyordum
  Temel model zaten iyi çalışıyor ama benim kötü el yazım yüzümden bazen tanıma hataları oluyor
- İyi bir örnek olarak Atredis blogundaki LLM eğitim rehberini tavsiye ederim
Son zamanlarda LLM fine-tuning ihtiyacının giderek azaldığını düşünüyorum
En yeni modeller, yalnızca few-shot öğrenme ile bile karmaşık görevleri iyi yerine getiriyor
Qwen3.5 gibi büyük context window’a sahip modellerde güçlü prompt tasarımı çoğu zaman bunun yerini alabiliyor
Görüntü modelleri veya eski LLM’ler için hâlâ anlamlı olabilir, ama metin LLM’lerinde giderek daha verimsiz hale geliyor
- Küçük bir modeli belirli bir yapılandırılmış çıktı biçimine göre fine-tune ederseniz, düşük maliyetle büyük ölçekli çıkarım çalıştırabilirsiniz
  Büyük modellerde context genişletmenin maliyeti çok yüksek
- LLM’ler gelişiyor ama robotlarda sürekli öğrenme veya multimodal LoRA fine-tuning gibi alanlarda hâlâ büyük potansiyel var
  Unsloth rehberi gibi kaynaklarla vision+text fine-tuning de yapılabiliyor
  İleride model routing yaygınlaşacak gibi görünüyor; yerelde küçük LoRA modelleri kullanıp karmaşık işleri buluta devreden bir yapı oluşabilir
  Nitekim DoorDash, Vercel, NASA, Cursor gibi şirketler de kendi fine-tuning süreçlerini yürütüyor
- Bir modeli kendi yazı stilime uyacak şekilde fine-tune etmeye çalışmıştım
  Claude, Qwen, Llama, Gemma gibi modellerle denedim ama stil aktarımı pek iyi olmadı
  Eğitim verisi olarak yüzlerce kendi yorumumu kullansam da, Instruct modeller zaten aşırı ayarlanmış olduğu için ek eğitim neredeyse imkânsızdı
- Tek cümleyle özetlemek gerekirse mesele yetişkin içerik verisi
  Qwen, eğitim sırasında bu verileri filtrelediği için ancak fine-tuning ile geri getirilebiliyor
  İlgili çalışma örneği: chenrm’in Qwen3 LoRA modeli
- Gerçek hizmetlerde fine-tuning hâlâ önemli
  Deterministik ve denetlenebilir davranış, halüsinasyon azaltma ve maliyet düşüren LoRA/QLoRA kombinasyonları faydalı oluyor
  RAG’i FAISS vektör veritabanı ile birlikte kullanırsanız context taşmasını önleyebilirsiniz
  Uzun vadede prompt ayarlamaktan ziyade küçük adaptörleri yönetmek çok daha verimli olacaktır
Qwen ekibindeki bazı liderlerin değişmiş olması üzücü
Yeni yönetimin iş odaklı hale gelmesiyle açık kaynak ruhunun zayıflamasından endişe ediyorum
- X’te bununla ilgili bir haber görmüştüm
  Alibaba CEO/CTO acil toplantı haberi
  Umarım iyi çözülür
Belge merkezli bir RAG yaklaşımı zaten yeterli görünüyor; fine-tuning gerçekten daha iyi sonuç veriyor mu diye merak ediyorum
- Uzmanlaşmış modeller gerçekten SOTA’yı aşabiliyor
  Örnek: FlashCheck
- Bir zamanlar Cursor’ın tab-next-action modeli büyük olay olmuştu ama aslında o, 70B modelin fine-tune edilmiş bir sürümüydü
Bu materyal sanki yalnızca büyük MoE modellerini ele alıyor gibi
Kullanıcıların çoğu muhtemelen küçük modelleri (ör. 9B) hedefleyecektir,
bu model ise hibrit Mamba mimarisi kullandığından ayrı değerlendirilmesi gerekebilir