16 puan yazan GN⁺ 2026-03-06 | 2 yorum | WhatsApp'ta paylaş
  • Qwen3.5 model ailesi (0.8B~122B), LLM fine-tuning ve pekiştirmeli öğrenme için açık kaynak bir framework olan Unsloth ile metin ve görsel tabanlı fine-tuning yapabiliyor
  • Unsloth, FlashAttention-2'ye kıyasla 1,5 kat daha hızlı eğitim hızı ve %50 daha az VRAM kullanımı sunuyor; bf16 LoRA ayarıyla verimli eğitim mümkün
  • Colab notebook'ları üzerinden 0.8B, 2B, 4B modelleri ücretsiz olarak denenebiliyor; ayrıca A100 ortamı için 27B·35B model notebook'ları da sunuluyor
  • MoE modelleri (35B, 122B vb.), en yeni kernel ile 12 kat daha hızlı eğitim, %35 daha az VRAM, 6 kat daha uzun bağlam uzunluğu desteği sunuyor
  • Eğitimden sonra modeller GGUF, vLLM, Ollama, LM Studio, SGLang gibi çeşitli dağıtım formatlarına aktarılabiliyor

Qwen3.5 ince ayar genel bakış

  • Qwen3.5 model ailesi (0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B), Unsloth ile ince ayar yapılabiliyor
    • Hem metin hem de vision desteği var
    • Qwen3.5‑35B‑A3B bf16 LoRA, 74GB VRAM üzerinde çalışıyor
  • Unsloth, 1,5 kat daha hızlı eğitim ve %50 daha az VRAM kullanımı sağlıyor
    • VRAM kullanımı: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • Ücretsiz Google Colab notebook'ları ile 0.8B, 2B, 4B modelleri denenebiliyor
  • Muhakeme yeteneğini korumak için veride reasoning örneklerinin %75'ten fazla yer alması öneriliyor
  • Full Fine-Tuning (FFT) de mümkün, ancak VRAM kullanımı 4 kat artıyor

Eğitim ortamı ve ayarlar

  • Qwen3.5, 201 dili destekleyen çok dilli bir model
  • Reinforcement Learning (RL) ve Vision RL (VLM RL) de Unsloth üzerinden destekleniyor
  • A100 Colab notebook'ları sunuluyor: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • Yerelde eğitim yaparken en güncel sürüme güncellemek gerekiyor
    • Komut: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 zorunlu; eski sürümler çalışmıyor
  • Mamba Triton kernel derlemesi nedeniyle ilk eğitim yavaş olabilir (özellikle T4 GPU'da)
  • QLoRA(4-bit) eğitimi önerilmiyor

MoE model ince ayarı (35B, 122B)

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B modelleri destekleniyor
    • 12 kat daha hızlı eğitim, %35 daha az VRAM, 6 kat daha uzun bağlam uzunluğu
  • bf16 LoRA veya Full Fine-Tuning öneriliyor
  • MoE QLoRA 4-bit, BitsandBytes sınırlamaları nedeniyle tavsiye edilmiyor
  • Unsloth MoE kernel varsayılan olarak etkin; backend, UNSLOTH_MOE_BACKEND ile değiştirilebiliyor
  • Router-layer fine-tuning, kararlılık nedeniyle varsayılan olarak devre dışı
  • Qwen3.5‑122B‑A10B bf16 LoRA için 256GB VRAM gerekiyor
    • Çoklu GPU kullanımında device_map = "balanced" ayarı veya multiGPU rehberi öneriliyor

Quickstart

  • Yalnızca metin için SFT (denetimli ince ayar) örneği sunuluyor
  • Qwen3.5, Causal Language Model + Vision Encoder mimarisine sahip
    • Vision bağımlılıklarının (torchvision, pillow) kurulması gerekiyor
  • En güncel Transformers sürümünün kullanılması öneriliyor
  • GRPO eğitimi, fast vLLM devre dışı bırakıldıktan sonra Unsloth inference ile yapılabiliyor
  • OOM (bellek taşması) oluşursa
    • per_device_train_batch_size=1, max_seq_length küçültülmeli
    • gradient_checkpointing="unsloth" korunarak VRAM tasarrufu ve daha uzun bağlam sağlanabilir
  • MoE bf16 LoRA yükleyici örneği sunuluyor

Vision ince ayarı

  • Çok modlu Qwen3.5 modelleri için vision ince ayarı destekleniyor
    • Qwen3-VL GRPO/GSPO RL notebook'ları kullanılabiliyor (yalnızca model adı değiştirilmeli)
  • Yalnızca vision / yalnızca metin eğitimi seçilebiliyor
    • Vision, Language, Attention, MLP katmanları arasında seçmeli ince ayar yapılabiliyor
    • Varsayılan olarak hepsi etkin
  • Çoklu görsel eğitimi için ayrı multi-image vision rehberine bakılmalı

Model kaydetme ve dağıtım

  • llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang gibi çeşitli dağıtım yöntemleri destekleniyor

GGUF kaydetme

  • Unsloth, GGUF formatında doğrudan kaydetme ve Hugging Face'e yükleme desteği sunuyor
  • Çıkarımda performans düşüşü yaşanırsa, başlıca neden yanlış chat template'i veya EOS token'ı kullanılmasıdır

vLLM kaydetme

  • vLLM 0.16.0, Qwen3.5'i desteklemiyor
    • 0.170 ve üzeri ya da Nightly sürüm gerekiyor
  • 16-bit kaydetme ve yalnızca LoRA adaptörünü kaydetme mümkün
  • Ayrıntılar için Unsloth'un inference rehberine bakılabilir

2 yorum

 
hmmhmmhm 2026-03-06

Geçen sefer ajan üzerinden fine-tuning denediğimde, veriye bağlı olarak aşırı öğrenme sorununun sık yaşandığı görülüyordu; bu not defterinde ise LoRA/QLoRA kombinasyonuyla bunun mümkün olup olmayacağını merak ediyorum.

 
GN⁺ 2026-03-06
Hacker News görüşleri
  • Qwen modelini NVIDIA Jetson donanımında fine-tune etmeyi denedim ve performansı şaşırtıcı derecede iyiydi
    Çeşitli 7B türevlerini edge AI kullanımına dağıttım; doğruluktan çok gecikmenin (latency) önemli olduğu endüstriyel denetim veya perakende analizi gibi ortamlarda özellikle faydalıydı
    LoRA fine-tuning sayesinde model küçüldü, birleşik belleğe iyi sığdı ve gerçek zamanlı çıkarım hızı da yeterince yüksekti
    En çok şaşırdığım şey güç verimliliği oldu — Jetson Orin, 15W’ın altında sürekli çıkarım çalıştırabildi ve bu, buluta gidiş-dönüşten çok daha fazla enerji tasarrufu sağladı

    • Bu yorum yapay zeka tarafından üretilmiş gibi görünüyor
      Son zamanlarda Twitter ve Reddit’te de bu tür sahte anekdot tarzı formatta yorumları sık görüyorum. Gerçek bir insan yazmış gibi görünüyor ama tamamen uydurulmuş hikayeler gibi duruyor
    • İlginç. Doğruluğun biraz daha düşük olmasının sorun olmadığı endüstriyel görev örnekleri verilebilir mi diye merak ediyorum
    • Gerçekte bu tür modellerin hangi işlerde kullanıldığına dair somut örnekleri merak ediyorum
    • Basit bir soru ama, bu tür kullanım alanlarında geleneksel sinir ağları (neural network) zaten yeterli olmaz mı diye düşünüyorum
    • 7B modeli 15W’ta çalıştırdığınızı söylediniz; Orin serisinde tam olarak hangi modeli kullandığınızı merak ediyorum
      Nano (40 TOPS), NX (100), AGX (275) seçeneklerinden hangisi? Ayrıca Thor (2070) üzerinde daha büyük modelleri de denediniz mi, bunu da bilmek isterim
  • İnsanların gerçekten küçük/orta ölçekli modelleri fine-tune ederek kullandığı örnekleri merak ediyorum

    • Bu konuyla ilgili X’te derlenmiş bir gönderi var
      İlgili gönderi
      Örneğin,
      1. Cursor, çevrimiçi RL ile onay oranını %28 artırdı (bağlantı)
      2. Vercel, AutoFix modeline RFT uyguladı (bağlantı)
      3. Perplexity Sonar, Deep Research Reasoning için fine-tune edilmiş bir model (bağlantı)
      4. DoorDash, LoRA/QLoRA ile bir özellik çıkarım modeli kurdu (bağlantı)
      5. NASA’nın sel tespit modeli (bağlantı)
      6. Robotik için çevrimiçi RL
      7. OpenAI RFT kullanım örnekleri derlemesi (bağlantı)
      8. Mercor’un uzman verisine dayalı model performansı iyileştirmesi (bağlantı)
    • Basit bir belge sınıflandırma görevini birkaç modelle benchmark etmiştim
      Llama-70B, Gemma-4B, Ministral-14B gibi modeller arasında doğruluk ve maliyeti karşılaştırdım,
      4B modellerin de oldukça iyi performans gösterdiğini gördüm.
      Yalnız “veri miktarı ile performans artışı arasındaki ilişki” hakkında sezgimin kaybolduğu hissine kapıldım
      Kendim fine-tuning denemeyi düşünüyorum
    • Kendi el yazımı tanıma doğruluğunu artırmak için fine-tuning düşünüyordum
      Temel model zaten iyi çalışıyor ama benim kötü el yazım yüzümden bazen tanıma hataları oluyor
    • İyi bir örnek olarak Atredis blogundaki LLM eğitim rehberini tavsiye ederim
  • Son zamanlarda LLM fine-tuning ihtiyacının giderek azaldığını düşünüyorum
    En yeni modeller, yalnızca few-shot öğrenme ile bile karmaşık görevleri iyi yerine getiriyor
    Qwen3.5 gibi büyük context window’a sahip modellerde güçlü prompt tasarımı çoğu zaman bunun yerini alabiliyor
    Görüntü modelleri veya eski LLM’ler için hâlâ anlamlı olabilir, ama metin LLM’lerinde giderek daha verimsiz hale geliyor

    • Küçük bir modeli belirli bir yapılandırılmış çıktı biçimine göre fine-tune ederseniz, düşük maliyetle büyük ölçekli çıkarım çalıştırabilirsiniz
      Büyük modellerde context genişletmenin maliyeti çok yüksek
    • LLM’ler gelişiyor ama robotlarda sürekli öğrenme veya multimodal LoRA fine-tuning gibi alanlarda hâlâ büyük potansiyel var
      Unsloth rehberi gibi kaynaklarla vision+text fine-tuning de yapılabiliyor
      İleride model routing yaygınlaşacak gibi görünüyor; yerelde küçük LoRA modelleri kullanıp karmaşık işleri buluta devreden bir yapı oluşabilir
      Nitekim DoorDash, Vercel, NASA, Cursor gibi şirketler de kendi fine-tuning süreçlerini yürütüyor
    • Bir modeli kendi yazı stilime uyacak şekilde fine-tune etmeye çalışmıştım
      Claude, Qwen, Llama, Gemma gibi modellerle denedim ama stil aktarımı pek iyi olmadı
      Eğitim verisi olarak yüzlerce kendi yorumumu kullansam da, Instruct modeller zaten aşırı ayarlanmış olduğu için ek eğitim neredeyse imkânsızdı
    • Tek cümleyle özetlemek gerekirse mesele yetişkin içerik verisi
      Qwen, eğitim sırasında bu verileri filtrelediği için ancak fine-tuning ile geri getirilebiliyor
      İlgili çalışma örneği: chenrm’in Qwen3 LoRA modeli
    • Gerçek hizmetlerde fine-tuning hâlâ önemli
      Deterministik ve denetlenebilir davranış, halüsinasyon azaltma ve maliyet düşüren LoRA/QLoRA kombinasyonları faydalı oluyor
      RAG’i FAISS vektör veritabanı ile birlikte kullanırsanız context taşmasını önleyebilirsiniz
      Uzun vadede prompt ayarlamaktan ziyade küçük adaptörleri yönetmek çok daha verimli olacaktır
  • Qwen ekibindeki bazı liderlerin değişmiş olması üzücü
    Yeni yönetimin iş odaklı hale gelmesiyle açık kaynak ruhunun zayıflamasından endişe ediyorum

  • Belge merkezli bir RAG yaklaşımı zaten yeterli görünüyor; fine-tuning gerçekten daha iyi sonuç veriyor mu diye merak ediyorum

    • Uzmanlaşmış modeller gerçekten SOTA’yı aşabiliyor
      Örnek: FlashCheck
    • Bir zamanlar Cursor’ın tab-next-action modeli büyük olay olmuştu ama aslında o, 70B modelin fine-tune edilmiş bir sürümüydü
  • Bu materyal sanki yalnızca büyük MoE modellerini ele alıyor gibi
    Kullanıcıların çoğu muhtemelen küçük modelleri (ör. 9B) hedefleyecektir,
    bu model ise hibrit Mamba mimarisi kullandığından ayrı değerlendirilmesi gerekebilir