Show HN: %80 daha hızlı, %50 daha az bellek kullanımı ve %0 doğruluk kaybıyla Llama fine-tuning

(github.com/unslothai)

2 puan yazan GN⁺ 2023-12-03 | 1 yorum | WhatsApp'ta paylaş

Unsloth, modelleri yerelde çalıştırıp eğitmek için Unsloth Studio ile kod tabanlı Unsloth Core sunuyor; Windows, Linux, WSL ve macOS üzerinde metin, ses, embedding ve görsel modellerle çalışıyor
Eğitim özellikleri, 500'den fazla model için fine-tuning, RL ve ön eğitim desteği sunuyor; temel performans hedefleri olarak 2 kata kadar daha hızlı eğitim, %70'e kadar daha az VRAM ve doğruluk kaybı olmaması öne çıkıyor
Çıkarım özellikleri; GGUF, LoRA adaptörleri, safetensors model arama/indirme/çalıştırma, model dışa aktarma, tool calling, web araması, kod yürütme ve yerel API çıkarım uç noktalarını içeriyor
Unsloth Studio varsayılan olarak localhost'a bağlanıyor; --secure Cloudflare HTTPS tüneli kullanıyor ve -H 0.0.0.0 ham portu dışarı açabiliyor, bu yüzden API anahtarı koruması ve --disable-tools kullanımı önemli
Lisans yapısı Apache 2.0 ve AGPL-3.0 olarak ikili; Core paketi Apache 2.0, Studio UI gibi bazı isteğe bağlı bileşenler ise AGPL-3.0 altında

Unsloth neler sunuyor

Unsloth Studio (Beta), modelleri yerelde çalıştırmak ve eğitmek için bir web arayüzü
- Windows, Linux, WSL ve macOS üzerinde çalışıyor
- Metin, ses, embedding ve görsel modelleri destekliyor
Unsloth Core, kod tabanlı sürüm ve Studio'dan farklı gereksinimlere sahip
Başlangıç kurulum komutları işletim sistemine göre veriliyor
- macOS, Linux, WSL: curl -fsSL https://unsloth.ai/install.sh | sh
- Windows: irm https://unsloth.ai/install.ps1 | iex

Çıkarım özellikleri

Model arama/indirme/çalıştırma destekleniyor; hedef formatlar arasında GGUF, LoRA adaptörleri ve safetensors yer alıyor
Modeller kaydedilebiliyor veya dışa aktarılabiliyor; GGUF, 16-bit safetensors ve diğer formatlar destekleniyor
Tool calling, kendi kendini onaran tool calling ve web aramasını destekliyor
Kod yürütme, LLM'in Claude artifacts ve sandbox ortamında kod test etmesini sağlıyor
API çıkarım uç noktaları üzerinden yerel LLM'ler Claude Code ve Codex tools ile birlikte dağıtılıp çalıştırılabiliyor
OpenAI, Anthropic gibi API sağlayıcılarına veya vLLM, Ollama gibi sunuculara bağlanabiliyor
Görseller, ses, PDF, kod, DOCX ve benzeri içeriklerle sohbet edebiliyor
gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1-3 ve Phi-4 ekipleriyle doğrudan iş birliği yaparak model doğruluğunu iyileştiren hataları düzelttiğini belirtiyor

Eğitim özellikleri ve performans

Unsloth, 500'den fazla model için eğitim ve RL desteği sunuyor
- 2 kata kadar daha hızlı eğitim
- %70'e kadar daha az VRAM
- Doğruluk kaybı yok
Özel Triton ve matematik kernel'leri kullanıyor
- PyTorch ile FP8 pekiştirmeli öğrenme iş birliği örneğine bağlantı veriliyor
- Hugging Face ile daha hızlı MoE üzerine yapılan iş birliği örneğine bağlantı veriliyor
Data Recipes, PDF, CSV, DOCX gibi kaynaklardan veri setlerini otomatik oluşturuyor ve görsel düğüm iş akışında veriyi düzenlemeyi sağlıyor
Pekiştirmeli öğrenme için GRPO, FP8 ve benzeri senaryolarda %80'e kadar daha az VRAM kullanımı öne sürülüyor
Desteklenen eğitim yöntemleri arasında full fine-tuning, RL, pretraining, 4-bit, 16-bit ve FP8 training bulunuyor
Gözlemlenebilirlik özellikleriyle eğitim durumu gerçek zamanlı izlenebiliyor; loss, GPU kullanımı ve grafik özelleştirme destekleniyor
Multi-GPU eğitim destekleniyor ve yakında önemli geliştirmeler geleceği belirtiliyor

Kurulum ve çalıştırma koşulları

Unsloth Studio, Windows, Linux, WSL ve macOS üzerinde çalışıyor
- CPU: şu anda Chat ve Data Recipes destekleniyor
- NVIDIA: RTX 30/40/50, Blackwell, DGX Spark, Station vb. üzerinde eğitim destekleniyor
- macOS: eğitim, MLX ve GGUF çıkarımının tamamı destekleniyor
- AMD: Chat ve Data desteği var; eğitim için Unsloth Core kullanılıyor, Studio desteği yakında gelecek
- Multi-GPU: şu anda kullanılabiliyor, büyük bir yükseltme planlanıyor
Studio çalıştırma komutu unsloth studio -p 8888
Docker imajı unsloth/unsloth container'ı olarak sunuluyor
Unsloth Core kurulumu için uv ve Python 3.13 tabanlı örnekler veriliyor
- Linux, WSL: uv venv unsloth_env --python 3.13 ardından uv pip install unsloth --torch-backend=auto
- Windows: Python 3.13 ve astral-sh.uv kurulduktan sonra aynı şekilde kuruluyor
- Windows'ta pip install unsloth, yalnızca PyTorch kuruluysa çalışıyor
AMD ve Intel GPU kurulumu için sırasıyla AMD Guide ve Intel Guide izleniyor

Uzak erişim ve güvenlik koşulları

Varsayılan olarak unsloth studio, yalnızca mevcut makineden erişilebilmesi için 127.0.0.1 adresine bağlanıyor
--secure, yalnızca ücretsiz Cloudflare HTTPS bağlantısı üzerinden sunuluyor
- Studio localhost üzerinde kalıyor
- Tünel başlatılamazsa ham portu açmadan güvenli biçimde kapanıyor
-H 0.0.0.0, ham portu tüm ağ arayüzlerine bağlıyor
- Ağdaki her yerden erişilebilir hale geldiği için yalnızca güvenilir ağlarda kullanılmalı
Web araması, Python ve terminal kod yürütme gibi sunucu tarafı araçlar kullanıcı izinleriyle çalışıyor ve varsayılan olarak etkin
Sunucuya erişimi ve API anahtarı olan herkes o makinede kod çalıştırabileceği için API anahtarını gizli tutmak ve Studio dışarı açıldığında --disable-tools kullanmak gerekiyor

Ücretsiz notebook'lar ve desteklenen model örnekleri

Ücretsiz Unsloth Studio notebook ile web arayüzünde model çalıştırıp eğitim yapılabiliyor
Sunulan notebook örnekleri, model bazında performans ve bellek tasarrufu rakamları da veriyor
- Gemma 4 (E2B): 1,5 kat daha hızlı, %50 daha az bellek
- Qwen3.5 (4B): 1,5 kat daha hızlı, %60 daha az bellek
- gpt-oss (20B): 2 kat daha hızlı, %70 daha az bellek
- gpt-oss (20B): GRPO: 2 kat daha hızlı, %80 daha az bellek
- Llama 3.1 (8B) Alpaca: 2 kat daha hızlı, %70 daha az bellek
- Orpheus-TTS (3B): 1,5 kat daha hızlı, %50 daha az bellek
Kaggle, GRPO, TTS, embedding ve Vision için notebook listeleri ayrıca sunuluyor
Tüm modeller Unsloth Catalog, tüm notebook'lar ise Unsloth notebooks üzerinden görülebiliyor

Son özellikler

Connections: OpenAI, Anthropic gibi API sağlayıcılarına veya vLLM, Ollama gibi sunuculara bağlanma desteği
MTP: Qwen3.6 MTP çalıştırma desteği, donanıma göre MTP ayarlarını otomatik belirleme
Qwen3.6: Qwen3.6-35B-A3B, Unsloth Studio üzerinde eğitilip çalıştırılabiliyor
Gemma 4: Google'ın yeni modeli Unsloth üzerinde doğrudan çalıştırılıp eğitilebiliyor
MoE LLM: DeepSeek, GLM, Qwen ve gpt-oss için 12 kat daha hızlı eğitim ve %35 daha az VRAM iddiası
Embedding models: embedding fine-tuning işlemleri yaklaşık 1,8 ila 3,3 kat daha hızlı
7x longer context RL: yeni batching algoritmasıyla diğer ayarlara kıyasla 7 kat daha uzun context RL
500K Context: 80GB GPU üzerinde 20B model, 500K üzeri context ile eğitilebiliyor
FP8 & Vision RL: tüketici sınıfı GPU'larda FP8 ve VLM GRPO yapılabiliyor

Lisans ve temel aldığı projeler

Unsloth, Apache 2.0 ve AGPL-3.0 şeklinde ikili lisans modeli kullanıyor
- Çekirdek Unsloth paketi Apache 2.0 altında kalıyor
- Unsloth Studio UI gibi bazı isteğe bağlı bileşenler AGPL-3.0 kapsamında
Projede llama.cpp, Hugging Face transformers, TRL, PyTorch, Torch AO ve NVIDIA NeMo DataDesigner anılıyor

1 yorum

GN⁺ 2023-12-03

Hacker News görüşleri

Kodu bizzat çalıştırmadım ama bunun nasıl mümkün olduğunu pek anlayamadım
PyTorch ile QLoRA Llama-2-70B fine-tuning işlemini profillediğinizde çalışma süresinin çoğunu MLP katmanlarındaki büyük matris çarpımları alıyor, attention da buna biraz ekleniyor
Görünüşe göre bu depo da dahili olarak MLP için torch.matmul(), attention için flash_attn_func() çağırıyor; yani HuggingFace ile aynı yolu kullanıyor gibi, bu yüzden nasıl bu kadar daha hızlı olabildiği soru işareti
Birkaç Triton kernel var ama asıl darboğaz olan MLP ya da attention tarafında Triton yok gibi görünüyor
- Bunu optimize edilmiş özel autograd sayesinde yaptıklarını söylüyorlar; autograd türev hesaplamasının temel bileşeni olduğu için kulağa anlamlı geliyor
  Fonksiyon satır içi hale getirme ya da bellek optimizasyonu gibi daha basit iyileştirmelerden de bahsediyorlar; bu alanlarda optimizasyon potansiyeli kesinlikle var
  Yalnız bu avantajların kapalı kaynak “pro” sürümde kalıp kalmayacağını bilmiyorum
  Eğer gerçekten kolay kazanımlar ise açık kaynak implementasyonların yakında bunları alması muhtemel
- Daha ayrıntılı açıklama burada var: https://unsloth.ai/introducing
- Oldukça büyük iddialar ücretli pro sürümünün arkasına kilitlenmiş. Bu da bir kırmızı bayrak gibi duruyor
Buradaki fiyat eleştirilerini şimdilik bir kenara bırakırsak, erken aşama veritabanı şirketlerinde çalışmış satış temsilcileri ya da çözüm mühendisleri bulup binlerce GPU’su olan üst düzey müşterilere hemen cold call yapmaya başlamak iyi olabilir
Bunu satmak için en olası yolun 200-300 bin dolar ve üstü B2B anlaşmalar olduğu görülüyor
İlgilenenler için, tüm optimizasyonları kapsayan yeni bir blog yazısını az önce yayımladık
Tamamen yeniden üretilebilir 59 benchmark da var: https://unsloth.ai/blog/mistral-benchmark
Sonuçlar umut verici görünüyor, ben de bizzat denemek isterim
Performans benchmark’larıyla ilgili bir sorum var: neden 2 GPU ve DDP kullanılan tüm sonuçlar tek GPU’dan daha uzun sürüyor merak ediyorum
Her iki benchmark da tek eğitim epoch’unda aynı miktarda iş yapıyor, bu yüzden böyle ters yönde ölçeklenme beklenmedik
- Bunun iki ana nedeni var
  Birincisi, DDP’nin kendisinin bir overhead’i var. Çünkü her eğitim adımında GPU0 ile GPU1’in gradient’leri GPU0’a gönderip senkronize etmesi gerekiyor
  İkincisi, HuggingFace verimsiz veri aktarımı nedeniyle DDP için pek iyi optimize edilmemiş gibi görünüyor; biz de bunu düzelttik. İlginç şekilde bu, tek GPU’da da daha hızlı oluyor
Bu farklı girişimleri derleyen bir kronoloji olsa güzel olurdu. O kadar çok varyasyon çıktı ki akışı epey önce kaybettim
Kendi bildirilen metrikleri doğrudan doğru kabul etmediğiniz sürece bunun oldukça büyük bir iş olacağı anlaşılıyor
Üstelik bunlar da her zaman donanım ve kullanım alanına göre koşullu
Yeterince faydalı olması için farklı makine konfigürasyonları ve benchmark’lara sahip bir CI/CD hattı ve bunların sonuçlarını makul şekilde aktarma yöntemi gerekirdi
Bunu biri başarırsa gerçekten vazgeçilmez olur
- Ben de tam olarak aynı şeyi düşündüm
  https://colab.research.google.com/drive/1AOuhMVILE06mD-Go7-R... adresinde bir blog yazısı hazırlıyorum; yaptığım tüm değişiklikleri adım adım, süre ölçümleri ve bellek tasarrufuyla birlikte gösterdim
  İlgileniyorsanız tamamlanınca paylaşırım
Bunun PyTorch Labs’in Sam ve llama2 optimizasyonlarıyla karşılaştırması nasıl olur merak ediyorum
https://github.com/pytorch-labs/segment-anything-fast
https://github.com/pytorch-labs/gpt-fast
- Onlar inference için, bizim kodumuz ise eğitim için
  İleride daha hızlı inference da planlıyoruz
  Chillee’nin GPT Fast’ine baktım; gerçekten inanılmaz hızlı
Biraz bağlantılı olarak, P100 ya da P40 kullanmak hâlâ mantıklı mı merak ediyorum
Bir tane almayı düşünüyordum ama Pascal desteği giderek daha fazla projeden kalkıyor gibi görünüyor
- P100’ün Xformers içindeki Flash Attention tarafından desteklenmesi gerekir gibi görünüyor ama Triton yalnızca Compute Capability 7.0 ve üzerini destekliyor, P100 ise 6.0 olduğu için sorun çıkıyor
  Teknik olarak kod çalışabilir ama Triton değişikliklerini kaldıracak şekilde düzenlenmesi gerekir
Oldukça ilginç görünüyor ama neden maksimum hız artışı sağlayan sürümün yalnızca enterprise’a açıldığını anlamadım
Free ve Paid planları arasında performans farkı bırakıp Enterprise’ı destek gibi unsurlarla ayrıştırmak daha mantıklı olurdu gibi geliyor
- İyi bir nokta. Biz de bunu düşündük ve fiyatlandırmayı hâlâ oturtmaya çalışıyoruz; her türlü öneriye açığız
  Bunların hepsi bizim için ilk kez oluyor, o yüzden fiilen deneyerek şekillendiriyoruz
2018 sonrası GPU’lardan söz ediliyor; örneğin neden 1080 Ti üzerinde çalışmadığını merak ediyorum
Donanım özelliklerine kabaca bakınca CUDA 8 ve üstünü destekliyor gibi görünüyor, burada ise 7.5 denmiş
Bunu daha iyi açıklayabilecek biri var mı?
- Ne yazık ki 1080 Ti konusunda Triton ve Xformers CUDA 7.0’ı destekliyor, dolayısıyla OpenAI ve Meta CUDA 6.0’ı desteklemedikçe bizim de desteklememiz zor
  Ana neden, Turing ile birlikte Tensor Cores gelince matris çarpımının Tensor Cores tabanlı hale değişmiş olması
- 1080 Ti’nin CUDA Compute Capability değeri 6.1

Show HN: %80 daha hızlı, %50 daha az bellek kullanımı ve %0 doğruluk kaybıyla Llama fine-tuning

Unsloth neler sunuyor

Çıkarım özellikleri

Eğitim özellikleri ve performans

Kurulum ve çalıştırma koşulları

Uzak erişim ve güvenlik koşulları

Ücretsiz notebook'lar ve desteklenen model örnekleri

Son özellikler

Lisans ve temel aldığı projeler

İlgili okumalar

1 yorum

Hacker News görüşleri