Show HN: %80 daha hızlı, %50 daha az bellek kullanımı ve %0 doğruluk kaybıyla Llama fine-tuning
(github.com/unslothai)- Unsloth, modelleri yerelde çalıştırıp eğitmek için Unsloth Studio ile kod tabanlı Unsloth Core sunuyor; Windows, Linux, WSL ve macOS üzerinde metin, ses, embedding ve görsel modellerle çalışıyor
- Eğitim özellikleri, 500'den fazla model için fine-tuning, RL ve ön eğitim desteği sunuyor; temel performans hedefleri olarak 2 kata kadar daha hızlı eğitim, %70'e kadar daha az VRAM ve doğruluk kaybı olmaması öne çıkıyor
- Çıkarım özellikleri; GGUF, LoRA adaptörleri, safetensors model arama/indirme/çalıştırma, model dışa aktarma, tool calling, web araması, kod yürütme ve yerel API çıkarım uç noktalarını içeriyor
- Unsloth Studio varsayılan olarak localhost'a bağlanıyor;
--secureCloudflare HTTPS tüneli kullanıyor ve-H 0.0.0.0ham portu dışarı açabiliyor, bu yüzden API anahtarı koruması ve--disable-toolskullanımı önemli - Lisans yapısı Apache 2.0 ve AGPL-3.0 olarak ikili; Core paketi Apache 2.0, Studio UI gibi bazı isteğe bağlı bileşenler ise AGPL-3.0 altında
Unsloth neler sunuyor
- Unsloth Studio (Beta), modelleri yerelde çalıştırmak ve eğitmek için bir web arayüzü
- Unsloth Core, kod tabanlı sürüm ve Studio'dan farklı gereksinimlere sahip
- Başlangıç kurulum komutları işletim sistemine göre veriliyor
- macOS, Linux, WSL:
curl -fsSL https://unsloth.ai/install.sh | sh - Windows:
irm https://unsloth.ai/install.ps1 | iex
- macOS, Linux, WSL:
Çıkarım özellikleri
- Model arama/indirme/çalıştırma destekleniyor; hedef formatlar arasında GGUF, LoRA adaptörleri ve safetensors yer alıyor
- Modeller kaydedilebiliyor veya dışa aktarılabiliyor; GGUF, 16-bit safetensors ve diğer formatlar destekleniyor
- Tool calling, kendi kendini onaran tool calling ve web aramasını destekliyor
- Kod yürütme, LLM'in Claude artifacts ve sandbox ortamında kod test etmesini sağlıyor
- API çıkarım uç noktaları üzerinden yerel LLM'ler Claude Code ve Codex tools ile birlikte dağıtılıp çalıştırılabiliyor
- OpenAI, Anthropic gibi API sağlayıcılarına veya vLLM, Ollama gibi sunuculara bağlanabiliyor
- Görseller, ses, PDF, kod, DOCX ve benzeri içeriklerle sohbet edebiliyor
- gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1-3 ve Phi-4 ekipleriyle doğrudan iş birliği yaparak model doğruluğunu iyileştiren hataları düzelttiğini belirtiyor
Eğitim özellikleri ve performans
- Unsloth, 500'den fazla model için eğitim ve RL desteği sunuyor
- 2 kata kadar daha hızlı eğitim
- %70'e kadar daha az VRAM
- Doğruluk kaybı yok
- Özel Triton ve matematik kernel'leri kullanıyor
- PyTorch ile FP8 pekiştirmeli öğrenme iş birliği örneğine bağlantı veriliyor
- Hugging Face ile daha hızlı MoE üzerine yapılan iş birliği örneğine bağlantı veriliyor
- Data Recipes, PDF, CSV, DOCX gibi kaynaklardan veri setlerini otomatik oluşturuyor ve görsel düğüm iş akışında veriyi düzenlemeyi sağlıyor
- Pekiştirmeli öğrenme için GRPO, FP8 ve benzeri senaryolarda %80'e kadar daha az VRAM kullanımı öne sürülüyor
- Desteklenen eğitim yöntemleri arasında full fine-tuning, RL, pretraining, 4-bit, 16-bit ve FP8 training bulunuyor
- Gözlemlenebilirlik özellikleriyle eğitim durumu gerçek zamanlı izlenebiliyor; loss, GPU kullanımı ve grafik özelleştirme destekleniyor
- Multi-GPU eğitim destekleniyor ve yakında önemli geliştirmeler geleceği belirtiliyor
Kurulum ve çalıştırma koşulları
- Unsloth Studio, Windows, Linux, WSL ve macOS üzerinde çalışıyor
- CPU: şu anda Chat ve Data Recipes destekleniyor
- NVIDIA: RTX 30/40/50, Blackwell, DGX Spark, Station vb. üzerinde eğitim destekleniyor
- macOS: eğitim, MLX ve GGUF çıkarımının tamamı destekleniyor
- AMD: Chat ve Data desteği var; eğitim için Unsloth Core kullanılıyor, Studio desteği yakında gelecek
- Multi-GPU: şu anda kullanılabiliyor, büyük bir yükseltme planlanıyor
- Studio çalıştırma komutu
unsloth studio -p 8888 - Docker imajı unsloth/unsloth container'ı olarak sunuluyor
- Unsloth Core kurulumu için
uvve Python 3.13 tabanlı örnekler veriliyor- Linux, WSL:
uv venv unsloth_env --python 3.13ardındanuv pip install unsloth --torch-backend=auto - Windows: Python 3.13 ve
astral-sh.uvkurulduktan sonra aynı şekilde kuruluyor - Windows'ta
pip install unsloth, yalnızca PyTorch kuruluysa çalışıyor
- Linux, WSL:
- AMD ve Intel GPU kurulumu için sırasıyla AMD Guide ve Intel Guide izleniyor
Uzak erişim ve güvenlik koşulları
- Varsayılan olarak
unsloth studio, yalnızca mevcut makineden erişilebilmesi için 127.0.0.1 adresine bağlanıyor --secure, yalnızca ücretsiz Cloudflare HTTPS bağlantısı üzerinden sunuluyor- Studio localhost üzerinde kalıyor
- Tünel başlatılamazsa ham portu açmadan güvenli biçimde kapanıyor
-H 0.0.0.0, ham portu tüm ağ arayüzlerine bağlıyor- Ağdaki her yerden erişilebilir hale geldiği için yalnızca güvenilir ağlarda kullanılmalı
- Web araması, Python ve terminal kod yürütme gibi sunucu tarafı araçlar kullanıcı izinleriyle çalışıyor ve varsayılan olarak etkin
- Sunucuya erişimi ve API anahtarı olan herkes o makinede kod çalıştırabileceği için API anahtarını gizli tutmak ve Studio dışarı açıldığında
--disable-toolskullanmak gerekiyor
Ücretsiz notebook'lar ve desteklenen model örnekleri
- Ücretsiz Unsloth Studio notebook ile web arayüzünde model çalıştırıp eğitim yapılabiliyor
- Sunulan notebook örnekleri, model bazında performans ve bellek tasarrufu rakamları da veriyor
- Gemma 4 (E2B): 1,5 kat daha hızlı, %50 daha az bellek
- Qwen3.5 (4B): 1,5 kat daha hızlı, %60 daha az bellek
- gpt-oss (20B): 2 kat daha hızlı, %70 daha az bellek
- gpt-oss (20B): GRPO: 2 kat daha hızlı, %80 daha az bellek
- Llama 3.1 (8B) Alpaca: 2 kat daha hızlı, %70 daha az bellek
- Orpheus-TTS (3B): 1,5 kat daha hızlı, %50 daha az bellek
- Kaggle, GRPO, TTS, embedding ve Vision için notebook listeleri ayrıca sunuluyor
- Tüm modeller Unsloth Catalog, tüm notebook'lar ise Unsloth notebooks üzerinden görülebiliyor
Son özellikler
- Connections: OpenAI, Anthropic gibi API sağlayıcılarına veya vLLM, Ollama gibi sunuculara bağlanma desteği
- MTP: Qwen3.6 MTP çalıştırma desteği, donanıma göre MTP ayarlarını otomatik belirleme
- Qwen3.6: Qwen3.6-35B-A3B, Unsloth Studio üzerinde eğitilip çalıştırılabiliyor
- Gemma 4: Google'ın yeni modeli Unsloth üzerinde doğrudan çalıştırılıp eğitilebiliyor
- MoE LLM: DeepSeek, GLM, Qwen ve gpt-oss için 12 kat daha hızlı eğitim ve %35 daha az VRAM iddiası
- Embedding models: embedding fine-tuning işlemleri yaklaşık 1,8 ila 3,3 kat daha hızlı
- 7x longer context RL: yeni batching algoritmasıyla diğer ayarlara kıyasla 7 kat daha uzun context RL
- 500K Context: 80GB GPU üzerinde 20B model, 500K üzeri context ile eğitilebiliyor
- FP8 & Vision RL: tüketici sınıfı GPU'larda FP8 ve VLM GRPO yapılabiliyor
Lisans ve temel aldığı projeler
- Unsloth, Apache 2.0 ve AGPL-3.0 şeklinde ikili lisans modeli kullanıyor
- Çekirdek Unsloth paketi Apache 2.0 altında kalıyor
- Unsloth Studio UI gibi bazı isteğe bağlı bileşenler AGPL-3.0 kapsamında
- Projede llama.cpp, Hugging Face transformers, TRL, PyTorch, Torch AO ve NVIDIA NeMo DataDesigner anılıyor
1 yorum
Hacker News görüşleri
Kodu bizzat çalıştırmadım ama bunun nasıl mümkün olduğunu pek anlayamadım
PyTorch ile QLoRA Llama-2-70B fine-tuning işlemini profillediğinizde çalışma süresinin çoğunu MLP katmanlarındaki büyük matris çarpımları alıyor, attention da buna biraz ekleniyor
Görünüşe göre bu depo da dahili olarak MLP için
torch.matmul(), attention içinflash_attn_func()çağırıyor; yani HuggingFace ile aynı yolu kullanıyor gibi, bu yüzden nasıl bu kadar daha hızlı olabildiği soru işaretiBirkaç Triton kernel var ama asıl darboğaz olan MLP ya da attention tarafında Triton yok gibi görünüyor
Fonksiyon satır içi hale getirme ya da bellek optimizasyonu gibi daha basit iyileştirmelerden de bahsediyorlar; bu alanlarda optimizasyon potansiyeli kesinlikle var
Yalnız bu avantajların kapalı kaynak “pro” sürümde kalıp kalmayacağını bilmiyorum
Eğer gerçekten kolay kazanımlar ise açık kaynak implementasyonların yakında bunları alması muhtemel
Buradaki fiyat eleştirilerini şimdilik bir kenara bırakırsak, erken aşama veritabanı şirketlerinde çalışmış satış temsilcileri ya da çözüm mühendisleri bulup binlerce GPU’su olan üst düzey müşterilere hemen cold call yapmaya başlamak iyi olabilir
Bunu satmak için en olası yolun 200-300 bin dolar ve üstü B2B anlaşmalar olduğu görülüyor
İlgilenenler için, tüm optimizasyonları kapsayan yeni bir blog yazısını az önce yayımladık
Tamamen yeniden üretilebilir 59 benchmark da var: https://unsloth.ai/blog/mistral-benchmark
Sonuçlar umut verici görünüyor, ben de bizzat denemek isterim
Performans benchmark’larıyla ilgili bir sorum var: neden 2 GPU ve DDP kullanılan tüm sonuçlar tek GPU’dan daha uzun sürüyor merak ediyorum
Her iki benchmark da tek eğitim epoch’unda aynı miktarda iş yapıyor, bu yüzden böyle ters yönde ölçeklenme beklenmedik
Birincisi, DDP’nin kendisinin bir overhead’i var. Çünkü her eğitim adımında GPU0 ile GPU1’in gradient’leri GPU0’a gönderip senkronize etmesi gerekiyor
İkincisi, HuggingFace verimsiz veri aktarımı nedeniyle DDP için pek iyi optimize edilmemiş gibi görünüyor; biz de bunu düzelttik. İlginç şekilde bu, tek GPU’da da daha hızlı oluyor
Bu farklı girişimleri derleyen bir kronoloji olsa güzel olurdu. O kadar çok varyasyon çıktı ki akışı epey önce kaybettim
Kendi bildirilen metrikleri doğrudan doğru kabul etmediğiniz sürece bunun oldukça büyük bir iş olacağı anlaşılıyor
Üstelik bunlar da her zaman donanım ve kullanım alanına göre koşullu
Yeterince faydalı olması için farklı makine konfigürasyonları ve benchmark’lara sahip bir CI/CD hattı ve bunların sonuçlarını makul şekilde aktarma yöntemi gerekirdi
Bunu biri başarırsa gerçekten vazgeçilmez olur
https://colab.research.google.com/drive/1AOuhMVILE06mD-Go7-R... adresinde bir blog yazısı hazırlıyorum; yaptığım tüm değişiklikleri adım adım, süre ölçümleri ve bellek tasarrufuyla birlikte gösterdim
İlgileniyorsanız tamamlanınca paylaşırım
Bunun PyTorch Labs’in Sam ve llama2 optimizasyonlarıyla karşılaştırması nasıl olur merak ediyorum
https://github.com/pytorch-labs/segment-anything-fast
https://github.com/pytorch-labs/gpt-fast
İleride daha hızlı inference da planlıyoruz
Chillee’nin GPT Fast’ine baktım; gerçekten inanılmaz hızlı
Biraz bağlantılı olarak, P100 ya da P40 kullanmak hâlâ mantıklı mı merak ediyorum
Bir tane almayı düşünüyordum ama Pascal desteği giderek daha fazla projeden kalkıyor gibi görünüyor
Teknik olarak kod çalışabilir ama Triton değişikliklerini kaldıracak şekilde düzenlenmesi gerekir
Oldukça ilginç görünüyor ama neden maksimum hız artışı sağlayan sürümün yalnızca enterprise’a açıldığını anlamadım
Free ve Paid planları arasında performans farkı bırakıp Enterprise’ı destek gibi unsurlarla ayrıştırmak daha mantıklı olurdu gibi geliyor
Bunların hepsi bizim için ilk kez oluyor, o yüzden fiilen deneyerek şekillendiriyoruz
2018 sonrası GPU’lardan söz ediliyor; örneğin neden 1080 Ti üzerinde çalışmadığını merak ediyorum
Donanım özelliklerine kabaca bakınca CUDA 8 ve üstünü destekliyor gibi görünüyor, burada ise 7.5 denmiş
Bunu daha iyi açıklayabilecek biri var mı?
Ana neden, Turing ile birlikte Tensor Cores gelince matris çarpımının Tensor Cores tabanlı hale değişmiş olması