2 puan yazan GN⁺ 2023-12-03 | 1 yorum | WhatsApp'ta paylaş
  • Unsloth, modelleri yerelde çalıştırıp eğitmek için Unsloth Studio ile kod tabanlı Unsloth Core sunuyor; Windows, Linux, WSL ve macOS üzerinde metin, ses, embedding ve görsel modellerle çalışıyor
  • Eğitim özellikleri, 500'den fazla model için fine-tuning, RL ve ön eğitim desteği sunuyor; temel performans hedefleri olarak 2 kata kadar daha hızlı eğitim, %70'e kadar daha az VRAM ve doğruluk kaybı olmaması öne çıkıyor
  • Çıkarım özellikleri; GGUF, LoRA adaptörleri, safetensors model arama/indirme/çalıştırma, model dışa aktarma, tool calling, web araması, kod yürütme ve yerel API çıkarım uç noktalarını içeriyor
  • Unsloth Studio varsayılan olarak localhost'a bağlanıyor; --secure Cloudflare HTTPS tüneli kullanıyor ve -H 0.0.0.0 ham portu dışarı açabiliyor, bu yüzden API anahtarı koruması ve --disable-tools kullanımı önemli
  • Lisans yapısı Apache 2.0 ve AGPL-3.0 olarak ikili; Core paketi Apache 2.0, Studio UI gibi bazı isteğe bağlı bileşenler ise AGPL-3.0 altında

Unsloth neler sunuyor

  • Unsloth Studio (Beta), modelleri yerelde çalıştırmak ve eğitmek için bir web arayüzü
    • Windows, Linux, WSL ve macOS üzerinde çalışıyor
    • Metin, ses, embedding ve görsel modelleri destekliyor
  • Unsloth Core, kod tabanlı sürüm ve Studio'dan farklı gereksinimlere sahip
  • Başlangıç kurulum komutları işletim sistemine göre veriliyor

Çıkarım özellikleri

  • Model arama/indirme/çalıştırma destekleniyor; hedef formatlar arasında GGUF, LoRA adaptörleri ve safetensors yer alıyor
  • Modeller kaydedilebiliyor veya dışa aktarılabiliyor; GGUF, 16-bit safetensors ve diğer formatlar destekleniyor
  • Tool calling, kendi kendini onaran tool calling ve web aramasını destekliyor
  • Kod yürütme, LLM'in Claude artifacts ve sandbox ortamında kod test etmesini sağlıyor
  • API çıkarım uç noktaları üzerinden yerel LLM'ler Claude Code ve Codex tools ile birlikte dağıtılıp çalıştırılabiliyor
  • OpenAI, Anthropic gibi API sağlayıcılarına veya vLLM, Ollama gibi sunuculara bağlanabiliyor
  • Görseller, ses, PDF, kod, DOCX ve benzeri içeriklerle sohbet edebiliyor
  • gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1-3 ve Phi-4 ekipleriyle doğrudan iş birliği yaparak model doğruluğunu iyileştiren hataları düzelttiğini belirtiyor

Eğitim özellikleri ve performans

  • Unsloth, 500'den fazla model için eğitim ve RL desteği sunuyor
    • 2 kata kadar daha hızlı eğitim
    • %70'e kadar daha az VRAM
    • Doğruluk kaybı yok
  • Özel Triton ve matematik kernel'leri kullanıyor
    • PyTorch ile FP8 pekiştirmeli öğrenme iş birliği örneğine bağlantı veriliyor
    • Hugging Face ile daha hızlı MoE üzerine yapılan iş birliği örneğine bağlantı veriliyor
  • Data Recipes, PDF, CSV, DOCX gibi kaynaklardan veri setlerini otomatik oluşturuyor ve görsel düğüm iş akışında veriyi düzenlemeyi sağlıyor
  • Pekiştirmeli öğrenme için GRPO, FP8 ve benzeri senaryolarda %80'e kadar daha az VRAM kullanımı öne sürülüyor
  • Desteklenen eğitim yöntemleri arasında full fine-tuning, RL, pretraining, 4-bit, 16-bit ve FP8 training bulunuyor
  • Gözlemlenebilirlik özellikleriyle eğitim durumu gerçek zamanlı izlenebiliyor; loss, GPU kullanımı ve grafik özelleştirme destekleniyor
  • Multi-GPU eğitim destekleniyor ve yakında önemli geliştirmeler geleceği belirtiliyor

Kurulum ve çalıştırma koşulları

  • Unsloth Studio, Windows, Linux, WSL ve macOS üzerinde çalışıyor
    • CPU: şu anda Chat ve Data Recipes destekleniyor
    • NVIDIA: RTX 30/40/50, Blackwell, DGX Spark, Station vb. üzerinde eğitim destekleniyor
    • macOS: eğitim, MLX ve GGUF çıkarımının tamamı destekleniyor
    • AMD: Chat ve Data desteği var; eğitim için Unsloth Core kullanılıyor, Studio desteği yakında gelecek
    • Multi-GPU: şu anda kullanılabiliyor, büyük bir yükseltme planlanıyor
  • Studio çalıştırma komutu unsloth studio -p 8888
  • Docker imajı unsloth/unsloth container'ı olarak sunuluyor
  • Unsloth Core kurulumu için uv ve Python 3.13 tabanlı örnekler veriliyor
    • Linux, WSL: uv venv unsloth_env --python 3.13 ardından uv pip install unsloth --torch-backend=auto
    • Windows: Python 3.13 ve astral-sh.uv kurulduktan sonra aynı şekilde kuruluyor
    • Windows'ta pip install unsloth, yalnızca PyTorch kuruluysa çalışıyor
  • AMD ve Intel GPU kurulumu için sırasıyla AMD Guide ve Intel Guide izleniyor

Uzak erişim ve güvenlik koşulları

  • Varsayılan olarak unsloth studio, yalnızca mevcut makineden erişilebilmesi için 127.0.0.1 adresine bağlanıyor
  • --secure, yalnızca ücretsiz Cloudflare HTTPS bağlantısı üzerinden sunuluyor
    • Studio localhost üzerinde kalıyor
    • Tünel başlatılamazsa ham portu açmadan güvenli biçimde kapanıyor
  • -H 0.0.0.0, ham portu tüm ağ arayüzlerine bağlıyor
    • Ağdaki her yerden erişilebilir hale geldiği için yalnızca güvenilir ağlarda kullanılmalı
  • Web araması, Python ve terminal kod yürütme gibi sunucu tarafı araçlar kullanıcı izinleriyle çalışıyor ve varsayılan olarak etkin
  • Sunucuya erişimi ve API anahtarı olan herkes o makinede kod çalıştırabileceği için API anahtarını gizli tutmak ve Studio dışarı açıldığında --disable-tools kullanmak gerekiyor

Ücretsiz notebook'lar ve desteklenen model örnekleri

  • Ücretsiz Unsloth Studio notebook ile web arayüzünde model çalıştırıp eğitim yapılabiliyor
  • Sunulan notebook örnekleri, model bazında performans ve bellek tasarrufu rakamları da veriyor
    • Gemma 4 (E2B): 1,5 kat daha hızlı, %50 daha az bellek
    • Qwen3.5 (4B): 1,5 kat daha hızlı, %60 daha az bellek
    • gpt-oss (20B): 2 kat daha hızlı, %70 daha az bellek
    • gpt-oss (20B): GRPO: 2 kat daha hızlı, %80 daha az bellek
    • Llama 3.1 (8B) Alpaca: 2 kat daha hızlı, %70 daha az bellek
    • Orpheus-TTS (3B): 1,5 kat daha hızlı, %50 daha az bellek
  • Kaggle, GRPO, TTS, embedding ve Vision için notebook listeleri ayrıca sunuluyor
  • Tüm modeller Unsloth Catalog, tüm notebook'lar ise Unsloth notebooks üzerinden görülebiliyor

Son özellikler

  • Connections: OpenAI, Anthropic gibi API sağlayıcılarına veya vLLM, Ollama gibi sunuculara bağlanma desteği
  • MTP: Qwen3.6 MTP çalıştırma desteği, donanıma göre MTP ayarlarını otomatik belirleme
  • Qwen3.6: Qwen3.6-35B-A3B, Unsloth Studio üzerinde eğitilip çalıştırılabiliyor
  • Gemma 4: Google'ın yeni modeli Unsloth üzerinde doğrudan çalıştırılıp eğitilebiliyor
  • MoE LLM: DeepSeek, GLM, Qwen ve gpt-oss için 12 kat daha hızlı eğitim ve %35 daha az VRAM iddiası
  • Embedding models: embedding fine-tuning işlemleri yaklaşık 1,8 ila 3,3 kat daha hızlı
  • 7x longer context RL: yeni batching algoritmasıyla diğer ayarlara kıyasla 7 kat daha uzun context RL
  • 500K Context: 80GB GPU üzerinde 20B model, 500K üzeri context ile eğitilebiliyor
  • FP8 & Vision RL: tüketici sınıfı GPU'larda FP8 ve VLM GRPO yapılabiliyor

Lisans ve temel aldığı projeler

  • Unsloth, Apache 2.0 ve AGPL-3.0 şeklinde ikili lisans modeli kullanıyor
    • Çekirdek Unsloth paketi Apache 2.0 altında kalıyor
    • Unsloth Studio UI gibi bazı isteğe bağlı bileşenler AGPL-3.0 kapsamında
  • Projede llama.cpp, Hugging Face transformers, TRL, PyTorch, Torch AO ve NVIDIA NeMo DataDesigner anılıyor

1 yorum

 
GN⁺ 2023-12-03
Hacker News görüşleri
  • Kodu bizzat çalıştırmadım ama bunun nasıl mümkün olduğunu pek anlayamadım
    PyTorch ile QLoRA Llama-2-70B fine-tuning işlemini profillediğinizde çalışma süresinin çoğunu MLP katmanlarındaki büyük matris çarpımları alıyor, attention da buna biraz ekleniyor
    Görünüşe göre bu depo da dahili olarak MLP için torch.matmul(), attention için flash_attn_func() çağırıyor; yani HuggingFace ile aynı yolu kullanıyor gibi, bu yüzden nasıl bu kadar daha hızlı olabildiği soru işareti
    Birkaç Triton kernel var ama asıl darboğaz olan MLP ya da attention tarafında Triton yok gibi görünüyor

    • Bunu optimize edilmiş özel autograd sayesinde yaptıklarını söylüyorlar; autograd türev hesaplamasının temel bileşeni olduğu için kulağa anlamlı geliyor
      Fonksiyon satır içi hale getirme ya da bellek optimizasyonu gibi daha basit iyileştirmelerden de bahsediyorlar; bu alanlarda optimizasyon potansiyeli kesinlikle var
      Yalnız bu avantajların kapalı kaynak “pro” sürümde kalıp kalmayacağını bilmiyorum
      Eğer gerçekten kolay kazanımlar ise açık kaynak implementasyonların yakında bunları alması muhtemel
    • Daha ayrıntılı açıklama burada var: https://unsloth.ai/introducing
    • Oldukça büyük iddialar ücretli pro sürümünün arkasına kilitlenmiş. Bu da bir kırmızı bayrak gibi duruyor
  • Buradaki fiyat eleştirilerini şimdilik bir kenara bırakırsak, erken aşama veritabanı şirketlerinde çalışmış satış temsilcileri ya da çözüm mühendisleri bulup binlerce GPU’su olan üst düzey müşterilere hemen cold call yapmaya başlamak iyi olabilir
    Bunu satmak için en olası yolun 200-300 bin dolar ve üstü B2B anlaşmalar olduğu görülüyor

  • İlgilenenler için, tüm optimizasyonları kapsayan yeni bir blog yazısını az önce yayımladık
    Tamamen yeniden üretilebilir 59 benchmark da var: https://unsloth.ai/blog/mistral-benchmark

  • Sonuçlar umut verici görünüyor, ben de bizzat denemek isterim
    Performans benchmark’larıyla ilgili bir sorum var: neden 2 GPU ve DDP kullanılan tüm sonuçlar tek GPU’dan daha uzun sürüyor merak ediyorum
    Her iki benchmark da tek eğitim epoch’unda aynı miktarda iş yapıyor, bu yüzden böyle ters yönde ölçeklenme beklenmedik

    • Bunun iki ana nedeni var
      Birincisi, DDP’nin kendisinin bir overhead’i var. Çünkü her eğitim adımında GPU0 ile GPU1’in gradient’leri GPU0’a gönderip senkronize etmesi gerekiyor
      İkincisi, HuggingFace verimsiz veri aktarımı nedeniyle DDP için pek iyi optimize edilmemiş gibi görünüyor; biz de bunu düzelttik. İlginç şekilde bu, tek GPU’da da daha hızlı oluyor
  • Bu farklı girişimleri derleyen bir kronoloji olsa güzel olurdu. O kadar çok varyasyon çıktı ki akışı epey önce kaybettim
    Kendi bildirilen metrikleri doğrudan doğru kabul etmediğiniz sürece bunun oldukça büyük bir iş olacağı anlaşılıyor
    Üstelik bunlar da her zaman donanım ve kullanım alanına göre koşullu
    Yeterince faydalı olması için farklı makine konfigürasyonları ve benchmark’lara sahip bir CI/CD hattı ve bunların sonuçlarını makul şekilde aktarma yöntemi gerekirdi
    Bunu biri başarırsa gerçekten vazgeçilmez olur

  • Bunun PyTorch Labs’in Sam ve llama2 optimizasyonlarıyla karşılaştırması nasıl olur merak ediyorum
    https://github.com/pytorch-labs/segment-anything-fast
    https://github.com/pytorch-labs/gpt-fast

    • Onlar inference için, bizim kodumuz ise eğitim için
      İleride daha hızlı inference da planlıyoruz
      Chillee’nin GPT Fast’ine baktım; gerçekten inanılmaz hızlı
  • Biraz bağlantılı olarak, P100 ya da P40 kullanmak hâlâ mantıklı mı merak ediyorum
    Bir tane almayı düşünüyordum ama Pascal desteği giderek daha fazla projeden kalkıyor gibi görünüyor

    • P100’ün Xformers içindeki Flash Attention tarafından desteklenmesi gerekir gibi görünüyor ama Triton yalnızca Compute Capability 7.0 ve üzerini destekliyor, P100 ise 6.0 olduğu için sorun çıkıyor
      Teknik olarak kod çalışabilir ama Triton değişikliklerini kaldıracak şekilde düzenlenmesi gerekir
  • Oldukça ilginç görünüyor ama neden maksimum hız artışı sağlayan sürümün yalnızca enterprise’a açıldığını anlamadım
    Free ve Paid planları arasında performans farkı bırakıp Enterprise’ı destek gibi unsurlarla ayrıştırmak daha mantıklı olurdu gibi geliyor

    • İyi bir nokta. Biz de bunu düşündük ve fiyatlandırmayı hâlâ oturtmaya çalışıyoruz; her türlü öneriye açığız
      Bunların hepsi bizim için ilk kez oluyor, o yüzden fiilen deneyerek şekillendiriyoruz
  • 2018 sonrası GPU’lardan söz ediliyor; örneğin neden 1080 Ti üzerinde çalışmadığını merak ediyorum
    Donanım özelliklerine kabaca bakınca CUDA 8 ve üstünü destekliyor gibi görünüyor, burada ise 7.5 denmiş
    Bunu daha iyi açıklayabilecek biri var mı?

    • Ne yazık ki 1080 Ti konusunda Triton ve Xformers CUDA 7.0’ı destekliyor, dolayısıyla OpenAI ve Meta CUDA 6.0’ı desteklemedikçe bizim de desteklememiz zor
      Ana neden, Turing ile birlikte Tensor Cores gelince matris çarpımının Tensor Cores tabanlı hale değişmiş olması
    • 1080 Ti’nin CUDA Compute Capability değeri 6.1