6 puan yazan newgrit1004 2026-04-05 | Henüz yorum yok. | WhatsApp'ta paylaş

Merhaba. Geçen sefer Qwen3-TTS Triton çekirdek optimizasyonu projesine gösterdiğiniz ilginin verdiği güçle, ikinci açık kaynak projemi hazırlayıp paylaşıyorum.

HuggingFace üzerinde aylık 3,6 milyondan fazla indirme alan popüler görüntü üretim modeli Z-Image S3-DiT (6.15B) için çıkarımı %20–30 hızlandıran bir ComfyUI özel düğümü hazırladım.

1. Neden yaptım? (arka plan ve özellikler)
Şu anda Z-Image’ı hızlandırmak için Nunchaku (SVDQuant) adlı bir araç var, ancak bu yalnızca Z-Image 'Turbo' modelini destekliyor. Base model için çekirdek seviyesinde bir hızlandırma çözümüne ihtiyaç olduğunu düşündüm.

Ayrıca kullanıcı açısından onlarca GB boyutundaki nicemlenmiş modelleri (GGUF vb.) yeniden indirmek büyük bir yük. Bu yüzden halihazırda kullandığınız BF16 safetensors modelini çalışma anında anında nicemleyerek (On-the-fly Quantization) olduğu gibi kullanabilmenizi sağladım.

  • ComfyUI Manager üzerinden tek tıkla kurulabiliyor veya pip install ile kolayca yüklenebiliyor. (zahmetli özel CUDA derlemeleri ya da sürüm eşleştirme stresi yok)
  • Mevcut iş akışına yalnızca 1 düğüm eklemek yeterli; LoRA ve ControlNet ile tamamen uyumlu.

2. Performans kıyaslamaları (RTX 5090, 30 adım bazında)

  • T2I Baseline: 18.9s → Triton + INT8: 15.3s (1.24x hız artışı)
  • LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s (1.30x hız artışı)
  • VRAM tasarrufu: toplam 23GB → 19.5GB (yaklaşık 3.5GB azalma)

3. Kalite korunumunu gözünüzle doğrudan doğrulayın (Cherry-picking yok)
Geçen TTS projesinde sonuçları doğrulamak için ses dosyalarını doğrudan indirip dinlemeniz gerekiyordu; bu biraz zahmetliydi. Bu kez kalite karşılaştırması web üzerinde anında yapılabiliyor.

Performans karşılaştırması için hiçbir şekilde cherry-picking yapılmadı. Çekirdek füzyonu ve nicemleme özellikleri gereği piksel düzeyinde küçük farklar olabilir, ancak genel kompozisyon ve detay kalitesi son derece iyi korunuyor. Aşağıdaki bağlantıdan tüm senaryoların karşılaştırma görsellerini doğrudan inceleyebilirsiniz.

4. Mühendislik noktaları
Bu çekirdek kodunda da Claude Code yardımını yoğun şekilde kullandım; bunun karşılığında ben tüm enerjimi titiz kıyaslama ve kalite doğrulamasına verdim.

  • 6 Triton füzyon çekirdeği uygulandı (RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D)
  • W8A8 + Hadamard Rotation (NeurIPS 2024 QuaRot / ConvRot tabanlı) ile aykırı değerler dağıtılarak nicemleme kalitesi mümkün olduğunca korundu

5. Önceki proje için yaklaşan güncelleme
Ek olarak, daha önce yayımladığım qwen3-tts-triton projesini de yakında ComfyUI özel düğümü olarak taşıyacağım. (v0.2.0 güncellemesi: Triton+PyTorch hibriti ile telaffuz bozulmasının azaltılması, TurboQuant uygulanması, Cohere değerlendirme aracının değiştirilmesi vb.)

Şu anda kendi kişisel ortamımda (RTX 5090) testleri tamamladım. Bunu 30/40 serisi GPU’larda ya da farklı ortamlarda deneyip GitHub issue veya yorumlarla geri bildirim verirseniz gerçekten çok yardımcı olur. Teşekkürler!

Henüz yorum yok.

Henüz yorum yok.