Qwen3-TTS çıkarım hızını 5 kata kadar artıran açık kaynak Triton kernel fusion

(github.com/newgrit1004)

22 puan yazan newgrit1004 2026-03-23 | Henüz yorum yok. | WhatsApp'ta paylaş

Merhaba, Qwen3-TTS 1.7B modelindeki çıkarım darboğazını çözüp yaklaşık 5 kat hız artışı elde eden bir Triton kernel fusion kütüphanesi geliştirip paylaşıyorum.

1. Neden yaptım? (Arka plan)
TTS sesini gerçek iş akışlarında kullananlar bilir; Qwen3-TTS gibi olasılıksal (stochastic) modeller her seferinde farklı üretim sonuçları verir (entonasyon, ton vb.).

Bu yüzden pratikte, birden fazla ses adayını hızlıca üretip içlerinden en doğal olanı seçen çoklu üretim stratejisi zorunlu hale geliyor. Ancak mevcut hızlarla iş hattı fazla yavaş kaldığı için optimizasyona bizzat giriştim. Bu optimizasyon sayesinde, eskiden 1 tane üretilebilen sürede artık 5 aday üretilebiliyor.

2. Nasıl yaptım? (Claude Code + yoğun testler)
Açık konuşmak gerekirse, OpenAI Triton'un güçlü bir kernel optimizasyon kütüphanesi olduğunu biliyordum ama daha önce doğrudan kernel kodu yazmamıştım. Bu yüzden bu projedeki kernel kodunun büyük kısmı Claude Code yardımıyla yazıldı.

Bunun yerine, Triton uygulama deneyimimin sınırlı olmasını telafi etmek ve modelin güvenilirliğini %100 garanti etmek için kod yazmaktan çok testleri gerçekten çok sıkı yürütmeye tüm enerjimi verdim.

Orijinal modelle matematiksel olarak tamamen aynı sonuçları garanti etmek için 90 birim test yazdım.
Ana checkpoint katmanlarında ve nihai çıktının tamamında Cosine Similarity > 0.997 elde ettim.

3. Mühendislik noktaları ve sonuçlar
LinkedIn'in Liger Kernel çalışmasından ilham alarak, çıkarım sırasında darboğaz oluşturan 4 işlemi (RMSNorm, M-RoPE, Norm+Residual, SwiGLU) Triton kernel'leriyle fuse ettim.

[Performans kıyaslaması - RTX 5090 baz alınarak]

Base (PyTorch): 3,902 ms
Hybrid (Faster+Triton): 919 ms (~4.7x hız artışı)
(※ Hybrid modu, CUDA Graph tabanlı faster-qwen3-tts üzerine bu Triton kernel fusion optimizasyonunun eklenmiş halidir.)

4. Kapanış
Şu anda testleri yalnızca kişisel ekipmanım olan RTX 5090 ortamında tamamlamış durumdayım. Sunucu sınıfı (A100, H100) ya da RTX 4090 gibi başka donanımlar kullananlar deneyip GitHub veya yorumlar üzerinden geri bildirim paylaşırsa gerçekten çok yardımcı olur.

Uzun yazıyı okuduğunuz için teşekkürler!

GitHub: https://github.com/newgrit1004/qwen3-tts-triton
PyPI: https://pypi.org/project/qwen3-tts-triton/

Qwen3-TTS çıkarım hızını 5 kata kadar artıran açık kaynak Triton kernel fusion

İlgili okumalar

Henüz yorum yok.