I-DLM - İçgözlemsel Difüzyon Dil Modelleri (Introspective Diffusion Language Models)
(introspective-diffusion.github.io)- I-DLM, difüzyon tabanlı dil modellerinin AR (Autoregressive) modeller düzeyinde kaliteyi ve paralel üretim hızını aynı anda elde ettiği ilk örnektir
- Introspective Strided Decoding (ISD) sayesinde tek bir ileri geçişte yeni token üretimi ile önceki token’ların doğrulanması birlikte yapılır
- I-DLM-8B, LLaDA-2.1-mini(16B)’ye kıyasla parametre sayısının yarısıyla AIME-24’te +26 puan, LiveCodeBench-v6’da +15 puan iyileşme sağlar
- Gated LoRA kullanarak bit düzeyinde kayıpsız (lossless) hızlandırma sunar ve SGLang altyapısıyla tamamen uyumludur
- Difüzyon dil modellerinin öz tutarlılık eğitimi ve paralel decoding optimizasyonu yoluyla pratik büyük ölçekli dağıtım potansiyeline sahip olduğunu gösterir
Genel Bakış
- I-DLM (Introspective Diffusion Language Model), mevcut difüzyon dil modellerinin (DLM) paralel token üretme yeteneğini korurken öz tutarlılık (introspective consistency) sorununu çözüp AR model düzeyinde kalite elde eden bir modeldir
- Introspective Strided Decoding (ISD) ile tek bir ileri geçişte yeni token’lar üretilirken önceki token’lar doğrulanır
- I-DLM-8B, benzer ölçekteki AR modellerle aynı kaliteye ulaşan ilk DLM’dir; LLaDA-2.1-mini (16B) ile karşılaştırıldığında parametre sayısının yarısıyla AIME-24’te +26 puan, LiveCodeBench-v6’da +15 puan artış sağlar
- Yüksek eşzamanlılık (C=64) ortamında 2.9~4.1 kat throughput elde eder ve Gated LoRA ile bit düzeyinde kayıpsız (lossless) hızlandırmayı destekler
Introspective Consistency Neden Gerekli?
- AR modeller tek bir ileri geçişte üretim ve öz doğrulamayı birlikte yaparken, mevcut DLM’ler yalnızca gürültü giderme (denoising) öğrendiği için öz tutarlılık açısından yetersiz kalır
- Mevcut DLM’lerin üç darboğazı
- Düşük öz tutarlılık: SDAR 0.699 vs I-DLM 0.984
- Verimsiz hesaplama: TiDAR yaklaşık 7.8 kat ek yük vs I-DLM yaklaşık 2.5 kat
- Altyapı uyumsuzluğu: SDAR slope=84 vs I-DLM=549
I-DLM Yöntemi
-
Introspective-Consistency Training
- Önceden eğitilmiş AR modeli; causal attention, logit shift ve all-masked objective kullanılarak dönüştürülür
-
Introspective Strided Decoding (ISD)
- Tek bir ileri geçişte N token üretimi ile önceki token doğrulaması birlikte yürütülür
- Üretim sonuçlarını doğrulamak için p/q acceptance criterion kullanılır
-
AR-Compatible Serving
- Katı causal attention yapısı sayesinde SGLang altyapısına doğrudan entegre edilebilir
- Ayrı bir özel altyapı olmadan, AR modellerle aynı serving ortamında çalışır
Performans Sonuçları
- I-DLM, aynı ölçekteki AR modellerle kalite açısından eşdeğer olan ilk DLM olarak 15 benchmark genelinde mevcut DLM’leri geride bırakır
-
Öne çıkan benchmark sonuçları
- Bilgi ve muhakeme: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
- Matematik: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
- Kod: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
- Komut yerine getirme: IFEval 84.7
- I-DLM-32B, LLaDA-2.1-flash (100B) modelinden daha yüksek performans gösterir
Throughput
- Batch size 1~64 aralığında LLaDA-2.1-mini ve SDAR’a kıyasla 2.9~4.1 kat daha yüksek throughput elde eder
- Memory-bound ortamlarda TPF (Token Per Forward) gerçek hız artışını yaklaşık olarak yansıtır
- I-DLM(N=4, p=0.9): TPF≈2.9, verimlilik 1.22
- SDAR(N=4, p=0.5): TPF≈1.1, verimlilik 0.31
- Verimliliğin 1’den büyük olması, paralel decoding’in AR’ye göre toplam hesaplama miktarını azalttığını gösterir
Speedup Factor Explorer
- Acceptance rate p=0.9, R-ISD LoRA ek yükü α=1.12
-
Hız artışı yaklaşım formülü:
- Memory-bound:
Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1) - R-ISD (kayıpsız):
Speedup ≈ TPF/α - Gated LoRA, yalnızca MASK konumlarında etkinleşerek AR çıktısıyla bit düzeyinde aynılığı garanti eder
- Memory-bound:
Dokümantasyon ve Kaynaklar
- Kurulum, eğitim, çıkarım, serving, kayıpsız R-ISD, modeller ve benchmark’lar için tüm süreç web dokümantasyonunda sunuluyor
-
Installation
- GitHub deposu klonlandıktan sonra
install.shçalıştırılır
- GitHub deposu klonlandıktan sonra
-
Quick Start
- SGLang sunucusu başlatıldıktan sonra REST API ile chat completion isteği gönderilebilir
-
Training
- Tam maskeli diziler ile temiz diziler birleştirilerek eğitim yapılır
- 4.5B token, 8×H100 GPU, 2 epoch, stride müfredatı (N=2→3)
-
Inference & ISD
- MASK konumlarında yeni token önerilir (q), temiz konumlarda doğrulama yapılır (p)
min(1, p(x)/q(x))acceptance criterion ile AR dağılımı korunur- stride N=4 için TPF=2.96, yaklaşık 3 kat hız artışı
-
Serving (SGLang)
-
Paged KV cache**,** CUDA graph capture (+42~76%), Stationary-batch decode loop (+11~21%), Argmax proposal (+11~15%), Paged-only attention kernel (+10~14%)
- Tüm sistem, temel yapılandırmaya göre 2.1~2.5 kat throughput artışı sağlar
-
-
Lossless R-ISD
- Gated LoRA (rank=128) yalnızca MASK konumlarına uygulanır
- Çıktı, temel AR modeliyle tamamen aynıdır
- Ek yük yaklaşık 1.12 kattır
-
Model Zoo
- I-DLM-8B: Qwen3-8B tabanlı, AR kalitesiyle eşdeğer
- I-DLM-32B: Qwen3-32B tabanlı, LLaDA-2.1-flash(100B)’yi aşar
- I-DLM-8B-LoRA: Gated LoRA (rank=128) uygulanmış sürüm
-
Benchmarks
- 15 benchmark’ta (bilgi, matematik, kod, komut yerine getirme) değerlendirilmiştir
- Yeniden üretim için script’ler sağlanır
Atıf Bilgileri
- Makale: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
- Araştırma kurumları: Together AI, UIUC, Princeton, Stanford, UT Austin
- Yazarlar: Yifan Yu ve 14 araştırmacı daha
Sonuç
- I-DLM, difüzyon tabanlı dil modellerinin AR modellerin kalite ve hızını aynı anda elde ettiği ilk örnektir
- Öz tutarlılık eğitimi ve ISD decoding ile paralel üretimin sınırlarını aşar
- SGLang uyumluluğu, kayıpsız hızlandırma ve yüksek throughput ölçeklenebilirliği ile pratik dağıtım yapılabileceğini gösterir
1 yorum
Hacker News yorumları
Doğru anladıysam bu oldukça şaşırtıcı bir yaklaşım. Qwen autoregressor modeli çeşitli tekniklerle değiştirilerek bir diffuser gibi çalıştırılmış ve mevcut diffuser'lardan çok daha iyi performans göstermiş. LoRA adaptörleri sayesinde çıktılar base modelin dağılımına göre hizalanabiliyor; böylece aynı seed ile bayt düzeyinde aynı sonuç alınırken hız da neredeyse iki katına çıkıyor. Uzmandan çok hevesli bir deneyciyim ama bu gerçekten çok ilginç bir ilerleme gibi görünüyor.
Bunun DFlash veya DDTree ile karşılaştırıldığında farkının ne olduğunu merak ediyorum.
Geçen yıl kısa bir süreliğine Gemini yanıtlarının diffusion tarzında kademeli olarak belirdiğini görmüştüm. Bu deneysel bir şey miydi yoksa sadece görsel bir efekt miydi bilmiyorum ama ilginçti.
Burada metin üretimi için Diffusion ile ciddi biçimde deney yapan biri var mı diye merak ediyorum.
Uzman değilim ama Diffusion ise tüm çıktıyı tek seferde üretmesi gerekmez mi diye düşünüyorum. Ama I-LDM modeli, önceki bağlamı kullanarak sonraki bloğu üretiyor gibi görünüyor.
Bu modeli kullanmak için sglang'e geçmek gerekip gerekmediğini, yoksa vLLM'nin bunu zaten destekleyip desteklemediğini merak ediyorum.
Uzun zamandır blok tabanlı diffusion mimarisinin LLM'lerin geleceği olabileceğini düşünüyordum. Token üretim hızının dinamik olarak ayarlanabildiği ve üretim sırasında kendini düzeltebilen bir yapı — insanın kısa süreli hafızasına benzer bir sistem olabilir. Matematiksel prensiplerini pek bilmiyorum ama umarım gelişim bu yönde olur.
Sürüm notlarında şunu gördüm:
Bu modelin hemen şimdi kullanılıp kullanılamadığını merak ediyorum.
Bir diffusion modelinin bir blok üretip ardından sonucu iç gözlemle (introspection) değerlendirerek yeniden üretmesi şeklinde iteratif akıl yürütme yapıp yapamayacağını merak ediyorum.