1 puan yazan GN⁺ 14 일 전 | 1 yorum | WhatsApp'ta paylaş
  • I-DLM, difüzyon tabanlı dil modellerinin AR (Autoregressive) modeller düzeyinde kaliteyi ve paralel üretim hızını aynı anda elde ettiği ilk örnektir
  • Introspective Strided Decoding (ISD) sayesinde tek bir ileri geçişte yeni token üretimi ile önceki token’ların doğrulanması birlikte yapılır
  • I-DLM-8B, LLaDA-2.1-mini(16B)’ye kıyasla parametre sayısının yarısıyla AIME-24’te +26 puan, LiveCodeBench-v6’da +15 puan iyileşme sağlar
  • Gated LoRA kullanarak bit düzeyinde kayıpsız (lossless) hızlandırma sunar ve SGLang altyapısıyla tamamen uyumludur
  • Difüzyon dil modellerinin öz tutarlılık eğitimi ve paralel decoding optimizasyonu yoluyla pratik büyük ölçekli dağıtım potansiyeline sahip olduğunu gösterir

Genel Bakış

  • I-DLM (Introspective Diffusion Language Model), mevcut difüzyon dil modellerinin (DLM) paralel token üretme yeteneğini korurken öz tutarlılık (introspective consistency) sorununu çözüp AR model düzeyinde kalite elde eden bir modeldir
  • Introspective Strided Decoding (ISD) ile tek bir ileri geçişte yeni token’lar üretilirken önceki token’lar doğrulanır
  • I-DLM-8B, benzer ölçekteki AR modellerle aynı kaliteye ulaşan ilk DLM’dir; LLaDA-2.1-mini (16B) ile karşılaştırıldığında parametre sayısının yarısıyla AIME-24’te +26 puan, LiveCodeBench-v6’da +15 puan artış sağlar
  • Yüksek eşzamanlılık (C=64) ortamında 2.9~4.1 kat throughput elde eder ve Gated LoRA ile bit düzeyinde kayıpsız (lossless) hızlandırmayı destekler

Introspective Consistency Neden Gerekli?

  • AR modeller tek bir ileri geçişte üretim ve öz doğrulamayı birlikte yaparken, mevcut DLM’ler yalnızca gürültü giderme (denoising) öğrendiği için öz tutarlılık açısından yetersiz kalır
  • Mevcut DLM’lerin üç darboğazı
    • Düşük öz tutarlılık: SDAR 0.699 vs I-DLM 0.984
    • Verimsiz hesaplama: TiDAR yaklaşık 7.8 kat ek yük vs I-DLM yaklaşık 2.5 kat
    • Altyapı uyumsuzluğu: SDAR slope=84 vs I-DLM=549

I-DLM Yöntemi

  • Introspective-Consistency Training

    • Önceden eğitilmiş AR modeli; causal attention, logit shift ve all-masked objective kullanılarak dönüştürülür
  • Introspective Strided Decoding (ISD)

    • Tek bir ileri geçişte N token üretimi ile önceki token doğrulaması birlikte yürütülür
    • Üretim sonuçlarını doğrulamak için p/q acceptance criterion kullanılır
  • AR-Compatible Serving

    • Katı causal attention yapısı sayesinde SGLang altyapısına doğrudan entegre edilebilir
    • Ayrı bir özel altyapı olmadan, AR modellerle aynı serving ortamında çalışır

Performans Sonuçları

  • I-DLM, aynı ölçekteki AR modellerle kalite açısından eşdeğer olan ilk DLM olarak 15 benchmark genelinde mevcut DLM’leri geride bırakır
  • Öne çıkan benchmark sonuçları

    • Bilgi ve muhakeme: ARC-C 96.8, MMLU-Pro 79.7, GPQA-D 62.1
    • Matematik: AIME-24 83.3, AIME-25 80.0, MATH-500 97.6
    • Kod: HumanEval 96.3, MBPP 94.6, LCB-v6 57.1
    • Komut yerine getirme: IFEval 84.7
    • I-DLM-32B, LLaDA-2.1-flash (100B) modelinden daha yüksek performans gösterir

Throughput

  • Batch size 1~64 aralığında LLaDA-2.1-mini ve SDAR’a kıyasla 2.9~4.1 kat daha yüksek throughput elde eder
  • Memory-bound ortamlarda TPF (Token Per Forward) gerçek hız artışını yaklaşık olarak yansıtır
    • I-DLM(N=4, p=0.9): TPF≈2.9, verimlilik 1.22
    • SDAR(N=4, p=0.5): TPF≈1.1, verimlilik 0.31
  • Verimliliğin 1’den büyük olması, paralel decoding’in AR’ye göre toplam hesaplama miktarını azalttığını gösterir

Speedup Factor Explorer

  • Acceptance rate p=0.9, R-ISD LoRA ek yükü α=1.12
  • Hız artışı yaklaşım formülü:

    • Memory-bound: Speedup ≈ TPF = (2+p+...+pN-2)/(2-pN-1)
    • R-ISD (kayıpsız): Speedup ≈ TPF/α
    • Gated LoRA, yalnızca MASK konumlarında etkinleşerek AR çıktısıyla bit düzeyinde aynılığı garanti eder

Dokümantasyon ve Kaynaklar

  • Kurulum, eğitim, çıkarım, serving, kayıpsız R-ISD, modeller ve benchmark’lar için tüm süreç web dokümantasyonunda sunuluyor
  • Installation

    • GitHub deposu klonlandıktan sonra install.sh çalıştırılır
  • Quick Start

    • SGLang sunucusu başlatıldıktan sonra REST API ile chat completion isteği gönderilebilir
  • Training

    • Tam maskeli diziler ile temiz diziler birleştirilerek eğitim yapılır
    • 4.5B token, 8×H100 GPU, 2 epoch, stride müfredatı (N=2→3)
  • Inference & ISD

    • MASK konumlarında yeni token önerilir (q), temiz konumlarda doğrulama yapılır (p)
    • min(1, p(x)/q(x)) acceptance criterion ile AR dağılımı korunur
    • stride N=4 için TPF=2.96, yaklaşık 3 kat hız artışı
  • Serving (SGLang)

    • Paged KV cache**,** CUDA graph capture (+42~76%), Stationary-batch decode loop (+11~21%), Argmax proposal (+11~15%), Paged-only attention kernel (+10~14%)

      • Tüm sistem, temel yapılandırmaya göre 2.1~2.5 kat throughput artışı sağlar
  • Lossless R-ISD

    • Gated LoRA (rank=128) yalnızca MASK konumlarına uygulanır
    • Çıktı, temel AR modeliyle tamamen aynıdır
    • Ek yük yaklaşık 1.12 kattır
  • Model Zoo

    • I-DLM-8B: Qwen3-8B tabanlı, AR kalitesiyle eşdeğer
    • I-DLM-32B: Qwen3-32B tabanlı, LLaDA-2.1-flash(100B)’yi aşar
    • I-DLM-8B-LoRA: Gated LoRA (rank=128) uygulanmış sürüm
  • Benchmarks

    • 15 benchmark’ta (bilgi, matematik, kod, komut yerine getirme) değerlendirilmiştir
    • Yeniden üretim için script’ler sağlanır

Atıf Bilgileri

  • Makale: Introspective Diffusion Language Models (arXiv:2604.11035, 2026)
  • Araştırma kurumları: Together AI, UIUC, Princeton, Stanford, UT Austin
  • Yazarlar: Yifan Yu ve 14 araştırmacı daha

Sonuç

  • I-DLM, difüzyon tabanlı dil modellerinin AR modellerin kalite ve hızını aynı anda elde ettiği ilk örnektir
  • Öz tutarlılık eğitimi ve ISD decoding ile paralel üretimin sınırlarını aşar
  • SGLang uyumluluğu, kayıpsız hızlandırma ve yüksek throughput ölçeklenebilirliği ile pratik dağıtım yapılabileceğini gösterir

1 yorum

 
GN⁺ 14 일 전
Hacker News yorumları
  • Doğru anladıysam bu oldukça şaşırtıcı bir yaklaşım. Qwen autoregressor modeli çeşitli tekniklerle değiştirilerek bir diffuser gibi çalıştırılmış ve mevcut diffuser'lardan çok daha iyi performans göstermiş. LoRA adaptörleri sayesinde çıktılar base modelin dağılımına göre hizalanabiliyor; böylece aynı seed ile bayt düzeyinde aynı sonuç alınırken hız da neredeyse iki katına çıkıyor. Uzmandan çok hevesli bir deneyciyim ama bu gerçekten çok ilginç bir ilerleme gibi görünüyor.

    • Heyecan verici. Bu makale, AR kalitesi ile paralel decoding arasında köprü kurduğunu iddia ediyor. Özellikle kayıpsız LoRA yardımcı modu en etkileyici kısım.
    • Base modelin çıktısını doğrudan üretmeden onunla nasıl karşılaştırma yapılabildiğini anlamıyorum. Öyleyse bu karşılaştırmanın anlamı ne?
    • Aslında bu, diffusion'dan çok multi-token prediction ve speculative decoding'in bir varyantı. Burada bir denoising süreci yok ve hâlâ causal yapı korunuyor. Daha somut anlatmak gerekirse, birden fazla MASK token kullanılarak aynı anda birkaç token tahmin edecek şekilde eğitiliyor ve inference sırasında bunlar paralel üretilerek hız kazanılıyor. Örneğin “what is 2+2” sonuna 5 MASK ekleyip bir seferde sonraki 5 token tahmin ediliyor. Bu sayede matrix-vector yerine matrix-matrix işlemleri yapıldığı için bellek verimliliği artıyor. Ancak k (tahmin edilen token sayısı) arttıkça kalite hızla düşüyor; makalede de k=8'de bozulma başladığı görülüyor. Sonuçta bu, 4-token tahminine dayalı bir self-speculative decoding yaklaşımı; mevcut sınırları tamamen ortadan kaldırmıyor ama ilginç bir eğitim yöntemi. İlgili açıklama önceki yazıda var.
  • Bunun DFlash veya DDTree ile karşılaştırıldığında farkının ne olduğunu merak ediyorum.

  • Geçen yıl kısa bir süreliğine Gemini yanıtlarının diffusion tarzında kademeli olarak belirdiğini görmüştüm. Bu deneysel bir şey miydi yoksa sadece görsel bir efekt miydi bilmiyorum ama ilginçti.

  • Burada metin üretimi için Diffusion ile ciddi biçimde deney yapan biri var mı diye merak ediyorum.

    • Inception Labs bu alan üzerinde epey uzun süredir çalışıyor gibi görünüyor. Hız etkileyici ama ilk token gecikmesi ve çıktı kalitesi hâlâ çözülmesi gereken konular. Hız ve doğruluk biraz daha artarsa düşük maliyetli modellerde ya da asenkron işler için gayet pratik hâle gelebilir gibi duruyor. Ayrıca daha uzun metinleri tek seferde diffüze ederek akıl yürütme yeteneğini zorla artırmaya yönelik deneyler de ilginç olabilir.
    • Şu anda daha çok local LLM tarafında speculative decoding amacıyla araştırılıyor. İlgili içerik için Emergent Mind yazısına bakılabilir.
    • Mercury 2, gecikme ve fiyat açısından UX deneyleri için çok çekici. Eski Gemini Flash Lite'tan çok daha akıcı çalışıyor; bu yüzden otomatik etiketleme veya link üretimi gibi işler için uygun. Ama Haiku 3.5 seviyesinde tool calling performansı hâlâ yok. Girdi uzun, çıktı kısa olan işlerde dLLM çok uygun görünüyor; sekme otomatik tamamlama gibi alanlarda da potansiyeli var.
    • Ben de denedim; sıradan LLM'lerden farklı bir sezgisel yaklaşım gerektiriyor. Bazı problemlere çok iyi uyuyor.
    • Swift ile WeDLM uyguluyorum ama performans henüz yetersiz. Soldan sağa üretiyor ama diffusion sadece sliding window içinde gerçekleşiyor. Pencere yaklaşık 16 token olduğu için fark çok büyük değil.
  • Uzman değilim ama Diffusion ise tüm çıktıyı tek seferde üretmesi gerekmez mi diye düşünüyorum. Ama I-LDM modeli, önceki bağlamı kullanarak sonraki bloğu üretiyor gibi görünüyor.

    • Blok bazlı üretim büyük bir hız artışı sağlıyor. Örneğin ikişer token üretmek bile hızı neredeyse 2 kat artırabiliyor. Blok boyutu büyüdükçe toplam üretim yeterince hızlanıyor ve hepsini tek seferde üretmekten çok da farklı olmuyor. Sonuçta asıl mesele kalite kaybını ne kadar azaltabildiğiniz; bu makale de o kısmı iyi çözmüş gibi görünüyor.
  • Bu modeli kullanmak için sglang'e geçmek gerekip gerekmediğini, yoksa vLLM'nin bunu zaten destekleyip desteklemediğini merak ediyorum.

  • Uzun zamandır blok tabanlı diffusion mimarisinin LLM'lerin geleceği olabileceğini düşünüyordum. Token üretim hızının dinamik olarak ayarlanabildiği ve üretim sırasında kendini düzeltebilen bir yapı — insanın kısa süreli hafızasına benzer bir sistem olabilir. Matematiksel prensiplerini pek bilmiyorum ama umarım gelişim bu yönde olur.

  • Sürüm notlarında şunu gördüm:

    2025-04-12: Kod yayınlandı ve I-DLM-8B, 32B, 8B-LoRA yayımlandı Tarih eski gibi görünüyor; acaba bu eski bir sürüm mü?

    • Sadece bir yıl yazım hatası. Aslında birkaç gün önce HuggingFace'e yüklendiğini doğruladım.
  • Bu modelin hemen şimdi kullanılıp kullanılamadığını merak ediyorum.

  • Bir diffusion modelinin bir blok üretip ardından sonucu iç gözlemle (introspection) değerlendirerek yeniden üretmesi şeklinde iteratif akıl yürütme yapıp yapamayacağını merak ediyorum.

    • Evet. İlk çıktıyı tekrar modele verip onu bir AR akıl yürütme modeli gibi yeniden değerlendirecek şekilde uygulanabilir.