BERT aslında yalnızca tek bir metin difüzyon adımıdır

(nathan.rs)

3 puan yazan GN⁺ 2025-10-21 | Henüz yorum yok. | WhatsApp'ta paylaş

BERT ve RoBERTa gibi maskeli dil modelleri de bir metin difüzyon modeli olarak yorumlanabilir.
Mevcut autoregressive (ör. GPT) modellerinden farklı olarak, blok bazlı üretim ve kademeli geri kazanım yaklaşımının uygulanabilirliği gösterildi.
Maskeleme oranını adım adım ayarlayarak eğitildiğinde RoBERTa'nın da doğal metin üretimi yapabildiği deneysel olarak doğrulandı.
Mevcut yapı değiştirilmeden yalnızca eğitim hedefi ayarlanarak üretim yeteneği sağlanabildi.
GPT-2 ile karşılaştırıldığında, RoBERTa tabanlı bir difüzyon modeli de belirli bir düzeyde tutarlı metin üretimi sonuçları üretebiliyor.

Genel Bakış

Google DeepMind tarafından duyurulan Gemini Diffusion, mevcut GPT serilerinden farklı olarak metni bir kerede blok bazında üreten bir difüzyona dayalı dil modelidir. Bu yaklaşım, rastgele gürültüyü kademeli olarak azaltarak metin üreten bir yöntemdir. İlgili makaleye (Large Language Diffusion Models) bakıldığında ayrık dil difüzyonunun **maskeli dil modelleme (MLM)**in bir genellemesi olduğu görülüyor. Yani bu fikirle BERT tabanlı modellerin de metin üretiminde kullanılabileceği deneysel olarak araştırıldı.

Not: Daha sonra yayımlanan DiffusionBERT makalesi, benzer fikirleri daha sıkı bir şekilde test ediyor.

Transformer'ın kısa geçmişi

2017’de ilk kez önerilen Transformer, encoder-decoder mimarisindeydi. 2018’de encoder (BERT: çift yönlü, maskeli geri kazanım odaklı) ve decoder (GPT: otomatik/oto-regresif, sıralı tahmin odaklı) ayrılarak her biri için özelleşmiş model aileleri ortaya çıktı.

Sadece encoder (BERT ailesi)
- Tüm bağlamı alıp belirli bir kısmı <MASK> ile gizleyip kalanıyla geri kazanım yapma
- Cümle temsili, sınıflandırma gibi görevlerde güçlü performans
Sadece decoder (GPT ailesi)
- Verilen sırada bir sonraki tokeni tahmin etme
- Üretim, özetleme, çeviri gibi görevlerde öne çıkma

BERT önce sınıflandırma gibi işlerde doğrudan kullanıldı, ancak zamanla GPT serisi üretim yetenekleriyle daha geniş kullanım alanları kazandı.

Ayrık dil difüzyon modelleri

Difüzyon modelleri ilk olarak görüntü üretiminde popüler hale geldi.
Görüntülerde:

İleri süreç: temiz görüntüye kademeli olarak Gaussian gürültüsü eklenir ve tamamen gürültülü bir duruma ulaşılırsın
Ters süreç: derin öğrenme modelinin yardımıyla ardışık olarak gürültüyü azaltarak orijinal veri geri kazanılır

Metne uygulanmasında en basit yöntem maskelime dayalı gürültü sürecidir.

Ön süreç (maskleme)
- t=0'da orijinal metin, adımlar ilerledikçe bazı tokenlar rastgele <MASK> ile değiştirilir
- Son adımda tüm tokenlar <MASK> ile doldurulur
Ters süreç (gürültüsüzleştirme)
- Transformer encoder, verilen maskeleme ayarına göre orijinal tokenları geri kazanmayı öğrenir
- Düşük maskeleme oranları daha kolay, oran arttıkça geri kazanım zorlaşır
- Yüksek maskeleme oranından başlayıp oranı düşürerek tekrarlanır ve tüm dizi üretilir

Bu difüzyon çerçevesinde model, farklı maskeleme oranlarına göre gürültüsüzleştirme kayıplarını adım adım toplayarak eğitilir. BERT’in maskeli geri kazanım hedefi temelde bir metin difüzyonunun bir parçasıdır. Maskeleme oranı zamanlaması ve tekrarlı gürültüsüzleştirme birleştirildiğinde, BERT’in hedefi doğal dil üretim prosedürüne genişletilebilir.

RoBERTa Diffusion deneyi

RoBERTa, 2019’da yayımlanan BERT’in hiperparametre ve veri genişletmesiyle, biraz daha sade bir eğitim hedefine (yalnızca MLM) sahip bir versiyonudur.
Deneyde HuggingFace transformers ve datasets kütüphaneleri kullanılarak RoBERTa’nın temel ağırlıkları, tokenizer’ı ve Trainer’ı alındı.
WikiText veri seti ile aşağıdaki süreçte ince ayar yapıldı:

Maskeleme için örneklenen 10 adımlı difüzyon takviminden (mask_probs: 1.0~0.1) biri her batch için seçildi ve maskleme uygulandı
Özel diffusion_collator ile maskeleme olasılığı belirlendikten sonra, her token için olasılıksal olarak <MASK> uygulanır
Promt bağlamını korumak adına ilk 16 token her zaman korunur

Veri maskeleme (özel collator):

Her örnek token seti padding sonrasında, maskeleme olasılığı rastgele seçilir
İlk 16 token hariç geri kalan tokenlara olasılıksal olarak <MASK> uygulanır
Maskelenmiş veri ve karşılık gelen doğruluk etiketleri döndürülür

Üretim (inference):

256 token uzunluğunda dizi girişi verilir; ilk 16 token prompt, kalanlar <MASK>
Her adımda modelin tahmin ettiği tokenlar örneklenerek doldurulur ve ardından belirli bir oranda yeniden maskeleme yapılır
Maskeleme oranı kademeli olarak azaltılarak döngü tekrar edilir, son adımda tümü geri kazanılır

Örnek üretim sonuçları:

Prompt ve doğal bir takip metni içererek oldukça tutarlı metinlerin gerçekten üretildiği görülür
Bazı anomaliler, WikiText veri ön işleme formatından kaynaklanır (ör. @-@ tire işareti)

GPT-2 ile karşılaştırma

GPT-2, biraz daha hızlı ve tutarlılık olarak biraz daha yüksek olsa da RoBERTa Diffusion da beklenenin üstünde performans gösterir (artarak iyileştirilebilir potansiyel var)
Yeni AR-Diffusion, Skip-Step Diffusion yöntemleri ve optimizasyonlarla kalite/hız daha da artabilir

Sonuç

RoBERTa gibi maskeli dil modelleri, maskeleme oranını adım adım değiştirerek eğitildiğinde doğal dil üretim motoruna dönüşebilir
<MASK> tokenleriyle metni kademeli olarak bozma/onarım mantığıyla yalnızca öğrenme hedefi değiştirilerek tamamen üreten bir modele dönüştürme imkânı doğrulanmıştır
Yapının kendisi değişmeden, yalnızca eğitim hedefinin uyarlanması ile üretim yeteneği sağlanabilir
Sonuç olarak BERT ailesi modelleri aslında temelde tek bir metin difüzyon modeliyle örtüşür