- BERT ve RoBERTa gibi maskeli dil modelleri de bir metin difüzyon modeli olarak yorumlanabilir.
- Mevcut autoregressive (ör. GPT) modellerinden farklı olarak, blok bazlı üretim ve kademeli geri kazanım yaklaşımının uygulanabilirliği gösterildi.
- Maskeleme oranını adım adım ayarlayarak eğitildiğinde RoBERTa'nın da doğal metin üretimi yapabildiği deneysel olarak doğrulandı.
- Mevcut yapı değiştirilmeden yalnızca eğitim hedefi ayarlanarak üretim yeteneği sağlanabildi.
- GPT-2 ile karşılaştırıldığında, RoBERTa tabanlı bir difüzyon modeli de belirli bir düzeyde tutarlı metin üretimi sonuçları üretebiliyor.
Genel Bakış
Google DeepMind tarafından duyurulan Gemini Diffusion, mevcut GPT serilerinden farklı olarak metni bir kerede blok bazında üreten bir difüzyona dayalı dil modelidir. Bu yaklaşım, rastgele gürültüyü kademeli olarak azaltarak metin üreten bir yöntemdir. İlgili makaleye (Large Language Diffusion Models) bakıldığında ayrık dil difüzyonunun **maskeli dil modelleme (MLM)**in bir genellemesi olduğu görülüyor. Yani bu fikirle BERT tabanlı modellerin de metin üretiminde kullanılabileceği deneysel olarak araştırıldı.
Not: Daha sonra yayımlanan DiffusionBERT makalesi, benzer fikirleri daha sıkı bir şekilde test ediyor.
Transformer'ın kısa geçmişi
2017’de ilk kez önerilen Transformer, encoder-decoder mimarisindeydi. 2018’de encoder (BERT: çift yönlü, maskeli geri kazanım odaklı) ve decoder (GPT: otomatik/oto-regresif, sıralı tahmin odaklı) ayrılarak her biri için özelleşmiş model aileleri ortaya çıktı.
- Sadece encoder (BERT ailesi)
- Tüm bağlamı alıp belirli bir kısmı
<MASK>ile gizleyip kalanıyla geri kazanım yapma - Cümle temsili, sınıflandırma gibi görevlerde güçlü performans
- Tüm bağlamı alıp belirli bir kısmı
- Sadece decoder (GPT ailesi)
- Verilen sırada bir sonraki tokeni tahmin etme
- Üretim, özetleme, çeviri gibi görevlerde öne çıkma
BERT önce sınıflandırma gibi işlerde doğrudan kullanıldı, ancak zamanla GPT serisi üretim yetenekleriyle daha geniş kullanım alanları kazandı.
Ayrık dil difüzyon modelleri
Difüzyon modelleri ilk olarak görüntü üretiminde popüler hale geldi.
Görüntülerde:
- İleri süreç: temiz görüntüye kademeli olarak Gaussian gürültüsü eklenir ve tamamen gürültülü bir duruma ulaşılırsın
- Ters süreç: derin öğrenme modelinin yardımıyla ardışık olarak gürültüyü azaltarak orijinal veri geri kazanılır
Metne uygulanmasında en basit yöntem maskelime dayalı gürültü sürecidir.
- Ön süreç (maskleme)
- t=0'da orijinal metin, adımlar ilerledikçe bazı tokenlar rastgele
<MASK>ile değiştirilir - Son adımda tüm tokenlar
<MASK>ile doldurulur
- t=0'da orijinal metin, adımlar ilerledikçe bazı tokenlar rastgele
- Ters süreç (gürültüsüzleştirme)
- Transformer encoder, verilen maskeleme ayarına göre orijinal tokenları geri kazanmayı öğrenir
- Düşük maskeleme oranları daha kolay, oran arttıkça geri kazanım zorlaşır
- Yüksek maskeleme oranından başlayıp oranı düşürerek tekrarlanır ve tüm dizi üretilir
Bu difüzyon çerçevesinde model, farklı maskeleme oranlarına göre gürültüsüzleştirme kayıplarını adım adım toplayarak eğitilir. BERT’in maskeli geri kazanım hedefi temelde bir metin difüzyonunun bir parçasıdır. Maskeleme oranı zamanlaması ve tekrarlı gürültüsüzleştirme birleştirildiğinde, BERT’in hedefi doğal dil üretim prosedürüne genişletilebilir.
RoBERTa Diffusion deneyi
RoBERTa, 2019’da yayımlanan BERT’in hiperparametre ve veri genişletmesiyle, biraz daha sade bir eğitim hedefine (yalnızca MLM) sahip bir versiyonudur.
Deneyde HuggingFace transformers ve datasets kütüphaneleri kullanılarak RoBERTa’nın temel ağırlıkları, tokenizer’ı ve Trainer’ı alındı.
WikiText veri seti ile aşağıdaki süreçte ince ayar yapıldı:
- Maskeleme için örneklenen 10 adımlı difüzyon takviminden (mask_probs: 1.0~0.1) biri her batch için seçildi ve maskleme uygulandı
- Özel
diffusion_collatorile maskeleme olasılığı belirlendikten sonra, her token için olasılıksal olarak<MASK>uygulanır - Promt bağlamını korumak adına ilk 16 token her zaman korunur
Veri maskeleme (özel collator):
- Her örnek token seti padding sonrasında, maskeleme olasılığı rastgele seçilir
- İlk 16 token hariç geri kalan tokenlara olasılıksal olarak
<MASK>uygulanır - Maskelenmiş veri ve karşılık gelen doğruluk etiketleri döndürülür
Üretim (inference):
- 256 token uzunluğunda dizi girişi verilir; ilk 16 token prompt, kalanlar
<MASK> - Her adımda modelin tahmin ettiği tokenlar örneklenerek doldurulur ve ardından belirli bir oranda yeniden maskeleme yapılır
- Maskeleme oranı kademeli olarak azaltılarak döngü tekrar edilir, son adımda tümü geri kazanılır
Örnek üretim sonuçları:
- Prompt ve doğal bir takip metni içererek oldukça tutarlı metinlerin gerçekten üretildiği görülür
- Bazı anomaliler, WikiText veri ön işleme formatından kaynaklanır (ör.
@-@tire işareti)
GPT-2 ile karşılaştırma
- GPT-2, biraz daha hızlı ve tutarlılık olarak biraz daha yüksek olsa da RoBERTa Diffusion da beklenenin üstünde performans gösterir (artarak iyileştirilebilir potansiyel var)
- Yeni AR-Diffusion, Skip-Step Diffusion yöntemleri ve optimizasyonlarla kalite/hız daha da artabilir
Sonuç
- RoBERTa gibi maskeli dil modelleri, maskeleme oranını adım adım değiştirerek eğitildiğinde doğal dil üretim motoruna dönüşebilir
<MASK>tokenleriyle metni kademeli olarak bozma/onarım mantığıyla yalnızca öğrenme hedefi değiştirilerek tamamen üreten bir modele dönüştürme imkânı doğrulanmıştır- Yapının kendisi değişmeden, yalnızca eğitim hedefinin uyarlanması ile üretim yeteneği sağlanabilir
- Sonuç olarak BERT ailesi modelleri aslında temelde tek bir metin difüzyon modeliyle örtüşür
Henüz yorum yok.