1 puan yazan GN⁺ 2024-11-05 | 1 yorum | WhatsApp'ta paylaş
  • LLM’lerin gerçekten ‘unutup unutmadığı’

    • Büyük dil modelleri (LLM), çok büyük metin veri kümeleriyle eğitilir ve etkileyici metin üretme yetenekleri sergiler
    • Ancak eğitim verilerinin hassas doğası nedeniyle istenmeyen davranışları öğrenebilirler
    • Makine ‘unutma’, bu sorunları çözmek için modelin faydasını mümkün olduğunca korurken belirli bilgileri kaldırmayı amaçlayan bir yöntemdir
  • Sorun ve araştırmanın içeriği

    • Mevcut ‘unutma’ yöntemlerinin bilgiyi gerçekten unutturup unutturmadığı, yoksa sadece gizleyip gizlemediğine dair araştırmalar yetersizdir
    • Bu çalışma, kuantizasyon uygulandığında ‘unutulmuş’ bilginin geri getirilebildiğini ortaya koyuyor
    • Farklı kuantizasyon teknikleri kullanılarak çeşitli hassasiyet seviyelerinde deneyler yürütülüyor
  • Deney sonuçları

    • Fayda kısıtı içeren ‘unutma’ yöntemlerinde model, tam hassasiyette hedeflenen unutulmuş bilginin ortalama %21’ini koruyor
    • 4 bit kuantizasyondan sonra bu oran %83’e yükseliyor
  • Önerilen strateji

    • Bu olguyu açıklamak için teorik bir açıklama sunuluyor
    • Sorunu hafifletmek için kuantizasyona dayanıklı bir ‘unutma’ stratejisi öneriliyor
  • Araştırmanın önemi

    • LLM’lerdeki ‘unutma’ yöntemlerinin etkinliğini değerlendirme ve iyileştirme açısından önemli bir katkı sağlıyor
    • Kuantizasyonun ‘unutma’ üzerindeki etkisini anlamaya yardımcı oluyor

1 yorum

 
GN⁺ 2024-11-05
Hacker News yorumu
  • Model kuantizasyonunun "unutturma" yöntemlerini geçersiz kıldığına dair araştırma sonuçları var. "Unutturma" yöntemleri, modelin belirli gerçekleri unutması için ağırlıkları güncellemeyi içeriyor. Bu yöntemler çoğunlukla telif hakkı sorunlarını çözmek için kullanılıyor.
    • Kuantizasyonun "unutturma"yı geçersiz kılması, bilgi kuramı açısından bilginin hâlâ model ağırlıklarında kaldığı anlamına geliyor.
    • Yapay zeka furyasını 10-15 yıl önceki 3D yazıcı furyasıyla karşılaştırıyor ve yapay zekanın da benzer bir kader yaşayacağını öngörüyor.
    • 32 bit modelden bilgi kaldırılmış olsa da 4 bite sıkıştırıldığında bilginin yeniden ortaya çıkması, bilgi kuramı açısından beklenmedik bir durum.
    • "Unutturma" için, modelin kullanışlılığını bozmadan küçük bir öğrenme oranı ve düzenlileştirme kullanmak yaygın. Bu yüzden hedef LLM ile "unutturulmuş" LLM'in ağırlıkları birbirine çok yakın oluyor.
    • Temel eğitim sırasında istenmeyen öğrenmeyi engellemek ya da temel modeldeki "unutturma"nın kuantizasyona duyarlı olması gerekiyor.
    • Kuantize edilmiş LLM kullanıldığında modelin daha az sansürlü olduğuna dair bir bulgu elde edilmemiş.
    • "Unutturulmuş" davranışı güçlendirmede abliteration tekniği daha etkili.
    • "Unutturma" aslında potansiyel "öğrenme uzayı" içinde örnekleme olasılığını azaltmak ve kuantizasyon da bu örneklemenin etkisini azaltmak anlamına geliyor.
    • "Unutturma", LLM'in istenmeyen bilgiyi baskılamayı öğrenmesi; kuantizasyon ise bu baskıyı bozması demek.
    • Model "unutturma" kavramını ilk kez duyduğunu ve federated learning'in model "unutturma"yı nasıl önlediğine dair bir yanıt beklediğini söylüyor.