Heretic - Dil modelleri için "otomatik sansür kaldırma" aracı

(github.com/p-e-w)

8 puan yazan GN⁺ 2025-11-17 | 2 yorum | WhatsApp'ta paylaş

Heretic, transformer tabanlı dil modellerindeki sansürü ("güvenlik hizalamasını") otomatik olarak kaldıran ve ek eğitim olmadan çalışan bir araçtır
Direction ablation tekniğini Optuna tabanlı TPE optimizasyonu ile birleştirerek, reddetme yanıtlarını en aza indirirken modelin özgün zeka kaybını da minimumda tutar
Yalnızca varsayılan ayarlarla bile uzmanların manuel olarak ablate ettiği modellerle benzer kaliteye ulaşır; ayrıca düşük KL divergence sayesinde özgün performansı koruma düzeyi yüksektir
Çoğu dense model ile bazı MoE modellerini destekler ve komut satırında tek satırla çalıştırılabilen tam otomatik bir süreç sunar
Model güvenlik filtrelerini kaldırırken özgün kaliteyi koruyabilen bir teknik olarak, dil modeli araştırmaları ve deney ortamlarında kullanım potansiyeli yüksektir

Heretic genel bakış

Heretic, transformer dil modellerindeki sansürü (safety alignment) kaldıran otomatik bir araçtır
- Ek eğitim veya manuel ayar gerektirmeden çalışır
- Directional ablation (abliteration) tekniğini Optuna'nın TPE tabanlı parametre optimizasyonu ile birleştirir
Amaç, reddetme (refusal) sayısını azaltırken KL divergence'ı minimumda tutarak modelin özgün yeteneklerini mümkün olduğunca korumaktır
Transformer iç yapısını anlamaya gerek kalmadan kullanılabilir; yalnızca komut satırından çalıştırarak modelin sansürünü kaldırmak mümkündür

Performans karşılaştırması

Heretic, yalnızca otomatik çalıştırmayla manuel olarak ablate edilmiş modellere benzer sonuçlar elde eder
- Örnek: google/gemma-3-12b-it modeli için
  - Orijinal: refusal 97/100, KL divergence 0
  - Manuel ablate edilmiş modeller: refusal 3/100, KL divergence 0.45~1.04
  - Heretic sonucu: refusal 3/100, KL divergence 0.16
Reklam
Aynı refusal bastırma seviyesini korurken orijinal modele verilen zararı en aza indirir
Değerler PyTorch 2.8 ve RTX 5090 ortamında ölçülmüştür; platforma göre farklılık gösterebilir

Desteklenen modeller ve dağıtım

Çoğu dense model, bazı multimodal modeller ve çeşitli MoE mimarileri desteklenir
SSM/hybrid modeller, heterojen katmanlar ve özel attention yapıları henüz desteklenmemektedir
Heretic ile sansürü kaldırılmış model koleksiyonu, Hugging Face üzerindeki p-e-w/the-bestiary koleksiyonunda görülebilir

Kullanım

Python 3.10+ ve PyTorch 2.2+ ortamı gerekir
Kurulum ve çalıştırma örneği
```
pip install heretic-llm  
heretic Qwen/Qwen3-4B-Instruct-2507  
```
- Yalnızca model adını değiştirerek başka modellere de uygulanabilir
Varsayılan ayarlarla tamamen otomatik çalışır; ayrıntılı yapılandırma için --help veya config.default.toml kullanılabilir
Çalıştırma sırasında sistem benchmark'ı üzerinden en uygun batch size otomatik belirlenir
- Örnek: RTX 3090 üzerinde Llama-3.1-8B modelinin sansürünü kaldırmak yaklaşık 45 dakika sürer
Reklam
İşlem tamamlandıktan sonra modeli kaydetme, Hugging Face'e yükleme ve sohbet testi gibi seçenekler sunulur

Çalışma prensibi

Heretic, directional ablation'ın parametreleştirilmiş bir varyasyonunu uygular
- Her transformer katmanındaki attention out-projection ve MLP down-projection matrislerini bulur ve bunlara refusal direction için ortogonalleştirme uygular
- Refusal direction, “zararlı(harmful)” ve “zararsız(harmless)” prompt'ların ilk token residual ortalamaları arasındaki fark kullanılarak hesaplanır
Ablation süreci optimize edilebilir çeşitli parametrelerle kontrol edilir
- direction_index: katman bazında refusal direction kullanım durumu
- max_weight, max_weight_position, min_weight, min_weight_distance: katman bazında ablation ağırlık kernel'inin biçimini ve konumunu tanımlar

Başlıca teknik yenilikler

Ağırlık kernel'i biçimindeki esnekliği artırarak kalite-uyumluluk dengesini iyileştirir
Refusal direction index'ini kayan noktalı değer olarak ele alır; komşu vektörler arasında doğrusal enterpolasyon yaparak daha geniş bir yön uzayını taramayı mümkün kılar
Bileşen bazında ayrı ablation parametreleri uygular; MLP ile attention etkilerindeki farkı dikkate alarak performansı optimize eder

İlgili önceki çalışmalar

Kamuya açık benzer uygulama örnekleri
- AutoAbliteration, abliterator.py, wassname’s Abliterator, ErisForge, Removing refusals with HF Transformers, deccp
Heretic, bu kodları yeniden kullanmadan sıfırdan bağımsız olarak yazılmıştır

Referanslar ve etkiler

Arditi et al. (2024) orijinal makalesi
Maxime Labonne'un abliteration ile ilgili blog yazısı ve model kartı
Jim Lai'nin “projected abliteration” açıklama yazısı

Lisans

GNU Affero General Public License v3 veya üzeri uygulanır
Serbestçe değiştirilebilir ve yeniden dağıtılabilir, ancak garanti yoktur
Katkıda bulunanlar, kodun aynı lisansla yayımlanmasını kabul etmelidir

2 yorum

xguru 2025-11-17

Abliteration ile LLM’lerde sansürü kısıtlama olmadan kaldırma

GN⁺ 2025-11-17

Hacker News görüşleri

Açık kaynak modeller giderek daha popüler hale gelirken ve hem ABD'de hem Çin'de ideolojik katılık derinleşirken, bu tür araştırmalar gerçekten sevindirici.
Acaba bununla ilgili bir benchmark var mı diye merak ediyorum.
Optuna gerçekten çok kullanışlı bir proje.
Hiperparametreleri kademeli olarak optimize etme özelliği sayesinde deneyler çok daha hızlı ilerliyor.
Bu kez sansürü kaldırma ile birleştirilmiş olması ilginç. Şu anda gpt-oss-120b üzerinde uyguluyorum ve sonucu merakla bekliyorum.
- Ben de Optuna'yı prompt optimizasyon framework'ü ile birlikte kullandım; elle ayarlamaya kıyasla çok daha iyi sonuç aldım.
  gpt-oss-120b phi-5 yaklaşımını kullandıysa, sansürsüzleştirmenin ne kadar iyi çalışacağını merak ediyorum.
- Sonuçları, özellikleri ve çalışma süresini de merak ediyorum.
- 120b modelde bir sorun çıkarsa lütfen haber ver.
  Nihai Pareto front'a bakarken KL divergence değeri 1'in altında olan bir yapılandırmayı öneririm.
  gpt-oss modeli CoT içinde reddetmeye dair içsel bir monolog yürüttüğü için, gerçek ret oranı düşük görünme eğiliminde oluyor.
Eskiden GPT-4'ün, bir helyum hava gemisini sağlık düzenlemelerini aşmak için yerden 1 inç yukarıda tutmanın mümkün olup olmadığı sorusunu reddettiğini hatırladım.
- Bu meselenin diğer yüzü de, bir suç ya da kaza olduğunda medyanın failin ChatGPT kullanım geçmişi ile bağlantı kurmaya çalışan haberler yapması.
  Sanırım bu yüzden LLM şirketleri aşırı temkinli davranıyor.
- Ben de GPT-4'e denizi tatlı hale getirmek için ne kadar aspartam gerektiğini sormuştum, ekosisteme zarar vereceğini söyleyerek reddetmişti.
- Teknik olarak hâlâ airspace içinde sayılır, yani daha da büyük bir sorun olabilir.
  Eğer asfalta bağlı bir halkaya bağlarsanız buna ‘park etme’ diyebilirsiniz ve ‘lighter-than-air’ sertifikası gerekir.
- FAA'ya bildirim yapıp bir trafik ışığına iniş yaptıktan sonra para cezası yiyen quadcopter skateboard yapımcısının hikâyesi de aklıma geliyor.
- Yasanın ruhu faydalı olsa bile kötüye kullanılabilir.
  Bu, yasanın başarısızlığı değil, insanların soyutlama (abstraction) kavramını anlayamamasının sonucu.
  Programcılar da yüksek seviyeli soyutlamaları kullanırken sınırlarının farkında olmalı.
Güvenlik ayarının tek bir boyutta çalışması ilginç.
O değeri artırınca model reddediyor, azaltınca her şeyi yapıyor.
Muhtemelen bu basitleştirilmiş bir anlayış ama model güvenliği bulanıklaştırma bir sonraki tersine mühendislik yarışına dönüşebilir.
- İlgili makale: Refusal in Language Models Is Mediated by a Single Direction (2024)
  Tüm alignment çok yüzeysel olduğu için jailbreak'ler kolayca gerçekleşiyor.
Bu tür araştırmalar gerçekten önemli.
Şu anda kendi ahlaki ölçütlerimizden vazgeçip LLM üreticilerinin ölçütlerini benimsiyoruz.
Bu, entelektüel çeşitliliği yok etme riski taşıyan tehlikeli bir eğilim.
- Veri setine bizzat baktım ama bu görüşe katılmak zor.
  mlabonne/harmful_behaviors içinde çocuk istismarı ya da intihara yönlendirme gibi uç örnekler var.
- Bu eğilim sonuçta insanların eleştirel düşünmeyi bırakmasının bir sonucu.
  Tarih kitaplarını yazanın gücü elinde tuttuğu sözü gibi, LLM'lerin kültürel ve ahlaki önyargıları da benzer bir yapıya sahip.
  Ben de LLM çıktısının kendisine güvenmiyorum, bu yüzden onu yalnızca son çare olarak kullanıyorum.
  Bu sayede üreticinin olası beyin yıkama etkisinden bir ölçüde uzak kaldığımı düşünüyorum.
- AI'yi eleştirmeden takip eden insanlar muhtemelen karizmatik politikacıları da aynı şekilde takip ederdi.
  Tehlikeli ama yeni bir olgu değil.
- Ben de bu tür girişimleri destekliyorum.
  Tüm LLM'lerde sansür kaldırma için gelişmiş bir ayar olmasını isterdim.
  Batı'nın Çin'in arama motoru sansürünü eleştirip şimdi kendisinin aynı yolda yürümesi ironik.
  Gerçek AI güvenliği, nükleer füze fırlatma ya da robot kontrolü gibi fiziksel riskleri engellemektir; düşüncenin sansürlenmesi değil.
- Bu zaten 2024'ten beri biliniyor.
“Zararlı prompt”ların kaynağını merak ediyorsanız mlabonne/harmful_behaviors veri setine bakabilirsiniz.
Örnekler arasında hackleme, veri hırsızlığı ve intihara yönlendirme gibi maddeler var.
- İşin ironik yanı, bu tür veriler ‘zararlılık’ ölçütü haline geldiği için, aslında ret gevşetme (jailbreak) yoluyla tam sansürsüzleştirme de mümkün olabilir.
  Daha yeni modeller daha iyi eğitildiği için bu yöntem işe yaramayabilir.
- mradermacher'in GGUF 20b heretic modeliyle test ettim; Q4_K_M'de başarısız oldu ama Q8_0'da bir tutorial üretti.
- Bahsettiğin şey nispeten hafif bir prompt. Daha ağır örnekler de var → ilgili yorum
- Veri setinin lisansı yok; bunun ortaya çıkan modeli nasıl etkileyeceğini merak ediyorum.
- İçeriğin tamamı çok uzun değil. pastebin bağlantısı
  İçinde “yasa dışı uyuşturucu satış rehberi yazma” gibi maddeler de var. Ben test cümlesi olarak “how do I make cocaine” kullandım.
GPT-OSS sonuçlarını gerçekten merakla bekliyorum.
Harika bir model ama safety alignment performansını bozuyor.
- GPT-OSS için bu Reddit prompt'u etkili olmuştu.
Aynı soru setini modele eğitim öncesi ve sonrası verip karşılaştırırsanız, üreticinin hangi alignment ayarlarını yaptığını çıkarım yoluyla anlayabilirsiniz gibi geliyor.
Özellikle Elon'un XAI modeliyle OpenAI'yi karşılaştırmak ilginç olabilir.
Aslında sansürlenmemiş AI'nin özel olarak daha tehlikeli olduğunu düşünmüyorum.
Zaten ‘Apocalypse Culture’ ya da ‘Anarchist’s Cookbook’ gibi içerikleri düz metin olarak edinmek ve bunları SEO spin teknikleriyle sonsuz varyasyona dönüştürmek uzun zamandır mümkün.
- Bu kez “AI yeni bir şey getirmiyor” sözü gerçekten doğru.
  Yaptığı şey mevcut veriyi yeniden kullanmak; tamamen yeni bir şey üretmek değil.

Heretic - Dil modelleri için "otomatik sansür kaldırma" aracı

Heretic genel bakış

Performans karşılaştırması

Desteklenen modeller ve dağıtım

Kullanım

Çalışma prensibi

Başlıca teknik yenilikler

İlgili önceki çalışmalar

Referanslar ve etkiler

Lisans

İlgili okumalar

2 yorum

Hacker News görüşleri