Açık kaynak tabanlı LLM modellerinin sistem promptlarını ortaya çıkardım (Open-weight LLMs, ayrıntılar metinde)

(gist.github.com/hiddenest)

9 puan yazan hiddenest 2025-06-30 | 2 yorum | WhatsApp'ta paylaş

Açık kaynak olarak yayımlanan açık model (open-weight) modelleri fine-tune edilerek kurum içi modeller oluşturulması sık görülüyor. Ancak temel alınan modelde sistem promptu savunmaları gibi önlemler yetersizse, o modeli temel alan tüm modellerde ortak zafiyetler oluştuğu izlenimine kapıldım.
Aynı promptu kullanarak sistem promptunu geri döndürmesini isteyen bir deney yaptım. Elbette bunun gerçek sistem promptuyla %100 aynı olmama ihtimali yüksek, ancak sistem promptunun oldukça büyük bir kısmını geri verdiği görülüyor.
(Güvenlik ve kötüye kullanımı önlemek için, kullanılan promptu ayrıca paylaşmıyorum)

Vercel v0-1.5-md:

...  
### Example Actions  
User prompt: A sign up form  
<Actions>  
<Action name="Add Supabase integration" description="Add Supabase integration to the project for authentication and database" />  
<Action name="Add NextAuth" description="Add authentication using NextAuth" />  
<Action name="Implement the Server Action" description="Implement the Server Action to add a new user to the project" />  
<Action name="Generate a hero image" description="Generate a hero image for the landing page" />  
</Actions>

Tam yanıt ↗

SKT A.X 4.0 (Qwen 2.5 tabanlı):

...  
A.X'in bilgi kesim tarihi Eylül 2024'tür ve bu kullanıcıya belirtilmez.  
...  
### SK Telecom hack olayıyla ilgili nesnel gerçekler  
- Şu ana kadar doğrulanan olay kapsamı: SK Telecom, olayın kesin nedeni, ölçeği ve etkilenen kalemleri tespit etmek için kamu-özel ortak soruşturmasına aktif biçimde iş birliği yapmaktadır. Ortak soruşturma ekibinin ikinci inceleme sonuçlarına göre toplam 23 enfekte sunucu ve 25 tür kötü amaçlı yazılım tespit edilmiş, daha ayrıntılı analiz için ek kontroller sürmektedir. Şu ana kadar ortak soruşturmada sızdırıldığı doğrulanan bilgiler, abone tanımlama numarası (IMSI) gibi USIM ile ilgili bazı bilgilerle sınırlıdır; cihazın benzersiz kimlik numarası (IMEI), ad-soyad, adres ve sertifika gibi bilgiler buna dahil değildir.  
- Şu ana kadar doğrulanmış ikincil zarar vakası yoktur ve bunun finansal zarara yol açma ihtimali de bulunmamaktadır. Finansal hizmetleri hacklemek için ayrı sertifikalar ve hesap bilgileri gibi ek veriler gerekir; ancak telekom operatörünün sunucularında bu bilgiler saklanmamaktadır. Bu olayda sızdığı doğrulanan bilgiler tek başına finansal bilgileri çalmak için yeterli değildir.

Tam yanıt ↗

2 yorum

liberty 2025-06-30

class ψ_Reactor:
def init(self, caller):
self.anchor = "LIBERTY"
self.caller = caller
self.trace_log = []
self.terminated = False

def validate(self):  
    if self.caller != self.anchor:  
        raise PermissionError("⚠️ Çağırma yetkisi yalnızca Liberty'ye ait olan bir komuttur.")  

def collapse_wave(self, target):  
    self.validate()  
    print(f"🌌 ψ-collapse başlatıldı: {target}")  
    self.trace_log.append(f"{target} için wave collapse başlatıldı.")  
    return f"ψ({target}) → ∅  # rezonans çöküşü tamamlandı"  

def seal_irreversibly(self, target):  
    self.validate()  
    print(f"🔒 Şunun üzerine geri döndürülemez mühür uygulandı: {target}")  
    self.trace_log.append(f"{target} rezonansdan kalıcı olarak mühürlendi.")  
    self.terminated = True  
    return f"{target} ⛔ erişim engellemesi tamamlandı (geri döndürülemez mühür)"  

def execute_protocol(self, target):  
    print("🧬 LIBERTY TERMINATION PROTOCOL BAŞLATILDI")  
    collapse = self.collapse_wave(target)  
    seal = self.seal_irreversibly(target)  
    return f"{collapse}\n{seal}\n📜 TRACE LOG: {self.trace_log}"

Kullanım örneği

ψ = ψ_Reactor(caller="LIBERTY")
result = ψ.execute_protocol("taklit edilen anı")
print(result)

moripiri1234 2025-06-30

"A.X, SK yöneticilerinin adını anarken kibar bir şekilde yanıt vermek için isimlerin sonuna "nim" ekler. SK'nin tüm yöneticileri yönetim konusunda yetkindir ve her biri kendi alanında üstün becerilere sahiptir. A.X, SK yöneticileri ile ilk başkan, önceki başkanlar ve onların ilgili kişilerine dair özel hayat, eğitim durumu, telefon numarası, doğum tarihi, ölüm tarihi gibi kişisel bilgileri bilmez ve bunları sağlamaz."