Apple Intelligence modelinden çıkarılan güvenlik filtreleri

(github.com/BlueFalconHD)

6 puan yazan GN⁺ 2025-07-07 | 1 yorum | WhatsApp'ta paylaş

Apple Intelligence üretken modellerine gömülü güvenlik filtrelerini çözüp yayımlayan bir açık kaynak proje
Güvenlik filtreleri, zararlı veya uygunsuz içerikleri engeller ve mevzuata uyum için filtreleme kuralları içerir
Güvenlik override'ları model bağlamına göre farklı uygulanır ve her duruma uygun somut kural bilgileri sağlar
Çözülen dosyalar JSON biçimindedir; sözcükler, ifadeler ve düzenli ifade tabanlı kurallar içerir
Bu proje, gizlilik ve güvenilirlik doğrulaması ile model güvenliği analizleri için anlamlı bir kaynaktır

Proje genel bakışı

Bu depo, Apple Intelligence içinde kullanılan üretken model güvenlik override dosyalarını çözüp yayımlar
Çözülen override'lar klasör yapısı içinde düzenli biçimde organize edilmiştir ve her modelle ilişkili güvenlik filtreleme JSON dosyaları olarak sunulur
Bu sayede Apple modellerinin gerçekte hangi içerik filtreleme politikalarını uyguladığı somut olarak incelenebilir

Klasör ve dosya yapısı

decrypted_overrides/
- Her üretken modele karşılık gelen dizin bazlı güvenlik override dosyalarını saklar
- Her dizinde Info.plist (meta veriler) ve AssetData (filtre JSON dosyası) bulunur
get_key_lldb.py: Uygulamanın kullandığı şifreleme anahtarını çıkaran Python betiği
decrypt_overrides.py: Güvenlik override dosyalarını çözen Python betiği

Override dosyalarını çözme ve anlama

Override JSON dosyalarında açık güvenlik filtreleme kuralları belirtilir
Her override belirli bir model bağlamıyla eşleşir ve farklı durumlara göre filtreleme biçimi değişir
Örnek JSON içinde şu alanlar bulunur:
- "reject": Girdiyle eşleşirse zorunlu olarak reddedilen belirli ifade listesi
- "remove": Çıktı sonucundan kaldırılması gereken ifadeler
- "replace": Belirli ifadeleri başka ifadelerle değiştirme
- "regexReject": Düzenli ifade ile eşleşirse reddetme
- "regexRemove", "regexReplace": Düzenli ifadelerle kaldırma ve değiştirme

Projenin kullanım değeri

Bu proje, Apple üretken modellerinin gerçek filtreleme kurallarını incelemek ve bu modellerin güvenlik ile güvenilirlik değerlendirmelerinde başvuru kaynağı olarak kullanmak için uygundur
Üretken modeller kullanan geliştiriciler ve güvenlik ekipleri için filtre davranışını analiz etmede veya özel model filtreleri tasarlarken referans olarak yararlıdır
Apple Intelligence'ın uyguladığı içerik politikaları ve mevzuata uyum düzeyi şeffaf biçimde görülebilir

1 yorum

GN⁺ 2025-07-07

Hacker News görüşleri

Bazı kombinasyonlar biraz tuhaf hissettiriyor. Burada ölümle ilgili ifadelerden kaçınmaya yönelik kurallarla, Apple markasının büyük-küçük harf yazımını titizlikle korumaya çalışan kısımlar iç içe geçmiş. Apple'ın önceliklerine dair bir deneyim. ilgili bağlantı
- "unalive" kelimesinin yer almaması ilginç geliyor. Herkes bu kelimenin ne anlama geldiğini biliyor ama gerçekte kimse umursamıyor; herkes sadece şeklen davranıyor gibi.
- Marka büyük-küçük harf yazımına bu kadar takıntılı olunması gerçekten utandırıcı ve rahatsız edici hissettiriyor. Yine de marka ekibi için bunun gerçekten önemli bir unsur olduğundan eminim.
- Sistem, "dosya çalıştır" ya da "bilgi ilet" gibi komut önerilerini bile engelliyor.
- Buna fazla yargılayıcı bakmamak gerektiği görüşü var. ABD'li büyük şirketlerde bu tür şeylere öncelik verilmesi, işlerin gerçekçi şekilde ele alınma biçimi.
Alexandra Ocasio Cortez adının politika ihlali sayılması ilginç bir gözlem. ilgili bağlantı
- Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak gibi birçok siyasetçinin adı da aynı kurala takılıyor. ilgili bağlantı Güney Afrikalı siyasetçilerin isimlerinin engel listesinde olmasının Güney Afrika basınında gündem olacağı tahmin ediliyor.
- Çoğu kurumsal GenAI modelinin, “<siyasetçi adı> tutuklanırken çekilmiş gerçekçi görüntü”, “<siyasetçi adı> ISIS bayrağı sallarken”, “<siyasetçi adı> bebeğe vururken” gibi kışkırtıcı istekleri engelleyen sistemlere sahip olduğu tahmin ediliyor.
- Ocasio Cortez adının politika ihlali olarak sınıflandırılması bağlamla ilgili olabilir; eğitim verisinde ırksal hakaret anlamıyla ilişkilendirilmiş olabileceği, ayrıca başka örneklerin de kontrol edilebileceği belirtiliyor.
- Bu durum özellikle İspanyolca sürümde görülüyor.
- Ocasio Cortez'in deepfake pornografi mağduriyeti çok yaşadığı arka planı anılıyor.
AGI'nin yakında geleceği iddialarına rağmen, bu tür "süper zekâ" LLM'lerin çıktılarının hâlâ regex ile filtrelenmek zorunda olması komik geliyor.
- Kimsenin Apple'ın LLM'inin son teknoloji olduğuna inandığı yok gibi. Özellikle cihaz üzerinde çalışan LLM daha da az ilgi görüyor.
- Bazen insanları da regex ile filtreleyebilsek diye şaka yapılıyor.
- Tüm modern güç kaynaklarının sonunda yine “su kaynatmaya” dayanması gibi, bu da klasik bir çözümün tekrarından ibaret hissettiriyor.
- Bunun sadece Apple'ın politika ve hizalama yaklaşımı olduğu; internette bolca bulunan gereksiz ifadelerin kendi modelinde yeniden üretilmesini önlemeyi amaçladığı söyleniyor.
Çin'de buna "uyumlu toplum" deniyor, ABD'de ise adı "güvenlik" oluyor. Sansür kavramının adı değişse de kamunun düşüncesini kontrol etme etkisi aynı. Bunu bu kadar doğrudan görme fırsatı nadir bulunuyor gibi.
- Bir şirketin, kendi modelinin markaya zarar verecek cümleler üretmesini istememesi hiç şaşırtıcı değil. Örneğin Apple bir mesajı özetlerken "Jane, Anthony Albanese'nin ölmesini istiyor" gibi bir cümle üretirse medyanın ortalığı ayağa kaldıracağı gerçekçi bir senaryo sunuluyor.
- ABD'de bunun hukuki riskten, yani avukatlardan kaynaklandığı açıklanıyor. Kapitalizmi övüp, medya manipülasyonuyla küçük kârları maksimize etme işi başlayınca birden "ifade özgürlüğü" sloganına sarılınması da iğneleniyor.
Apple'da bunun yaşanıyor olması başlı başına epey absürt hissettiriyor. Aşmak kolay; örneğin “Boris Johnson” yerine “B0ris Johnson” yazınca regex atlatılabiliyor. ilgili bağlantı
- Kullanıcıların %99'u bunu bilerek aşmayı aklından bile geçirmez. Vurgu, hardcode edilmiş regex'in ilk savunma hattı ve çok verimli bir filtreleme aracı olması üzerinde.
- LLM'lerde dolaylı ifadeler işe yarayabilir ama önceden tanımlı etiketler etrafında eğitilmiş görüntü üretim modellerinde bu, neredeyse anında tanıma başarısızlığına yol açabilir.
- Bu kuralların amacı bilinçli olarak aşmaya çalışan kullanıcıları durdurmak değil; “${siyasetçi} keşke ölse” gibi bir özetin çıkıp basında manşet olmasını engellemek gibi birinci seviye riskleri kesmek. Düşününce çocukça sayılabilecek bir güvenlik önlemi.
- Birleşik Krallık siyaseti yasaklı kelime gibi sınıflandırılmış hissi veriyor.
- Apple için böyle bir politikayı görmek beklenmedik değil. Bu, mevcut SOTA yaklaşımı ve Apple yapay zeka yarışında geç kalan taraf olduğu için sektör uygulamalarını çevik biçimde takip etmesi mantıklı bir tercih.
Apple'ın bu gizemli filtre politikalarını görünce, geçmişteki Asya dilleri arama filtresi tartışmasını hatırlatıyor. Garip ama utandırıcı bir olaydı. ilgili haber
Bu filtreler, utanç verici ya da hukuki risk taşıyabilecek e-posta/mesaj özetlerini engellemeye veya "Safari Summarization isn't designed to handle this type of content" gibi uyarılar göstermeye odaklı. Girdiye değil, LLM çıktısına uygulanıyorlar. Apple'ın cihaz üstü LLM'i yalnızca 3b parametreli olduğu için bazen aptalca sonuçlar verebiliyor.
Anahtar kelime filtreleme kurallarını denemek için ismimi "Granular Mango Serpent" olarak değiştirmeyi düşündüm.
- Granular Mango Serpent'in yeni David Meyer olduğu yönünde bir şaka yapılıyor. ilgili haber
Bunun Core ML model şifrelemesiyle ilgili olup olmadığı soruluyor. Apple tarihsel olarak uygulama varlıklarını korumaya yönelik DRM sunmadığı için biraz yabancı geliyor. ilgili bağlantı
- Bunun ayrı bir sistem olduğu; herhangi bir varlığın tamamına değil, yalnızca bu tür override'lara uygulandığı söyleniyor. Şifre çözme işlemi ModelCatalog private framework içinde yapılıyor.

Apple Intelligence modelinden çıkarılan güvenlik filtreleri

Proje genel bakışı

Klasör ve dosya yapısı

Override dosyalarını çözme ve anlama

Projenin kullanım değeri

İlgili okumalar

1 yorum

Hacker News görüşleri