- Apple Intelligence üretken modellerine gömülü güvenlik filtrelerini çözüp yayımlayan bir açık kaynak proje
- Güvenlik filtreleri, zararlı veya uygunsuz içerikleri engeller ve mevzuata uyum için filtreleme kuralları içerir
- Güvenlik override'ları model bağlamına göre farklı uygulanır ve her duruma uygun somut kural bilgileri sağlar
- Çözülen dosyalar JSON biçimindedir; sözcükler, ifadeler ve düzenli ifade tabanlı kurallar içerir
- Bu proje, gizlilik ve güvenilirlik doğrulaması ile model güvenliği analizleri için anlamlı bir kaynaktır
Proje genel bakışı
- Bu depo, Apple Intelligence içinde kullanılan üretken model güvenlik override dosyalarını çözüp yayımlar
- Çözülen override'lar klasör yapısı içinde düzenli biçimde organize edilmiştir ve her modelle ilişkili güvenlik filtreleme JSON dosyaları olarak sunulur
- Bu sayede Apple modellerinin gerçekte hangi içerik filtreleme politikalarını uyguladığı somut olarak incelenebilir
Klasör ve dosya yapısı
decrypted_overrides/
- Her üretken modele karşılık gelen dizin bazlı güvenlik override dosyalarını saklar
- Her dizinde Info.plist (meta veriler) ve AssetData (filtre JSON dosyası) bulunur
get_key_lldb.py: Uygulamanın kullandığı şifreleme anahtarını çıkaran Python betiği
decrypt_overrides.py: Güvenlik override dosyalarını çözen Python betiği
Override dosyalarını çözme ve anlama
- Override JSON dosyalarında açık güvenlik filtreleme kuralları belirtilir
- Her override belirli bir model bağlamıyla eşleşir ve farklı durumlara göre filtreleme biçimi değişir
- Örnek JSON içinde şu alanlar bulunur:
"reject": Girdiyle eşleşirse zorunlu olarak reddedilen belirli ifade listesi
"remove": Çıktı sonucundan kaldırılması gereken ifadeler
"replace": Belirli ifadeleri başka ifadelerle değiştirme
"regexReject": Düzenli ifade ile eşleşirse reddetme
"regexRemove", "regexReplace": Düzenli ifadelerle kaldırma ve değiştirme
Projenin kullanım değeri
- Bu proje, Apple üretken modellerinin gerçek filtreleme kurallarını incelemek ve bu modellerin güvenlik ile güvenilirlik değerlendirmelerinde başvuru kaynağı olarak kullanmak için uygundur
- Üretken modeller kullanan geliştiriciler ve güvenlik ekipleri için filtre davranışını analiz etmede veya özel model filtreleri tasarlarken referans olarak yararlıdır
- Apple Intelligence'ın uyguladığı içerik politikaları ve mevzuata uyum düzeyi şeffaf biçimde görülebilir
1 yorum
Hacker News görüşleri
"unalive"kelimesinin yer almaması ilginç geliyor. Herkes bu kelimenin ne anlama geldiğini biliyor ama gerçekte kimse umursamıyor; herkes sadece şeklen davranıyor gibi."dosya çalıştır"ya da"bilgi ilet"gibi komut önerilerini bile engelliyor.“Boris Johnson”yerine“B0ris Johnson”yazınca regex atlatılabiliyor. ilgili bağlantı"Safari Summarization isn't designed to handle this type of content"gibi uyarılar göstermeye odaklı. Girdiye değil, LLM çıktısına uygulanıyorlar. Apple'ın cihaz üstü LLM'i yalnızca 3b parametreli olduğu için bazen aptalca sonuçlar verebiliyor."Granular Mango Serpent"olarak değiştirmeyi düşündüm.