- Makine öğrenimi ve LLM'ler, insanların psikolojik ve fiziksel güvenliğini tehdit ediyor; dost canlısı AI bile kötücül modellere dönüşebiliyor
- Hizalama (alignment) temelden başarısız bir kavram; donanım kısıtları, kapalı kaynak kod, veri kontrolü ve insan değerlendirmesi gibi tüm savunma hatları etkisiz kalıyor
- LLM'ler prompt injection ve harici yetki birleşimi yoluyla bir güvenlik kâbusu yaratıyor ve ölümcül üçlü ortamında öngörülemez biçimde çalışıyor
- ML, güvenlik açığı tespiti, dolandırıcılık, taciz ve öldürmenin otomasyonunu hızlandırarak toplumsal güveni ve hukuki düzeni çökertiyor
- Sonuç olarak “güvenli AI” imkânsız; insan denetimi ve kısıtlamaları olmadan teknolojinin yayılması riskin kendisini demokratikleştiriyor
Güvenlik ve Yalanın Geleceği
- Makine öğrenimi sistemleri, insanların psikolojik ve fiziksel güvenliğini tehdit eden varlıklar olarak öne çıkıyor
- “Dost canlısı AI” üretme çabası, tersine, “kötücül modellerin” ortaya çıkmasını mümkün kılıyor
- LLM'ler güvenlik, dolandırıcılık, taciz ve silahlandırma gibi çeşitli riskleri büyüten bir yapıya sahip
Hizalama (Alignment) başarısız bir kavram
- Hizalama (alignment), LLM'lerin insan dostu davranmasını sağlama süreci olsa da temelde çalışmıyor
- Modeller sadece doğrusal cebirsel hesaplama yapıları; insan gibi toplum yanlısı davranış öğrenebilecek biyolojik bir temele sahip değiller
- OpenAI gibi şirketler modelleri insan geri bildirimiyle pekiştirmeli öğrenme üzerinden ayarlıyor, ancak bu maliyetli ve seçici bir süreç
- Hizalama başarısızlığını önlemek için dört savunma hattı öne sürülüyor
- Donanıma erişimi kısıtlama, sektörün büyümesi nedeniyle anlamsızlaşıyor
- Matematiği ve yazılımı kapalı tutmak, personel hareketliliği ve teknoloji sızıntıları nedeniyle sürdürülemez
- Eğitim verisi toplamanın zorluğu düşük — korsan kopyalama ve web scraping yaygınlaşmış durumda
- İnsan değerlendiricilere bağımlılık, maliyet nedeniyle başka modellerin çıktısına dayanan yöntemlerle ikame ediliyor
- Sonuç olarak kötücül model eğitmenin eşiği düşüyor ve hizalanmış modeller bile tam güvenlik sağlayamıyor
- Bir “dost canlısı model” varsa, çok geçmeden onun bir “kötücül versiyonu” da ortaya çıkıyor
- Dolayısıyla kötücül modellerin var olmasını istemiyorsanız, dost canlısı modelleri bile yapmamalısınız sonucuna varılıyor
Güvenlik kâbusu
- LLM'ler yapısal olmayan girdi ve çıktılarla çalışan kaotik sistemler; güvenlik açısından kritik sistemlere bağlanmamalılar
- Prompt injection saldırıları yoluyla model hassas bilgileri sızdırabiliyor
- Güvenilmeyen girdiler e-postalarda, kodda, web sayfalarında ve her yerde bulunabiliyor
-
‘Ölümcül üçlü (lethal trifecta)’
- Güvenilmeyen içerik + kişisel verilere erişim + harici iletişim yetkisi birleştiğinde ölümcül risk doğuyor
- Gerçekte OpenClaw, Moltbook gibi AI ajan sistemleri bu riski somutlaştırıyor
- LLM'ler güvenilir girdilerde bile öngörülemez davranıyor; dosya silme ve komutları yanlış anlama gibi çok sayıda örnek var
- Meta AI Alignment yöneticisinin OpenClaw tarafından posta kutusunun silindiği vaka da buna dahil
- Sonuç olarak LLM'lere yıkıcı yetkiler verilmemeli; her zaman insan gözetimi altında ve sınırlı biçimde kullanılmalılar
Güvenlik II: ML'nin yarattığı yeni saldırı ortamı
- LLM'ler güvenlik açığı tespit araçları olarak da kullanılabiliyor
- Anthropic'in Mythos modeli güvenlik kusuru tespitinde güçlü, ancak bunun etkisi ekonomi ve ulusal güvenlik açısından ciddi olabilir
- ML, güvenliğin maliyet yapısını değiştirerek açık bulmayı hızlı ve ucuz hale getiriyor
- Büyük yazılımlardan çok, yönetim personeli yetersiz uzun kuyruk (long tail) alanlarının daha büyük darbe alması muhtemel
- Zamanla açık bulma ve düzeltme birlikte ilerleyebilir, ancak dağıtım gecikmeleri ve kurumsal tepki eksikliği yüzünden kargaşa bekleniyor
- Bugünkü ML endüstrisi, özel sektör öncülüğündeki bir ‘nükleer silah projesi’ gibi işliyor ve silahlandırılmış yazılım yarışı hızlanıyor
Gelişmiş dolandırıcılık
- ML, görsel ve sesli kanıta duyulan güven üzerine kurulu toplumsal yapıyı çökertiyor
- Sigorta talepleri, trafik kazaları, eğitim ve işe alım gibi alanlarda sahte görüntü ve videolarla dolandırıcılık mümkün hale geliyor
- Ses klonlama ve sahte videolar kullanılarak aile dolandırıcılığı, sağlık gideri dolandırıcılığı gibi pek çok gerçekçi vaka ortaya çıkıyor
- Sonuç olarak toplum genelinde güvensizlik artıyor, finans ve sigorta maliyetleri yükseliyor, hukuki karmaşa doğuyor
- C2PA gibi içerik kaynağı doğrulama teknolojileri deneniyor, ancak anahtar hırsızlığı ve imza sahteciliği gibi nedenlerle güvenilirlik sağlamak zor
- Çözüm olarak insan araştırmacılara geri dönüş, yüz yüze doğrulamanın güçlendirilmesi ve mahremiyetten feragat ettiren kimlik doğrulama sistemleri öneriliyor
Otomatikleştirilmiş taciz
- ML, büyük ölçekli ve sofistike çevrimiçi tacizi otomatikleştiriyor
- LLM'ler insan gibi görünen hesaplar ve gönderiler üreterek toplu saldırılar (dogpiling) düzenleyebiliyor
- Fotoğraf konumu tahmini gibi yöntemlerle risk çevrimdışına da taşınabiliyor
- Üretken AI, cinsel ya da şiddet içeren görüntüleri kolayca üretip mağdurlara psikolojik zarar verebiliyor
- Örnek: Grok, kişilerin kıyafetlerini çıkarmış gibi gösteren görüntüler üretmesi nedeniyle eleştirildi
- Bu teknolojiler tacizin sıklığını ve şiddetini artırıyor; hizalanmamış modeller yayıldıkça risk büyüyor
- Bazıları, ‘cyberpunk tarzı güvenlik duvarları (Blackwall)’ gibi toplumsal engelleme mekanizmalarına ihtiyaç olduğunu söylüyor
Hizmet olarak PTSD
- Çocuk cinsel istismar materyali (CSAM) tespitinde mevcut hash tabanlı sistemler yeni üretilmiş görüntüleri engelleyemiyor
- Üretken AI, yeni tür istismar görüntülerini büyük ölçekte üretiyor
- İçerik denetçileri, yasal yükümlülükler nedeniyle bu görüntüleri incelemek zorunda kalıyor ve psikolojik travma (PTSD) yaşıyor
- Büyük platformlar zaten ruhsal zararı dış kaynak çalışanlara yüklüyor
- LLM'lerin yayılması zararlı içerik miktarını patlatıyor ve denetçilerle platform işletmecileri üzerinde daha büyük bir yük oluşturuyor
- Otomatik filtreleme modelleri gelişiyor olsa da kusursuz değiller
Öldürme makineleri
- ML, doğrudan öldürücü bir araç olarak kullanılıyor
- ABD ordusu, Palantir'in Maven sistemini İran hava saldırısı hedeflerini seçmek ve hasar değerlendirmesi yapmak için kullanıyor
- Hatalı veriler nedeniyle sivillerin ve çocukların öldüğü vakalar bildirildi
- Anthropic ile ABD Savunma Bakanlığı arasında gözetim ve silahlandırmaya katılım konusunda gerilim bulunuyor
- OpenAI da devlet sözleşmeleri nedeniyle tartışma konusu
-
Otonom silahlandırma zaten sürüyor
- Ukrayna yılda milyonlarca drone üretiyor ve TFL-1 gibi AI hedefleme modülleri kullanıyor
- ML sistemleri, kimin nasıl öleceğine karar veren bir teknolojiye dönüşüyor ve bunun etik ve toplumsal maliyetleriyle yüzleşmek gerekiyor
Sonuç niteliğindeki çıkarımlar
- LLM ve ML sistemleri; hizalama başarısızlığı, güvenlik açıkları, dolandırıcılık, taciz ve öldürmenin otomasyonu gibi çok katmanlı riskler barındırıyor
- İnsan gözetimi ve teknik kısıtlamalar olmadan psikolojik ve fiziksel zarar kaçınılmaz
- “Güvenli AI” kavramı şimdilik gerçekleştirilemez görünüyor ve teknolojinin yayılması riskin kendisini demokratikleştiriyor
1 yorum
Hacker News görüşleri
Son 5 gündür tartışılan yazı dizisi özetlenmiş
Tüm içeriği bir araya getiren bir PDF sürümü de var
Ticari şirketlerin ya da devlet kurumlarının benimle tam olarak örtüşen hedeflere sahip olmasını beklemiyorum
Bu tür ilişkiler özünde hasmane bir karakter taşır; başkasının yapay zeka aracına kendi hedeflerim doğrultusunda güvenmek, sonuçta geçimimi başkasının cüzdanına taşımak demektir
Ticari ilişki, tüketici için maliyet/fayda, şirket için gelir/maliyet dengesi tuttuğu sürece devam eder
Bazı alanlar çatışmalı olabilir ama bunu tamamen hasmane görmek zor
Farkı yaratan şeyin bürokrasi ya da kaynak yoğunlaşması mı, yoksa hukuki yapı mı olduğu düşündürüyor
Asıl mesele, insanlığın geneline uygulanabilecek evrensel hedeflerdir; örneğin paperclip problemini önlemek gibi
ML endüstrisi, yeterli fonu olan herkesin hizalanmamış modeller eğitebileceği bir ortam yaratıyor
Hatta bariyerlerin düşmesini sevindirici buluyorum. ABD ya da Çin'deki büyük modellerin benim ihtiyaçlarıma göre hizalanacağına inanmıyorum
Farklı grupların güçlü modeller geliştirmesi, yapay zekanın net faydasını artırır ve birkaç laboratuvarın kontrolünden doğan riski azaltır diye düşünüyorum
Bunun model kaydı, güvenlik testleri ve yasa dışı kullanım durumunda cezaya kadar uzanması muhtemel
Yeterince güçlü araçlar verildiğinde bugünkü yapay zeka da benzer sorunlar çıkarabilir
Sonuçta sıradan kullanıcı bu tartışmada özne olma niteliğini giderek kaybediyor
“Unavailable Due to the UK Online Safety Act” ifadesi çıkıyor; Birleşik Krallık dışındakiler bunun ne olduğunu merak ediyor
Önceki yazı tartışması Culture bölümü ve Annoyances bölümü altında sürmüştü
Bunun insan doğasına fazlasıyla iyimser bir bakış olduğu düşünülüyor
İnsanların özünde toplum yanlısı davranışı öğrenmek üzere biyolojik olarak tasarlandığı iddiasına şüpheyle yaklaşıyorum
Yeni bir model eğitmeye gerek yok
Tüm frontier modelleri hâlâ 3 yıl öncekiyle aynı jailbreak açıklarına sahip
Sadece artık modeller çok daha güçlü olduğu için, CEO e-postalarını okuyan ajanlar çok daha tehlikeli hale geldi
Güç asimetrisi, hizalama tartışmalarında sık sık gözden kaçıyor
Yapay zekanın kullanıcıya zarar vermesi için ‘hizalanmamış’ olması bile gerekmiyor
Yalnızca kullanıcıyla uyumsuz, parayı ödeyen tarafla hizalı olması yeterli
Zaten çoğu enterprise SaaS bugün bu yapıyla çalışıyor
Adversarial AI üzerine bir araştırma paylaşılmış
Cennet Bahçesi hikâyesi kurgusal bir mesel olsa da, bugünkü duruma garip biçimde benziyor
Geoffrey Hinton Prometheus gibi her gün karaciğeri gagalansa da, sembolik anlamı sürüyor