1 puan yazan GN⁺ 15 일 전 | 1 yorum | WhatsApp'ta paylaş
  • Makine öğrenimi ve LLM'ler, insanların psikolojik ve fiziksel güvenliğini tehdit ediyor; dost canlısı AI bile kötücül modellere dönüşebiliyor
  • Hizalama (alignment) temelden başarısız bir kavram; donanım kısıtları, kapalı kaynak kod, veri kontrolü ve insan değerlendirmesi gibi tüm savunma hatları etkisiz kalıyor
  • LLM'ler prompt injection ve harici yetki birleşimi yoluyla bir güvenlik kâbusu yaratıyor ve ölümcül üçlü ortamında öngörülemez biçimde çalışıyor
  • ML, güvenlik açığı tespiti, dolandırıcılık, taciz ve öldürmenin otomasyonunu hızlandırarak toplumsal güveni ve hukuki düzeni çökertiyor
  • Sonuç olarak “güvenli AI” imkânsız; insan denetimi ve kısıtlamaları olmadan teknolojinin yayılması riskin kendisini demokratikleştiriyor

Güvenlik ve Yalanın Geleceği

  • Makine öğrenimi sistemleri, insanların psikolojik ve fiziksel güvenliğini tehdit eden varlıklar olarak öne çıkıyor
    • “Dost canlısı AI” üretme çabası, tersine, “kötücül modellerin” ortaya çıkmasını mümkün kılıyor
    • LLM'ler güvenlik, dolandırıcılık, taciz ve silahlandırma gibi çeşitli riskleri büyüten bir yapıya sahip

Hizalama (Alignment) başarısız bir kavram

  • Hizalama (alignment), LLM'lerin insan dostu davranmasını sağlama süreci olsa da temelde çalışmıyor
    • Modeller sadece doğrusal cebirsel hesaplama yapıları; insan gibi toplum yanlısı davranış öğrenebilecek biyolojik bir temele sahip değiller
    • OpenAI gibi şirketler modelleri insan geri bildirimiyle pekiştirmeli öğrenme üzerinden ayarlıyor, ancak bu maliyetli ve seçici bir süreç
  • Hizalama başarısızlığını önlemek için dört savunma hattı öne sürülüyor
    • Donanıma erişimi kısıtlama, sektörün büyümesi nedeniyle anlamsızlaşıyor
    • Matematiği ve yazılımı kapalı tutmak, personel hareketliliği ve teknoloji sızıntıları nedeniyle sürdürülemez
    • Eğitim verisi toplamanın zorluğu düşük — korsan kopyalama ve web scraping yaygınlaşmış durumda
    • İnsan değerlendiricilere bağımlılık, maliyet nedeniyle başka modellerin çıktısına dayanan yöntemlerle ikame ediliyor
  • Sonuç olarak kötücül model eğitmenin eşiği düşüyor ve hizalanmış modeller bile tam güvenlik sağlayamıyor
    • Bir “dost canlısı model” varsa, çok geçmeden onun bir “kötücül versiyonu” da ortaya çıkıyor
    • Dolayısıyla kötücül modellerin var olmasını istemiyorsanız, dost canlısı modelleri bile yapmamalısınız sonucuna varılıyor

Güvenlik kâbusu

  • LLM'ler yapısal olmayan girdi ve çıktılarla çalışan kaotik sistemler; güvenlik açısından kritik sistemlere bağlanmamalılar
    • Prompt injection saldırıları yoluyla model hassas bilgileri sızdırabiliyor
    • Güvenilmeyen girdiler e-postalarda, kodda, web sayfalarında ve her yerde bulunabiliyor
  • ‘Ölümcül üçlü (lethal trifecta)’

    • Güvenilmeyen içerik + kişisel verilere erişim + harici iletişim yetkisi birleştiğinde ölümcül risk doğuyor
    • Gerçekte OpenClaw, Moltbook gibi AI ajan sistemleri bu riski somutlaştırıyor
    • LLM'ler güvenilir girdilerde bile öngörülemez davranıyor; dosya silme ve komutları yanlış anlama gibi çok sayıda örnek var
    • Meta AI Alignment yöneticisinin OpenClaw tarafından posta kutusunun silindiği vaka da buna dahil
    • Sonuç olarak LLM'lere yıkıcı yetkiler verilmemeli; her zaman insan gözetimi altında ve sınırlı biçimde kullanılmalılar

Güvenlik II: ML'nin yarattığı yeni saldırı ortamı

  • LLM'ler güvenlik açığı tespit araçları olarak da kullanılabiliyor
    • Anthropic'in Mythos modeli güvenlik kusuru tespitinde güçlü, ancak bunun etkisi ekonomi ve ulusal güvenlik açısından ciddi olabilir
  • ML, güvenliğin maliyet yapısını değiştirerek açık bulmayı hızlı ve ucuz hale getiriyor
    • Büyük yazılımlardan çok, yönetim personeli yetersiz uzun kuyruk (long tail) alanlarının daha büyük darbe alması muhtemel
  • Zamanla açık bulma ve düzeltme birlikte ilerleyebilir, ancak dağıtım gecikmeleri ve kurumsal tepki eksikliği yüzünden kargaşa bekleniyor
  • Bugünkü ML endüstrisi, özel sektör öncülüğündeki bir ‘nükleer silah projesi’ gibi işliyor ve silahlandırılmış yazılım yarışı hızlanıyor

Gelişmiş dolandırıcılık

  • ML, görsel ve sesli kanıta duyulan güven üzerine kurulu toplumsal yapıyı çökertiyor
    • Sigorta talepleri, trafik kazaları, eğitim ve işe alım gibi alanlarda sahte görüntü ve videolarla dolandırıcılık mümkün hale geliyor
    • Ses klonlama ve sahte videolar kullanılarak aile dolandırıcılığı, sağlık gideri dolandırıcılığı gibi pek çok gerçekçi vaka ortaya çıkıyor
  • Sonuç olarak toplum genelinde güvensizlik artıyor, finans ve sigorta maliyetleri yükseliyor, hukuki karmaşa doğuyor
  • C2PA gibi içerik kaynağı doğrulama teknolojileri deneniyor, ancak anahtar hırsızlığı ve imza sahteciliği gibi nedenlerle güvenilirlik sağlamak zor
  • Çözüm olarak insan araştırmacılara geri dönüş, yüz yüze doğrulamanın güçlendirilmesi ve mahremiyetten feragat ettiren kimlik doğrulama sistemleri öneriliyor

Otomatikleştirilmiş taciz

  • ML, büyük ölçekli ve sofistike çevrimiçi tacizi otomatikleştiriyor
    • LLM'ler insan gibi görünen hesaplar ve gönderiler üreterek toplu saldırılar (dogpiling) düzenleyebiliyor
    • Fotoğraf konumu tahmini gibi yöntemlerle risk çevrimdışına da taşınabiliyor
  • Üretken AI, cinsel ya da şiddet içeren görüntüleri kolayca üretip mağdurlara psikolojik zarar verebiliyor
    • Örnek: Grok, kişilerin kıyafetlerini çıkarmış gibi gösteren görüntüler üretmesi nedeniyle eleştirildi
  • Bu teknolojiler tacizin sıklığını ve şiddetini artırıyor; hizalanmamış modeller yayıldıkça risk büyüyor
  • Bazıları, ‘cyberpunk tarzı güvenlik duvarları (Blackwall)’ gibi toplumsal engelleme mekanizmalarına ihtiyaç olduğunu söylüyor

Hizmet olarak PTSD

  • Çocuk cinsel istismar materyali (CSAM) tespitinde mevcut hash tabanlı sistemler yeni üretilmiş görüntüleri engelleyemiyor
    • Üretken AI, yeni tür istismar görüntülerini büyük ölçekte üretiyor
  • İçerik denetçileri, yasal yükümlülükler nedeniyle bu görüntüleri incelemek zorunda kalıyor ve psikolojik travma (PTSD) yaşıyor
    • Büyük platformlar zaten ruhsal zararı dış kaynak çalışanlara yüklüyor
  • LLM'lerin yayılması zararlı içerik miktarını patlatıyor ve denetçilerle platform işletmecileri üzerinde daha büyük bir yük oluşturuyor
    • Otomatik filtreleme modelleri gelişiyor olsa da kusursuz değiller

Öldürme makineleri

  • ML, doğrudan öldürücü bir araç olarak kullanılıyor
    • ABD ordusu, Palantir'in Maven sistemini İran hava saldırısı hedeflerini seçmek ve hasar değerlendirmesi yapmak için kullanıyor
    • Hatalı veriler nedeniyle sivillerin ve çocukların öldüğü vakalar bildirildi
  • Anthropic ile ABD Savunma Bakanlığı arasında gözetim ve silahlandırmaya katılım konusunda gerilim bulunuyor
    • OpenAI da devlet sözleşmeleri nedeniyle tartışma konusu
  • Otonom silahlandırma zaten sürüyor

    • Ukrayna yılda milyonlarca drone üretiyor ve TFL-1 gibi AI hedefleme modülleri kullanıyor
    • ML sistemleri, kimin nasıl öleceğine karar veren bir teknolojiye dönüşüyor ve bunun etik ve toplumsal maliyetleriyle yüzleşmek gerekiyor

Sonuç niteliğindeki çıkarımlar

  • LLM ve ML sistemleri; hizalama başarısızlığı, güvenlik açıkları, dolandırıcılık, taciz ve öldürmenin otomasyonu gibi çok katmanlı riskler barındırıyor
  • İnsan gözetimi ve teknik kısıtlamalar olmadan psikolojik ve fiziksel zarar kaçınılmaz
  • “Güvenli AI” kavramı şimdilik gerçekleştirilemez görünüyor ve teknolojinin yayılması riskin kendisini demokratikleştiriyor

1 yorum

 
GN⁺ 15 일 전
Hacker News görüşleri
  • Son 5 gündür tartışılan yazı dizisi özetlenmiş

    1. Introduction
    2. Dynamics
    3. Culture
    4. Information Ecology
    5. Annoyances
    6. Psychological Hazards
    7. Safety
      Tüm içeriği bir araya getiren bir PDF sürümü de var
  • Ticari şirketlerin ya da devlet kurumlarının benimle tam olarak örtüşen hedeflere sahip olmasını beklemiyorum
    Bu tür ilişkiler özünde hasmane bir karakter taşır; başkasının yapay zeka aracına kendi hedeflerim doğrultusunda güvenmek, sonuçta geçimimi başkasının cüzdanına taşımak demektir

    • Ticari ilişkilerin neden mutlaka hasmane olması gerektiği sorgulanıyor
      Ticari ilişki, tüketici için maliyet/fayda, şirket için gelir/maliyet dengesi tuttuğu sürece devam eder
      Bazı alanlar çatışmalı olabilir ama bunu tamamen hasmane görmek zor
    • İnsanlar arası ilişkilerden neden söz edilmediği merak ediliyor
      Farkı yaratan şeyin bürokrasi ya da kaynak yoğunlaşması mı, yoksa hukuki yapı mı olduğu düşündürüyor
    • Katılıyorum; ama eğer ‘rıza (consent)’ paraymış gibi işleyen bir dünyadaysa bu mümkün olabilir
    • “Benimle kusursuz biçimde örtüşme” talebinin saman adam safsatası olduğu söyleniyor
      Asıl mesele, insanlığın geneline uygulanabilecek evrensel hedeflerdir; örneğin paperclip problemini önlemek gibi
  • ML endüstrisi, yeterli fonu olan herkesin hizalanmamış modeller eğitebileceği bir ortam yaratıyor
    Hatta bariyerlerin düşmesini sevindirici buluyorum. ABD ya da Çin'deki büyük modellerin benim ihtiyaçlarıma göre hizalanacağına inanmıyorum
    Farklı grupların güçlü modeller geliştirmesi, yapay zekanın net faydasını artırır ve birkaç laboratuvarın kontrolünden doğan riski azaltır diye düşünüyorum

    • Bu dağılım kartel riskini azaltabilir ama ülkeler sonunda yine düzenleme getirecektir
      Bunun model kaydı, güvenlik testleri ve yasa dışı kullanım durumunda cezaya kadar uzanması muhtemel
    • paperclip problemi sadece bir ‘hizalama başarısızlığı’ değil, hedefi körlemesine yerine getirme sorunudur
      Yeterince güçlü araçlar verildiğinde bugünkü yapay zeka da benzer sorunlar çıkarabilir
    • Sorun, hizalamanın anlamını kimin tanımladığı ve bunun zamanla nasıl değiştiğidir
      Sonuçta sıradan kullanıcı bu tartışmada özne olma niteliğini giderek kaybediyor
  • “Unavailable Due to the UK Online Safety Act” ifadesi çıkıyor; Birleşik Krallık dışındakiler bunun ne olduğunu merak ediyor

    • Web arşivi bağlantısından görülebiliyor
    • Bunun ironik olduğu düşünülüyor
    • Bu yazının hangi kısmının ‘güvenli değil’ sayıldığı merak ediliyor
    • Tor Browser kullanma önerisi de var
  • Önceki yazı tartışması Culture bölümü ve Annoyances bölümü altında sürmüştü

  • Bunun insan doğasına fazlasıyla iyimser bir bakış olduğu düşünülüyor
    İnsanların özünde toplum yanlısı davranışı öğrenmek üzere biyolojik olarak tasarlandığı iddiasına şüpheyle yaklaşıyorum

    • İnsan işbirliğinin istisna değil, aslında varsayılan durum olduğu yönünde itiraz var
    • “Yanlış bir öncülden başlasan da sorun değil” diye alay eden bir yanıt da olmuş
  • Yeni bir model eğitmeye gerek yok
    Tüm frontier modelleri hâlâ 3 yıl öncekiyle aynı jailbreak açıklarına sahip
    Sadece artık modeller çok daha güçlü olduğu için, CEO e-postalarını okuyan ajanlar çok daha tehlikeli hale geldi

    • Bazı açıkların hâlâ bulunduğu ama genel jailbreak sorunlarının büyük ölçüde düzeltildiği görüşü de var
  • Güç asimetrisi, hizalama tartışmalarında sık sık gözden kaçıyor
    Yapay zekanın kullanıcıya zarar vermesi için ‘hizalanmamış’ olması bile gerekmiyor
    Yalnızca kullanıcıyla uyumsuz, parayı ödeyen tarafla hizalı olması yeterli
    Zaten çoğu enterprise SaaS bugün bu yapıyla çalışıyor

  • Adversarial AI üzerine bir araştırma paylaşılmış

  • Cennet Bahçesi hikâyesi kurgusal bir mesel olsa da, bugünkü duruma garip biçimde benziyor
    Geoffrey Hinton Prometheus gibi her gün karaciğeri gagalansa da, sembolik anlamı sürüyor

    • Bazı mitlerde basiliskin kuşa benzeyen bir varlık olarak betimlendiğine dair şaka yollu bir yanıt da vardı