Cloudflare, yapay zeka için güvenlik duvarını duyurdu

xguru · 2024-03-06T10:32:02+09:00

Cloudflare, büyük dil modellerinin (Large Language Models, LLMs) önüne yerleştirilerek kötüye kullanımı tespit eden yeni bir koruma katmanı olan 'yapay zeka için güvenlik duvarı'nı (Firewall for AI) geliştirdiğini duyurdu İnternete bağlı uygulamalar olarak LLM kullanmak yeni zafiyetler ortaya çıkarır ve bunlar kötü niyetli aktörler tarafından istismar edilebilir Mevcut web ve API uygulamalarını etkileyen zafiyetlerin yanı sıra, LLM'lerin çalışma biçimi nedeniyle yeni tehditler de ortaya çıkıyor Yapay zeka için güvenlik duvarı, LLM kullanan uygulamalara özel gelişmiş bir web application firewall (WAF) olup, zafiyetleri tespit eden ve model sahiplerine görünürlük sağlayan bir araç seti içeriyor LLM'ler neden geleneksel uygulamalardan farklı? LLM'leri internet bağlantılı uygulamalar olarak ele aldığımızda, geleneksel web uygulamalarına kıyasla iki temel fark bulunuyor Birincisi, kullanıcıların ürünle etkileşim kurma biçimi farklıdır. Geleneksel uygulamalar deterministikken, LLM'ler deterministik değildir ve doğal dil temellidir İkincisi, uygulamanın kontrol düzleminin veriyle etkileşim kurma biçimi farklıdır. Geleneksel uygulamalarda kontrol düzlemi (kod) ile veri düzlemi (veritabanı) net biçimde ayrılmışken, LLM'lerde eğitim verisi modelin kendisinin bir parçası haline gelir ve kullanıcı istemleri nedeniyle veri paylaşımını kontrol etmek zorlaşır OWASP LLM zafiyetleri OWASP Foundation, LLM'ler için en önemli 10 zafiyeti yayımlayarak dil modellerini nasıl korumak gerektiğini düşünmek için yararlı bir çerçeve sundu Bazı tehditler web uygulamaları için OWASP Top 10 ile benzer olsa da, dil modellerine özgü tehditler de bulunuyor LLM dağıtımı LLM'lerin riski, dağıtım modeline göre değişir. Şu anda üç ana dağıtım yaklaşımı bulunuyor Internal LLM (dahili): Şirketler, günlük işlerde çalışanlarını desteklemek için LLM geliştirir. Bu, şirket varlığı olarak kabul edilir ve çalışan olmayan kişiler erişmemelidir. Örneğin, özelleştirilmiş öneriler üretmek için satış verileri ve müşteri etkileşimleriyle eğitilmiş bir yapay zeka yardımcı pilotu ya da mühendislerin sorgulayabildiği dahili bilgi tabanı üzerinde eğitilmiş bir LLM verilebilir Public LLM (genel): Şirket dışından da erişilebilen LLM'ler. Bu çözümler genellikle herkesin kullanabildiği ücretsiz sürümlere sahiptir ve çoğunlukla genel veya kamusal bilgiyle eğitilir. Örneğin OpenAI'nin GPT'si veya Anthropic'in Claude'u verilebilir Product LLM (ürün): Şirket bakış açısından LLM, müşterilere sunulan ürün ya da hizmetin bir parçası olabilir. Genellikle şirket içinde barındırılan özelleştirilmiş çözümlerdir ve şirket kaynaklarıyla etkileşen araçlar olarak kullanılabilirler. Örneğin müşteri destek chatbot'u veya Cloudflare AI Assistant. Tüm senaryolarda modeli kötüye kullanımdan korumak, modelde depolanan tescilli verileri korumak ve kullanıcıları yanlış bilgi ya da uygunsuz içerikten korumak gerekir Yapay zeka için güvenlik duvarı Cloudflare'in yapay zeka için güvenlik duvarı, geleneksel bir WAF gibi konumlandırılır ve LLM istemlerini içeren tüm API isteklerini tarayarak olası saldırı kalıplarını ve imzalarını tespit eder Cloudflare Workers AI platformunda barındırılan modellerin ya da üçüncü taraf altyapıda barındırılan modellerin önüne yerleştirilebilir ve Cloudflare AI Gateway ile birlikte kullanılabilir Hacim saldırılarını önleme OWASP'nin listelediği tehditlerden biri Model Denial of Service'tir Geleneksel uygulamalarda olduğu gibi DoS saldırıları da kaynakları aşırı tüketerek hizmet kalitesini düşürür veya modelin işletme maliyetini artırır Bu risk, tekil oturumlarda istek oranını kontrol eden rate limiting politikaları benimsenerek azaltılabilir Hassas bilgilerin tespiti Hassas bilgiler için iki kullanım senaryosu vardır; bunlar, model ve verinin size ait olması ile kullanıcıların herkese açık LLM'lere veri göndermesini engellemek istemenize göre değişir OWASP'nin tanımladığı hassas bilgi ifşası, LLM'nin yanıtlarında gizli verileri dikkatsizce açığa çıkarmasıyla oluşur ve yetkisiz veri erişimine, gizlilik ihlallerine ve güvenlik ihlallerine yol açabilir Model kötüye kullanımını önleme (Preventing Abuse) Modelin kötüye kullanımı; 'prompt injection' ya da istek göndererek halüsinasyonlara yol açmak, yanlış, rahatsız edici, uygunsuz veya konu dışı yanıtlar üretmek gibi çeşitli yaklaşımları içerir Prompt injection, özel olarak hazırlanmış girdiler aracılığıyla dil modelini manipüle etme girişimidir ve LLM'nin istenmeyen yanıtlar üretmesine neden olur Yapay zeka için güvenlik duvarı nasıl kullanılır "Application Security Advanced" kullanan kurumsal müşteriler, Advanced Rate Limiting ve Sensitive Data Detection özelliklerini hemen kullanabilir Yapay zeka için güvenlik duvarının istem doğrulama özelliği şu anda geliştirme aşamasında ve önümüzdeki birkaç ay içinde Workers AI kullanıcıları için beta olarak sunulacak

(blog.cloudflare.com)

7 puan yazan xguru 2024-03-06 | 1 yorum | WhatsApp'ta paylaş

Cloudflare, büyük dil modellerinin (Large Language Models, LLMs) önüne yerleştirilerek kötüye kullanımı tespit eden yeni bir koruma katmanı olan 'yapay zeka için güvenlik duvarı'nı (Firewall for AI) geliştirdiğini duyurdu
İnternete bağlı uygulamalar olarak LLM kullanmak yeni zafiyetler ortaya çıkarır ve bunlar kötü niyetli aktörler tarafından istismar edilebilir
Mevcut web ve API uygulamalarını etkileyen zafiyetlerin yanı sıra, LLM'lerin çalışma biçimi nedeniyle yeni tehditler de ortaya çıkıyor
Yapay zeka için güvenlik duvarı, LLM kullanan uygulamalara özel gelişmiş bir web application firewall (WAF) olup, zafiyetleri tespit eden ve model sahiplerine görünürlük sağlayan bir araç seti içeriyor

LLM'ler neden geleneksel uygulamalardan farklı?

LLM'leri internet bağlantılı uygulamalar olarak ele aldığımızda, geleneksel web uygulamalarına kıyasla iki temel fark bulunuyor
Birincisi, kullanıcıların ürünle etkileşim kurma biçimi farklıdır. Geleneksel uygulamalar deterministikken, LLM'ler deterministik değildir ve doğal dil temellidir
İkincisi, uygulamanın kontrol düzleminin veriyle etkileşim kurma biçimi farklıdır. Geleneksel uygulamalarda kontrol düzlemi (kod) ile veri düzlemi (veritabanı) net biçimde ayrılmışken, LLM'lerde eğitim verisi modelin kendisinin bir parçası haline gelir ve kullanıcı istemleri nedeniyle veri paylaşımını kontrol etmek zorlaşır

OWASP LLM zafiyetleri

OWASP Foundation, LLM'ler için en önemli 10 zafiyeti yayımlayarak dil modellerini nasıl korumak gerektiğini düşünmek için yararlı bir çerçeve sundu
Bazı tehditler web uygulamaları için OWASP Top 10 ile benzer olsa da, dil modellerine özgü tehditler de bulunuyor

LLM dağıtımı

LLM'lerin riski, dağıtım modeline göre değişir. Şu anda üç ana dağıtım yaklaşımı bulunuyor
- Internal LLM (dahili): Şirketler, günlük işlerde çalışanlarını desteklemek için LLM geliştirir. Bu, şirket varlığı olarak kabul edilir ve çalışan olmayan kişiler erişmemelidir. Örneğin, özelleştirilmiş öneriler üretmek için satış verileri ve müşteri etkileşimleriyle eğitilmiş bir yapay zeka yardımcı pilotu ya da mühendislerin sorgulayabildiği dahili bilgi tabanı üzerinde eğitilmiş bir LLM verilebilir
- Public LLM (genel): Şirket dışından da erişilebilen LLM'ler. Bu çözümler genellikle herkesin kullanabildiği ücretsiz sürümlere sahiptir ve çoğunlukla genel veya kamusal bilgiyle eğitilir. Örneğin OpenAI'nin GPT'si veya Anthropic'in Claude'u verilebilir
- Product LLM (ürün): Şirket bakış açısından LLM, müşterilere sunulan ürün ya da hizmetin bir parçası olabilir. Genellikle şirket içinde barındırılan özelleştirilmiş çözümlerdir ve şirket kaynaklarıyla etkileşen araçlar olarak kullanılabilirler. Örneğin müşteri destek chatbot'u veya Cloudflare AI Assistant.
Tüm senaryolarda modeli kötüye kullanımdan korumak, modelde depolanan tescilli verileri korumak ve kullanıcıları yanlış bilgi ya da uygunsuz içerikten korumak gerekir

Yapay zeka için güvenlik duvarı

Cloudflare'in yapay zeka için güvenlik duvarı, geleneksel bir WAF gibi konumlandırılır ve LLM istemlerini içeren tüm API isteklerini tarayarak olası saldırı kalıplarını ve imzalarını tespit eder
Cloudflare Workers AI platformunda barındırılan modellerin ya da üçüncü taraf altyapıda barındırılan modellerin önüne yerleştirilebilir ve Cloudflare AI Gateway ile birlikte kullanılabilir

Hacim saldırılarını önleme

OWASP'nin listelediği tehditlerden biri Model Denial of Service'tir
Geleneksel uygulamalarda olduğu gibi DoS saldırıları da kaynakları aşırı tüketerek hizmet kalitesini düşürür veya modelin işletme maliyetini artırır
Bu risk, tekil oturumlarda istek oranını kontrol eden rate limiting politikaları benimsenerek azaltılabilir

Hassas bilgilerin tespiti

Hassas bilgiler için iki kullanım senaryosu vardır; bunlar, model ve verinin size ait olması ile kullanıcıların herkese açık LLM'lere veri göndermesini engellemek istemenize göre değişir
OWASP'nin tanımladığı hassas bilgi ifşası, LLM'nin yanıtlarında gizli verileri dikkatsizce açığa çıkarmasıyla oluşur ve yetkisiz veri erişimine, gizlilik ihlallerine ve güvenlik ihlallerine yol açabilir

Model kötüye kullanımını önleme (Preventing Abuse)

Modelin kötüye kullanımı; 'prompt injection' ya da istek göndererek halüsinasyonlara yol açmak, yanlış, rahatsız edici, uygunsuz veya konu dışı yanıtlar üretmek gibi çeşitli yaklaşımları içerir
Prompt injection, özel olarak hazırlanmış girdiler aracılığıyla dil modelini manipüle etme girişimidir ve LLM'nin istenmeyen yanıtlar üretmesine neden olur

Yapay zeka için güvenlik duvarı nasıl kullanılır

"Application Security Advanced" kullanan kurumsal müşteriler, Advanced Rate Limiting ve Sensitive Data Detection özelliklerini hemen kullanabilir
Yapay zeka için güvenlik duvarının istem doğrulama özelliği şu anda geliştirme aşamasında ve önümüzdeki birkaç ay içinde Workers AI kullanıcıları için beta olarak sunulacak

1 yorum

xguru 2024-03-06

Hacker News yorumları

Prompt injection ile jailbreak'in farklı olduğunu iddia ediyorlar ama bu tartışmada çoktan kaybetmiş gibi görünüyorlar. Cloudflare makalesine göre model kötüye kullanımı, prompt injection gibi yaklaşımları da içeren daha geniş bir kötüye kullanım kategorisini ifade ediyor. Prompt injection, geliştiricinin tanımladığı prompt ile kullanıcının güvenilmeyen girdisini birleştirdiğinizde ortaya çıkar. Güvenilir girdi ile güvenilmeyen girdi arasında böyle bir birleşim yoksa bu prompt injection değildir. Bu ayrım önemlidir ve genel jailbreak saldırılarına karşı eğitilmiş bir modelin bunu yakalaması zor olacaktır.
WAF (Web Application Firewall), güvenlik ekiplerinin kontrol edemediği veya anlayamadığı web hizmetleri için geçici bir çözümdü. Performans sorunları ve kötü niyetli trafiği etkili şekilde engellemek için ince ayar yapmanın zorluğu nedeniyle gözden düştü. WAF tabanlı yaklaşım, cehaletin kabulü ve zayıflığın bulunduğu yer anlamına gelir; modellere geçiş ise henüz doğrulanmış değil ve uygulamanın tepki veren kendi kendini koruması gibi fikirlere de ters düşüyor.
Sitemin yapay zeka eğitimi amacıyla scrape edilmesini engelleyen korumalar istiyorum. Bunun zaten kaybedilmiş bir savaş olduğunu hissediyorum ama mahremiyete önem veren başkalarının da aynı şekilde düşündüğünü görmek iyi oldu.
Cloudflare'ın çoğu ürününde olduğu gibi, bu ürün de ne kadar çok müşteri tarafından kullanılırsa o kadar faydalı hale geliyor ve müşteri başına o kadar az manuel çaba gerektiriyor. Cloudflare'ın değeri kurulum ve güvencede değil; neredeyse gerçek zamanlı olarak herkesin gördüğü saldırılara dair görünürlük ve bunun paketlenmesinde yatıyor.
Bu ürün çok iyi bir fikir gibi görünüyor. Bir güvenlik duvarı ekleyip açmak kadar basit olduğunda, diğer guardrail ürünlerine kıyasla ilgi ve benimsenme kazanması daha kolay olur. Genel amaçlı bir LLM güvenlik duvarının ne kadar faydalı olabileceğini, model ve kullanım senaryosuna göre ne kadar özelleştirme gerekeceğini ve bunun ne kadar mümkün olduğunu merak ediyorum. Ama bunun kolayca çözülebileceği anlaşılıyor.
Bu yazıdan anladığım kadarıyla Cloudflare kendini sansür ve kültür savaşı işlerine kaptırıyor. Cloudflare'ın ücretli kullanıcıları, kendi siyasi önyargılarını dayatmak için Cloudflare'a para ödeyecek ve yapay zeka kullanıcıları da Cloudflare'ı sansüre boyun eğmekle suçlayacak. Cloudflare gereksiz yere siyasi çatışmaların içine çekilebilir.
İstekleri filtrelemek için yapay zeka mı kullanıyorsunuz? O zaman bu tam bir cennet eşleşmesi olurdu!
[Mikrofona eğilerek] Gizli malzeme regex.
LLM'nin kötüye kullanımını önlemek için, LLM'nin satın al / satın alma kararı verdiği durumlarda akıllı ödeme kimlik bilgileri konusunda benzer bir yaklaşımla bir şeyler yapmak istediğimi uzun zamandır düşünüyordum. Fikir şu: ödeme kimlik bilgileri yalnızca meşru bir zincir tarafından istendiğinde tek kullanımlık bir token (veya benzeri bir şey) sağlasın. Bu alan üzerine düşünen biri varsa konuşmak isterim.
Uzun zamandır bir sonraki büyük pazarlama trendinin peşinden koşmayı sürdüreceklerini düşünüyordum. Güzel; CDN/DNS/WAF pazarında hâlâ böyle şeyleri önemseyen şirketler için daha fazla rekabet alanı açar.