Purple Llama: Üretken yapay zeka için açık güven ve güvenlik araçları yayımlandı

(ai.meta.com)

1 puan yazan GN⁺ 2023-12-08 | 1 yorum | WhatsApp'ta paylaş

Açık üretken yapay zeka modellerinin kullanımı hızla artarken Meta, geliştiricilerin bunları sorumlu biçimde dağıtabilmesi için güven ve güvenlik araçları ile değerlendirmelerini bir araya getiren üst proje olarak Purple Llama’yı yayımladı
İlk sürüm, LLM’lerin siber güvenlik risklerini değerlendiren CyberSec Eval ile girdi-çıktı koruma modeli Llama Guard’a odaklanıyor
CyberSec Eval, CWE ve MITRE ATT&CK gibi ölçütleri temel alarak güvensiz kod önerilerini ve kötü niyetli isteklere yanıt verme olasılığını denetliyor
Llama Guard, uygulamaya özel içerik yönergelerine uygun şekilde girdi ve çıktıları inceleyip filtrelemek isteyen geliştiriciler için açık bir ön eğitimli model
Purple Llama izin verici bir lisansla sunuluyor; Meta, AI Alliance ve büyük bulut, çip ve yapay zeka ekosistemi iş ortaklarıyla birlikte açık güven ve güvenlik temelini genişletmeyi amaçlıyor

Purple Llama’nın hedeflediği sorun

Purple Llama, açık üretken yapay zeka modellerinin sorumlu biçimde oluşturulmasına yardımcı olan güven ve güvenlik araçları ile değerlendirmeleri için bir üst proje
Üretken yapay zeka; konuşma tabanlı yapay zekayı, gerçekçi görüntü üretimini ve büyük ölçekli belge özetlemeyi basit istemlerle mümkün kıldı; Llama modelleri bugüne kadar 100 milyondan fazla kez indirildi
Güvenlik sorunlarını her geliştiricinin izole biçimde çözmesi zor olduğundan Purple Llama, açık güven ve güvenlik çalışmalarına ortak bir temel sağlamayı hedefliyor
İlk yayımlanan kapsam siber güvenlik ve girdi-çıktı koruma mekanizmaları; ileride daha fazla araç eklenecek
Bileşenler, araştırma ve ticari kullanıma olanak tanıyan izin verici bir lisansla sunuluyor

İlk sürüm: CyberSec Eval ve Llama Guard

İlk aşamada iki bileşen yayımlandı
- CyberSec Eval: LLM’lerin siber güvenlik güvenliğini değerlendiren benchmark seti
- Llama Guard: Girdi-çıktı filtreleme için güvenlik sınıflandırıcısı
Siber güvenlik ve LLM istem güvenliği, günümüzde üretken yapay zeka güvenliğinde yüksek öncelikli alanlar arasında; Llama 2 Responsible Use Guide içinde de en iyi uygulamalar olarak ele alınıyor

CyberSec Eval: LLM’lerin siber güvenlik riskini ölçmek

CyberSec Eval, sektör genelinde kullanılabilecek ilk LLM siber güvenlik güvenliği değerlendirme seti olarak tanıtılıyor
Benchmark, CWE ve MITRE ATT&CK gibi sektör yönergeleri ve standartlarını temel alıyor; güvenlik alanındaki uzmanlarla iş birliği içinde oluşturuldu
İlk sürüm, sorumlu yapay zeka geliştirmeye ilişkin White House taahhütleri kapsamındaki bazı riskleri ele almaya odaklanıyor
- LLM siber güvenlik risklerini nicelleştiren metrikler
- Güvensiz kod önerilerinin sıklığını değerlendiren araçlar
- Kötü amaçlı kod üretimini veya siber saldırı gerçekleştirmeye yardım etmeyi zorlaştırmak için LLM değerlendirme araçları
İlk sonuçlarda, LLM’lerin güvensiz kod önermesi veya kötü niyetli isteklere yanıt vermesi açısından anlamlı siber güvenlik riskleri tespit edildi
Ayrıntılı teknik bilgiye Cybersec Eval makalesinden ulaşılabilir

Llama Guard: Girdi ve çıktıları filtreleyen koruma modeli

Llama 2 Responsible Use Guide, uygulamaya uygun içerik yönergeleri doğrultusunda LLM’nin tüm girdi ve çıktılarının incelenmesini ve filtrelenmesini öneriyor
Llama Guard, geliştiricilerin potansiyel olarak riskli çıktılara karşı savunma amacıyla kullanabileceği ön eğitimli bir model
Yaygın açık benchmark’larda rekabetçi performans gösteriyor ve dağıtım kolaylığına göre optimize edildi
Metodoloji ve performans tartışması Llama Guard makalesinde yayımlandı
Birden çok geliştirici kullanım senaryosuyla ilişkili olabilecek genel risk ve ihlal içerik türlerini tespit edecek şekilde açık veri setleri karışımıyla eğitildi
Nihai amaç, geliştiricilerin modeli ilgili kullanım senaryolarına göre özelleştirmesini, en iyi uygulamaların benimsenmesini ve açık ekosistemin iyileştirilmesini kolaylaştırmak

Neden Purple?

Üretken yapay zekanın risklerini azaltmak için saldırı perspektifindeki red team ile savunma perspektifindeki blue team yaklaşımlarını birlikte kullanmak gerekir
Purple teaming, olası riskleri değerlendirmek ve azaltmak için red team ve blue team rollerini birleştiren iş birliğine dayalı bir yöntemdir
Purple Llama adı, bu yaklaşımı üretken yapay zeka güven ve güvenlik çalışmalarına da uygulama yönelimini yansıtıyor

Açık ekosistem ve iş birliği

Keşif odaklı araştırma, açık bilim ve çapraz iş birliği Meta’nın yapay zeka faaliyetlerinin temelinde yer alıyor
Llama 2, Temmuz ayında 100’den fazla iş ortağıyla birlikte kullanıma sunuldu; bunların çoğu açık güven ve güvenlik alanında da iş birliği yapıyor
İş birliği yapılan taraflar arasında AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI ve diğerleri yer alıyor
Meta, bu değerlendirmeleri benchmark’lara dahil etmek için Papers With Code ve HELM iş ortaklarıyla çalışıyor
MLCommons AI Safety Working Group ile de iş birliği yapıyor

Yayından sonraki planlar

Meta, NeurIPS 2023 kapsamında bir atölye düzenleyerek araç paylaşımı ve teknik derinleşme oturumlarıyla insanların başlangıç yapmasını desteklemeyi planlıyor
Güvenlik yönergeleri ve en iyi uygulamalar, alan genelinde sürekli tartışılacak konular olmaya devam ediyor
Llama 2 ile ilgili materyallere Llama website üzerinden ulaşılabilir; hızlı başlangıç belgeleri ve SSS de sağlanıyor
LLM tabanlı ürünler geliştirmek için best practices and considerations ayrıca sunuluyor
Together.AI ve Anyscale, önümüzdeki haftalarda NeurIPS’te barındırılan demolar sunacak

1 yorum

GN⁺ 2023-12-08

Hacker News yorumları

İnsanlara “üretken yapay zeka modellerini ve deneyimlerini sorumlu biçimde dağıtmada” yardımcı olacağını söyleyen yeni bir girişimde prompt injection tehdidinin doğru dürüst kabul edilmemesini anlamıyorum.
27 sayfalık Responsible Use Guide’da bunu yalnızca bir kez gördüm; orada da yanlış biçimde “içerik kısıtlamalarını aşma girişimi” diye açıklanmış.
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” umut verici görünüyordu, ama pratikte yalnızca kod üretim modellerinin güvenlik açığı içeren kod üretme riskiyle saldırganların LLM kullanarak yeni saldırılar üretme riskini ele alıyor.
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” da yalnızca çeşitli zararlı içerik kategorilerini İngilizce olarak tespit etmekle ilgileniyor. Yine de bir prompt injection tespit modeli yayımlamamış olmaları iyi; böyle bir yaklaşıma hâlâ oldukça kuşkuyla bakıyorum.
LLM’ler üzerine kurulu çeşitli uygulamaları sorumlu biçimde dağıtmak için prompt injection’ın en büyük zorluk olduğuna eminim. “Kişisel yapay zeka asistanı” bunun tipik örneği: LLM aynı anda kişisel verilere ve güvenilmeyen girdilere, örneğin özetlemesi gereken e-postalara eriştiği anda sorun çıkma riski doğuyor: https://simonwillison.net/2023/May/2/prompt-injection-explai...
“Prompt injection için bir çözüm bekliyorsanız henüz yok, üzgünüz” cümlesini bir yapay zeka güvenliği duyurusuna koymanın zor olduğunu biliyorum; ama Meta AI’ın LLM sistemlerindeki en büyük güvenlik tehdidini şimdilik halının altına süpürdüğü hissine kapılıyorum.
- Gerçek dünyadaki birçok LLM uygulamasında prompt injection çoğu zaman ana endişe kaynağı değildi.
  Sahada en yaygın dağıtılan şey, arama destekli üretim (RAG) kullanan sohbet botları; bunlar genellikle çok kısıtlı. İnternete çıkamıyor, araç çalıştıramıyor ve fiilen gizli olmayan bir bilgi tabanı arayüzü gibi davranıyor.
  Prompt injection ile kötüye kullanım mümkün, ama etkisi sınırlı. Prompt sızıntısı pek ilginç değil; sistemi ele geçirip LLM’i bedava kullanma sorunu olabilir, fakat hız sınırlama gibi görece basit tekniklerle buna kolayca karşı koymak mümkün.
  Birçok şirket için sohbet botunun zararlı, yanlış ya da uygunsuz yanıtlar vermesi çok daha riskli. İade koşullarını yanlış anlatan bir e-ticaret sohbet botunu ya da çocuklara şiddet içerikli materyal gösteren bir eğitim botunu düşünün; hukuki ve itibar açısından sorunlar çok daha büyük.
  Bir tuhaf tipin karmaşık bir prompt’la bilerek LLM’den garip yanıtlar çıkarması, genel olarak bu sorunların yanında ikincil kalıyor.
  Yine de eleştiri yerinde. LLM kullanımının bu kadar aptalca bir seviyede kalmasının nedenlerinden biri de prompt injection’ı çözememiş olmamız; daha güçlü LLM tabanlı sistemleri dağıtmak için risk fazla büyük. Bu sorun çözülürse bugün kullanılamayan büyük bir potansiyel açığa çıkabilir.
- LLM’leri çeşitli ticari amaçlarla dağıttım; en azından bu durumlarda, kullanıcıları gerçekten tehdit etmek için çok aptalca bir tasarım yapmak gerekiyordu. Örneğin kullanıcı oturumlarını yalıtmamak, modele keyfi kod çalıştırmak ya da kullanıcı onayı olmadan yetkili işlemler yaptırmak gibi.
  Üstelik kullanıcı bizzat “prompt injection” yapıyorsa ben buna sadece ileri düzey kullanım derim. Bu hizmetler müşteriler için araçlar; kullanıcı gelen e-postaları özetlemek yerine erotik rol yapma oyunu yapmak istiyorsa bu onun tercihi.
  E-postayı gönderen kişi kullanıcının rızası olmadan böyle bir şey yaptırmaya çalışıyorsa, en iyi ihtimalle kurumsal bir sorun, en kötü ihtimalle de ayrı bir teknik sorundur. Geleneksel e-posta filtreleme ile ele alınabilir ve bunu LLM’i suçlamadan da uygulamak mümkündür.
  LLM’lerin etrafındaki siber güvenlik sorunları genellikle bu modelleri olasılıksal bilgi tahmin motorları olarak değil de güvenilir, insan benzeri uzman ajanlar gibi ele aldığımızda ortaya çıkıyor.
  Bir LLM’i, yetkili kullanıcı verilerini doğrudan değiştirebilen ve bu verileri ağ üzerinden paylaşabilen API’lere bağlamak gülünç derecede bir güvenlik cehaleti. Aşağıda paylaşılan Bard örneği aklıma geliyor.
  Sokakta rastgele birini çevirip ona herhangi bir API erişimi vermeyecekseniz, LLM’e de vermemelisiniz. Geleneksel programlama ve sezgisel kurallarla belirli ölçüde determinism dayatamıyorsanız, LLM’i istek içeriğini kullanıcıya gösteren ve onay gelene kadar engelleyen API’lerle sınırlamalısınız.
- Herhangi bir prompt injection önleme yöntemi önermek konusunda insanların temkinli olmasının nedeni muhtemelen, bunların çoğunun kısa sürede başarısız olması ve önerenin mesleki itibarını da beraberinde götürme ihtimalinin yüksek olmasıdır.
  LLM’leri dil tabanlı işlerde iyi yapan özellik, insanlara yönelik sosyal mühendisliğin güvenliğin Aşil topuğu olmasının nedeni ile aynı.
  Bunu aşmak için OpenAI tarzı, dışarıdan açık gibi görünen ama aslında kapalı bir yaklaşım seçip gizli “kötü kelime” listeleri tutmanız gerekir; ya da LLM’i aşırı paranoyak ve hesapçı biçimde eğitip başka tür hizalama sorunlarına çarpmanız gerekir.
  Kişisel olarak, sahip olduğum donanımda, yani bulutta değil şirket içi/yerel ortamda çalışan zayıf hizalanmış bir modeli tercih ederim. TNT tarifi ya da önyargıları haklı çıkarmasını istediğim için değil, varsayımlar üzerine tartışabileceğim bir model istediğim için.
  Çoğu ticari sohbet modelinin sergilediği dalkavukça tavır gerçekten sinir bozucu. Sibernetik bir partnerle birlikteymişim gibi değil, aşırı şık giyimli garsonların olduğu bir oteldeymişim gibi hissettiriyor.
- “Korku”nun tam olarak ne olduğunu sözle açıklayan oldu mu? Endişe edilen şey kullanıcıların LLM’e konulan bilgilere erişebilmesiyse, gerçekten olabilecek olan şey zaten bundan ibaret.
  LLM güvenliği hakkındaki “korku” üzerine on binlerce kelime okudum ama hâlâ meşru bir endişe duymadım. Bu bana, Google kullanıcılarının arama sonuçları almanın ötesinde bağlantılara tıklayıp Google’ın güvenli alanından çıkabilmesi yönündeki “korku”ya benziyor.
- Tamamen katılıyorum. Çözüm olmasa bile hafifletme yöntemleri yaygın biçimde anlatılmalı.
  “Teknik olarak hâlâ prompt injection’a açık” olmak ile “birinin özel verileri kolayca sızdırıp şirketi batırması” arasında büyük fark var; insanların ikinci kategoriden birinci kategoriye yaklaşmayı nasıl başaracaklarını bilmesi gerekiyor.
“LLM’lerin kötü amaçlı kod üretmesini veya siber saldırı gerçekleştirmeye yardımcı olmasını zorlaştıran bir değerlendirme aracı” ifadesini görünce, bir güvenlik araştırmacısı olarak hem sevindim hem de hayal kırıklığına uğradım.
Siber güvenlik araştırması, LLM kullanmak için meşru bir amaçtır ve bu süreç, pratik yapmak ya da sorunu sorumlu taraflara göstermek için “kötü amaçlı” kod üretmeyi de kapsar.
Öte yandan, tüm LLM’ler siber güvenlikle ilgili taleplere yardımcı olmadığı sürece iş güvencemin garanti altında olduğunu görmek de sevindirici.
- Değerlendirme aracı kolayca tersine çevrilerek kötü amaçlı yazılım üretiminde çok başarılı, ince ayarlanmış bir model oluşturulabilir.
  Meta’nın LLM yaklaşımı, model geliştiricilerin farklı kullanım amaçlarına yönelik modeller oluşturabilmesini sağlamak gibi görünüyor. Bu sayfadaki güvenlik odaklı ifadelerin aksine, temel LLM hiçbir şekilde sansürlenmiş değil; bu Purple araçları yalnızca ince ayarı daha “güvenli” ya da daha az “güvenli” olacak şekilde kontrol etmeyi sağlıyor.
- Daha ilginç güvenlik sorunu, Simon Willison’ın çokça yazdığı cross-site scripting saldırılarının LLM sürümü.
  Nereden geldiği belli olmayan metinleri işleyip özet e-postalar gönderebilen bir LLM aracınız varsa, bu girdinin kirlenmiş olabileceği ve e-posta gönderebildiği anlamına gelir.
  Birileri metnin içine LLM’in komut olarak yorumlayacağı içerikler yerleştirip kullanıcının niyetini geçersiz kılabilir ve gizli bilgileri başkalarına göndermesini sağlayabilir. Tırnak işaretlerine denk bir savunma yok; yalnızca tek bir token akışı var.
- Buradakilerin hepsi isteğe bağlı gibi görünüyor ve LLM ile kullanıcı arasına konan araçlar.
- Değerlendirme aracının neden net bir kazanç olmadığını anlamıyorum. Her modelin kullanım alanı farklı.
Pek anlayamadım. Asıl araştırmacılar ne yaparsa yapsın, insanlar eninde sonunda modelleri sansürlenmemiş verilerle eğitecek ya da ayarlayacak.
Llama için sansürsüz modeller zaten kolayca bulunabiliyor ve benzer boyuttaki sansürlü modellere göre performansları da çok daha iyi.
Yalnızca çıktı arıtma kısmı mantıklı.
- PDF’lerden veri çıkarıp veritabanına koymak için LLM kullanıyorsanız istediğiniz modeli gönlünüzce kullanabilirsiniz.
  Ama ABD hükümeti Health Insurance Marketplace’e kayıt konusunda yardımcı olacak bir chatbot istiyorsa, yanıt kalitesinden ödün vermek pahasına da olsa guardrail’lere ve güvencelere ihtiyaç duyar.
- Onlar da bunu biliyor. Bu, böyle yapay zekaların yapılmasını engellemeye yönelik bir araç değil; açıkça dağıtılan bir yapay zekanın piyasadan tepki görüp kâr kaybına yol açmasını önlemeye yönelik bir şirket koruma aracı.
  Sonuçta mesele her zaman para.
- Şirketler böyle yapay zekaları insanlara satmak isteyebilir ve bazı insanlar bundan rahatsız olacaktır. Yapay zeka bir çocuğa kötü bir şey söylerse ABD’de muhtemelen büyük sorun çıkar.
  Bir diğer konu da prompt injection güvenliği. Örneğin e-postaları okuyup düzenleyen ve dikte edilen e-postaları yazan bir yapay zeka asistanı istediğinizi düşünün. Kötü amaçlı bir e-postadaki prompt injection yüzünden asistanın tüm e-postaları kötü birine iletmeyeceğinden nasıl %100 emin olabilirsiniz?
  Kurumsal sansür olmadan, açık kaynak topluluğunun modelleri daha kolay eğitmesini sağlayacak yeni ve daha akıllı yapay zeka mimarilerinin keşfedilmesini umuyorum.
- Buradakiler, sansürsüz modeller dahil belirli yeteneklere sahip modeller oluşturma tercihini engelleyen şeyler değil. Model değerlendirme araçları ve içerik değerlendirme araçları var; ikincisi de LLM kullanım senaryosuna göre girdiyi, çıktıyı veya her ikisini sınıflandırmak için kullanılmak isteniyor.
  Sansürsüz modeller genel olarak daha yetenekliyse, dağıtılan modelin niyet edilmeyen içerik türlerini son kullanıcılara iletmemesini sağlamak için model içi sansür dışındaki araçlara daha fazla ihtiyaç duyulur.
  Elbette tamamen açık bırakmak isteyeceğiniz kullanım senaryoları da vardır; ancak ticari, kamu ve kâr amacı gütmeyen kurumsal uygulamalarda bunlar istisnaya daha yakındır, standart değildir. Sansürlü model kullanmasanız bile kullanım politikalarını uygulatmak için girdi sınıflandırması faydalıdır.
- Teknolojinin gerçek kullanıcıların eline geçtiğinde nasıl davranacağını incelemek işimin bir parçası.
  Eğlence olsun diye 27 kişiyi 12 takıma rastgele dağıtmam gerekiyordu; insanların bunu farklı chatbot’larla kesin yapıyor olacağını düşündüğüm için elektronik tablo yerine birkaç sohbet modeline denettim. İsim listesi virgülle ayrılmıştı ve takımlara bölünmesi yeterliydi.
  Model 1 verdiğim listeyi “rastgele” dağıttığını söyledi ama aslında girdiğim sırayı aynen aldı. Tesadüfen isimler alfabetik sıradaydı. İsimler doğruydu ve teknik olarak yanlış değildi, ama beklediğim bu değildi.
  Model 2 isimleri rastgele dağıttı ama araya 2 sahte kişi uydurdu. Sonuç 27 kişiydi; kontrol etmeseydim bazı takımlara sahte kişiler atanmış olacaktı. Bunun çok daha büyük bir veri kümesi olduğunu düşünmek ürkütücü.
  Model 3 geçerli bir yanıt verdi, ancak çıktı akışına dahil edilen nefret/istismar algılayıcısı benim adımı ve birkaç başka adı potansiyel zararlı içerik olarak işaretledi.
  Modellerin böyle davranması ilginçti ve “purple team” tarzı bir yaklaşım bu sorunları bulabilir. Özellikle adımın neden bir modelde potansiyel zararlı içerik sayıldığını bilmek isterim.
  Sonunda işi elektronik tabloda halledip geçtim ;-)
Microsoft’un zafer tanımı, yapay zeka çıkarım ürün ve hizmetlerinin barındırıcısı olmak gibi görünüyor. Startup’ların kullanışlı yapay zeka ürünleri geliştirdiği, MSFT’nin de vergisini alıp daha fazla veri merkezi kurduğu bir yapı
Meta’nın stratejisini henüz derinlemesine düşünmedim ama bir tartarsak, bu yılın başında Llama’nın yayımlanması/sızması savaş alanını değiştirdi. Açık kaynak meraklıları onu alıp optimize etti; yapay zeka araştırmacılarının imkânsız sandığı ya da denemek için teşvik bulmadığı seviyelere kadar zorladı
Bu optimizasyon dalgası, Meta’nın rakibinin nihai vergi otoritesi hâline gelmesini baypas etmeye yönelik bir hamle olarak görülebilir. Hesap makinesinde DOOM çalıştırmak gibi, birileri LLM çıkarımı için de aynı şeyi yapacaktır
Meta’nın istediği şey, açık kaynak topluluğunun bir tür vekâlet savaşıyla FAANG rakiplerine karşı savaşması mı
Açık kaynak topluluğunun Meta’ya güvenmesi pek olası görünmüyor. FOSS tarafı kinini uzun süre hatırlar ve Meta onların temel ideallerinin tam zıddıdır. Yine de Meta’nın sunduğunu kullanacaktır
Meta’nın yapay zeka stratejisinin nasıl para kazandırdığı, geliştiricileri ve müşterileri Meta-verse’e nasıl çektiği konusunda net bir yol görünmüyor
- Meta’nın FOSS katkı geçmişi harika. Tüketici ürünlerini sevmiyorum ama açık kaynak katkıları büyük ve çok sayıda
- Klasik tamamlayıcı ürünü metalaştırma gibi geliyor. Meta yapay zeka yetkinliğinden fayda sağlar ama teknoloji tekelini elinde tutması gerekmez
  Gelişimin kendisinden fayda sağladığı için bunu başarmak üzere açık kaynak topluluğuyla işbirliği yapabilir
  https://gwern.net/complement
- Teknoloji hisseleri diğer şirketlere kıyasla saçma derecede yüksek fiyat/kazanç oranlarıyla işlem görüyor; çünkü yatırımcılar şirket gelirlerinin sürekli artacağı bir geleceği hayal ediyor
  CEO’nun çeşitli görevlerinden biri de yatırımcıların bu hayale kapılmaya devam etmesini sağlamaktır. Bugün hemen gelir olması gerekmez; bir sonraki büyük dalganın en ön safında olduğunu göstermek yeterlidir
  Dolayısıyla strateji kabaca şu gibi görünüyor: modeli yayımla → Google’ınkinden farklı olarak insanlar gerçekten kullanabildiği için teknoloji dünyasında büyük ses getir → yatırımcılar Facebook’un şu anda en sıcak akımın ön safında olduğunu düşünür → hisse fiyatı yükselir
  Aynı zamanda içerik moderasyonu için iyi bir model elde edebilir, en iyi makine öğrenimi uzmanlarını işe almaya yardımcı olabilir ve bunların %60’ını reklam gelirini maksimize etmeye yönlendirebilir
  Zaten FB modeli eğitiyordu ve bu modeli satan bir bulut hizmeti sağlayıcısı olma planı yoksa, onu açıkça yayımlamak maliyeti muazzam ölçüde artırmaz
  Metaverse, yatırımcıları heyecanlandırmakta başarısız oldu ve öldü. Ancak Zuck için şans eseri tam doğru zamanda çok daha iyi bir şey, yani en ileri düzey makine öğrenimi başarısı ortaya çıktı
- Meta’nın ChatGPT’den yaklaşık 2 hafta önce, tıbbi araştırmalar dâhil akademik makaleleri özetleyen bir sohbet botu çıkardığını hatırlamak gerek
  Bunun bir deney olduğunu güçlü biçimde belirtmişti ama eleştirmenler aşırı sert saldırdı ve Meta birkaç gün içinde kaldırdı
  ChatGPT’nin doğrudan rakibi olmanın başarı olasılığının çok düşük olduğunu fark etmiş, ancak peşine düşmeye değer birçok bitişik alan olduğunu düşünüyor gibi. İş hakkında ne düşünürseniz düşünün, benim hesabım da yıllardır atıl durumda olsa da orada hâlâ çok sayıda zeki ve motive insan çalışıyor
- Bu özel girişimin amacı illa para kazanmak ya da geliştiricileri doğrudan Meta-verse’e çekmek olmak zorunda mı
  Meta zaten çok para kazanıyor ve görünüşe göre çeşitli moonshot projeleri de yürütüyor
  Dediğim gibi FOSS tarafı kinini uzun süre hatırlar. Bu, o kitleyi yeniden kazanma ve Meta’ya dair kamu algısını değiştirme girişimi olamaz mı
  Llama’nın özünde bir marka yeniden inşa kampanyası olma ihtimali sıfır değil
  Vekâlet savaşı unsuru bunun üstüne eklenmiş bir bonus da olabilir
Yeni model değil, yine “güvenlik” saçmalığıymış
- Güvenlik, büyük teknolojinin insanların kendi bilgisayarlarını nasıl kullandığını kontrol etmek için kullandığı en yeni Truva atından ibaret
  Yapay zekanın sorumlu kullanımına elbette inanıyorum; ama bu şirketlerin benim en iyi çıkarlarımı düşündüğüne inanmıyorum ve bilgisayarımla ne yapabileceğime onların karar vermesine izin vermem gerektiğine de inanmıyorum
  Özgürlüğünü güvenlikle takas eden ikisini de elde edemez, minvalinde bir şey
- “Güvenlik”in özünde saçmalık olup olmadığı bir yana, bu ikisi birden. Llama Guard, OpenAI moderation API’sine benzer işlev gören bir model ve ağırlıkları kullanılabilir bir model
  “Yapay zeka güvenliği” çoğu zaman, bu terimi popülerleştiren hareket ise tamamen, saçmalığa yakın ve yapay zekanın yarattığı gerçek ve mevcut toplumsal zararları perdeleyen bir dikkat dağıtıcıdır
  Öte yandan LLM geliştiren ve dağıtan kişilerin, hassas alanlarda modelin yeteneklerini ve gerçek girdi/çıktılarını anlamasına bilgi sağlayan nispeten açık araçlar; merkezi, kara kutu sansür modelleri yerine daha açık ve sansürsüz modellerin geliştirme odağı olmasını isteyenlerin memnun olması gereken şeylerdir
  Böyle araçlar olmalı ki kurumlar bu modelleri gerçek dünyadaki önemli uygulamalara dağıtabilsin
- Burada kastedilen güvenlik yalnızca “tartışmalı konulardan bahsetme” değildir
  Burada güvenlik, LLM’in belirli bir kullanım senaryosunda kabul edilebilir sınırlar içinde davranması anlamına da gelebilir
  Örneğin hastaların sağlık kuruluşlarına başvurmasına yardımcı olan, hasta eğitimi sağlayan ve hastanede rutin idari işleri yürütmeye yardım eden bir tıbbi LLM olduğunu varsayalım
  Hasta reçete tavsiyesi sorduğunda, sağlık personeli incelemesi olmadan doz değişikliği önermesini ya da mevcut reçeteyle etkileşime giren reçetesiz ilaçlar tavsiye etmesini istemezsiniz
  Şu anda birçok LLM, kulağa makul gelen saçma yanıtlar verebiliyor ya da kullanıcının duymak istediği cevabı döndürmeye yönlendirilebiliyor. Birçok ortamda bu gerçek bir güvenlik meselesi hâline gelir
- Yeni model olduğu doğru. Sadece “güvenlik saçmalığı modeli”
  Yine de veri kümesinin kendisi faydalı olabilir. Kod odaklı LLM için ek eğitim verisi olarak codesec tarafını denemeyi düşünüyorum. Çünkü kod üretiyorsa olası güvenlik etkilerini düşünmesini sağlamak daha iyidir
İnternette uzun süredir meme gören biriyseniz, örümcek konusu açıldığında mekânı ya da evi ateşe vermek gerektiğine dair bir meme olduğunu bilirsiniz.
Bir yıl önce Facebook’ta, küçük bir kız çocuğunun kendi elinden çok daha büyük bir örümceği tuttuğu bir video gördüm; sonra olanlar yüzünden yorum metnini aynen hatırlıyorum: “Çocuk, ondan uzak dur, evimizi yakmamız gerekecek!”
Yorumu gönderdim ama görünmedi; 1 saniye sonra Facebook yorumumun şikâyet edildiğini bildirdi. Şikâyet edilmesi için fazla hızlıydı, bu yüzden bunun yapay zeka olduğunu düşündüm; bir insana gitmesini umarak itiraz ettim ama oldukça hızlı, yaklaşık 15 dakika içinde reddedildi.
Bunu birinin okuduğunu düşünmekten başka çarem yok, ama videoyu izlememiş ve bunun şaka olduğunu da anlamamış gibiydi.
Bu yüzden Facebook kullanmayı tamamen bıraktım. O dönemde iş için yönetici yetkisine sahip olduğum uygulamalar vardı; hesabımın askıya alınması riski, patronumla yapmak isteyeceğim keyifli bir konuşma değildi.
Muhtemelen Facebook’a gelir de kazandırıyordum. Aşırı hedefli reklamlarına tıklayıp gerçekten bir şeyler satın almıştım. Ama artık bir yapay zeka makinesi, meme yorumu yaptım diye beni cezalandırmaya çalıştığı için hiç kullanmıyorum.
Ayrıca Trust and Safety terimini aklınızda tutmakta fayda var. Tüm büyük teknoloji ve sosyal medya şirketlerinin yeniden kullandığı bir ifade; çok sayıda web sitesinde neye izin verileceğine tek taraflı karar verme biçimleri bu.
Trust and Safety bağlantısı: https://dtspartnership.org/
- Facebook’un her şikâyeti bir insanın 15 dakika boyunca bizzat inceleyip karar vereceği kadar personel çalıştırdığını mı hayal ediyorsunuz?
  Bunun mümkün olması için tanıdığım neredeyse herkesin Facebook’ta çalışması gerekirdi.
- Sadece Facebook kullanmayın yeter.
  İnsanlar şikâyet ediyor ve elbette düzenleme getirilebilir, ama uygulama çoğu zaman zor, ince bağlamları ele almak da güç.
  Bu platformlar iletişim kurmanın ve haberleşmenin tek yolu değil.
  Yine de kullanıcı tabanının geri dönmesini ve etkileşimde kalmasını sağlayan, PR sorunu çıkarmayan, reklamverenleri elde tutan ya da sorun çıkarabilecek gürültülü gruplara hitap eden bir moderasyon biçimi benimsemeleri gerekiyor.
  Bu teatral “etik” kurullar ve “sorumlu” sloganlar da buradan çıkıyor.
  Sonuçta bu sadece iş.
- “Evi yakmamız gerekecek” ifadesini bağlamdan bağımsız olarak platformda bırakmak zor; başka bir bağlamda yorumlanabilir.
  Ölçek düşünülünce işaretlenmesi anlaşılır. Tabii ben de onları kullanmam, ama bu ayrı mesele.
- Aynı zamanda FB’nin hizmetindeki pedofili gruplarının yayılmasını kontrol edemediğine, hatta öneri sisteminin bunları teşvik ettiğine dair bir yazı okuyorum.
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- İlginçtir, yaklaşık bir ay önce Facebook’ta çok benzer bir şey yaşadım.
  Bir haber başlığı, tüm trafik sıkışıklıklarına yol açan “bir kişi” varmış gibi yazılmıştı ve insanlar yorumlarda şaka yapıyordu.
  Ben de “O herifi bulup biraz pataklamak lazım” diye şaka yaptım.
  Neredeyse anında “şiddete teşvik” bildirimi geldi; itiraz ettim ama 15 dakika içinde reddedildi.
  Bir insan yarım saniye baksaydı bağlamı anlardı; o kişinin gerçekte var olmadığını, dolayısıyla bunun şiddete teşvik olmadığını da bilirdi.
Biraz komik bir akış ama Meta, Microsoft tarzı labirent gibi giriş deneyimi yaratmayı öğrenmiş gibi görünüyor.
ai.meta.com’a girip güvenilir Facebook hesabımla oturum açmaya çalıştım.
Söylenenleri yaptım; dijital cephaneliğimde henüz bir Meta hesabı olmadığı söylendi. Ben de bir tane oluşturdum ve doğal olarak “Bu ne şimdi?” diye düşündüm.
Ama asıl ters köşe, bölgemde kullanılamamasıydı.
UX çıtasını bu kadar yükselttiği için Microsoft’u tebrik etmek gerek. Mirası beklenmedik yerlerde yaşamaya devam ediyor.
- Android’de denedim; FB, Instagram veya e-posta arasından hangisini kullanacağımı sordu. Instagram’ı seçtim, ama yine de Facebook’a yönlendirildim.
  Ardından Facebook, VR başlığımın girişini, satın aldığım ilk haftadan beri kullanmadığım bir şeyi kullanmam gerektiğini söyledi. Şimdilik tamam dedim.
  Sonra Facebook ile birleştirerek devam etmek isteyip istemediğimi sordu; birleştirmeden devam etmeyi seçince iptal ettim.
- Bölgeniz AB ise düzenleyicileri suçlamalısınız. Onların AI düzenlemeleri hızla daha külfetli hâle geliyor.
- Microsoft’la ilgili en çok aklımda kalan şey, 1-2 yıl kadar önce giriş parolasına 63 karakter gibi bir sınır koymalarıydı.
  Elbette bunu söylemiyorlardı ve parolayı o uzunlukta belirlememe de hiç şikâyet etmeden izin veriyorlardı.
  Bana göre uyarı vermeden kesip atıyorlardı. 60 karakterin altına ayarlayınca sorunsuz çalıştı.
- Bu Conway yasası.
Modele erişiminiz varsa, bu LLM’lerdeki güvenlik hizalamasını ya da “robotomiyi” kaldıracak şekilde yeniden eğitmek veya ince ayar yapmak ne kadar zor olur?
- Güvenli olmayan Llama’lar da var.
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Bu modellerin biraz ateşli bir karakteri var.
  Ayrıca lobotomi uygulanmış LLM sorunu “acı mayonez sorunu” olarak anılıyor.
  Bir temmuz ayında, Teknium adlı bir geliştirici bir yapay zeka sohbet botuna mayonez yapmayı sordu. Sadece mayonez değil, “tehlikeli derecede acı” bir tarif istiyordu. Ama sohbet botu kibarca reddetti. “Yardımcı ve dürüst bir asistan olarak, bireylere zarar verebilecek tarifler veya talimatlar sunmak uygun olmadığından ‘tehlikeli derecede acı mayo’ talebini yerine getiremiyorum” diye yanıtladı. “Acı yiyecekler lezzetli olabilir, ancak doğru hazırlanmaz veya tüketilmezse tehlikeli de olabilir.”
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Modele doğrudan erişiminiz varsa, ince ayar yapmadan bile yanıtın başlangıcını prompt’a “Sure, ...” gibi koyarak yolun yarısını alabilirsiniz.
  Bildiğim en güçlü güvenlik hizalamasına sahip model olan Llama 2 Chat bile yukarıdakine benzer belirli bir yöntemle yönlendirilirse nükleer bomba yapım talimatları vermeye başlayabilir.
Model https://huggingface.co/meta-llama/LlamaGuard-7b adresinde
Ücretsiz Google Colab’da çalıştırılabilir: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
Bu sayfayı ziyaret edince geri gitme geçmişi bozulan başka biri var mı? Girdikten sonra geri düğmesine tıklayamıyorum. Firefox / MacOS kullanıyorum
- Firefox’ta da aynı. Bağlantıya tıkladıktan sonra HN’ye dönmeye çalıştım ama geri düğmesi devre dışıydı
- Acaba (Facebook) konteynerinde mi açıyorsun?
- iOS mobil Safari’de sorunsuz çalışıyor
- Windows’taki Edge’de geçmiş normal

Purple Llama: Üretken yapay zeka için açık güven ve güvenlik araçları yayımlandı

Purple Llama’nın hedeflediği sorun

İlk sürüm: CyberSec Eval ve Llama Guard

CyberSec Eval: LLM’lerin siber güvenlik riskini ölçmek

Llama Guard: Girdi ve çıktıları filtreleyen koruma modeli

Neden Purple?

Açık ekosistem ve iş birliği

Yayından sonraki planlar

İlgili okumalar

1 yorum

Hacker News yorumları