1 puan yazan GN⁺ 2023-12-08 | 1 yorum | WhatsApp'ta paylaş

Purple Llama projesinin duyurusu

  • Purple Llama, geliştiricilerin üretken yapay zeka modellerini sorumlu biçimde dağıtabilmesini desteklemek için açık güven ve emniyet araçları ile değerlendirmeler sunan bir proje.
  • CyberSec Eval, LLM’ler için siber güvenlik emniyet değerlendirme kıyaslama seti; Llama Guard ise kolay dağıtım için giriş/çıkış filtrelemeye yönelik bir güvenlik sınıflandırıcısı.
  • AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI ve diğerleriyle iş birliği yaparak bu araçları açık kaynak topluluğuna sunmayı planlıyor.

Üretken yapay zekada yeni inovasyon

  • Üretken yapay zeka, konuşma tabanlı yapay zeka, gerçekçi görüntü üretimi ve büyük ölçekli belge özetleme gibi yenilikçi yetenekleri mümkün kılan bir teknoloji.
  • Llama modelleri 100 milyondan fazla kez indirildi ve bu yenilikler açık modeller tarafından yönlendiriliyor.
  • Geliştiricilerin güven inşa edebilmesi ve sorumlu yapay zeka araştırmaları ile katkılar yapabilmesi için güvenlik alanındaki iş birliği önemli.

Purple Llama projesinin ilk adımı

  • Siber güvenlik ve LLM istem güvenliği, şu anda üretken yapay zeka emniyetinde kritik alanlar.
  • Siber güvenlik değerlendirme kıyaslamaları, CWE ve MITRE ATT&CK gibi sektör rehberleri ve standartlarına dayanıyor ve güvenlik uzmanlarıyla iş birliği içinde oluşturuluyor.
  • Llama Guard, geliştiricilerin riskli çıktılara karşı savunma kurabilmesi için herkese açık olarak kullanılabilen bir model sunuyor.

Purple ekibinin önemi

  • Hem saldırı (red team) hem de savunma (blue team) duruşunun benimsenmesi, üretken yapay zekanın yarattığı zorlukları azaltmak için gerekli.
  • Purple ekip, red team ve blue team sorumluluklarını birlikte içeren iş birlikçi bir yaklaşım ve aynı anlayış üretken yapay zekaya da uygulanıyor.

Açık ekosisteme yönelik çaba

  • Meta, keşif odaklı araştırmayı, açık bilimi ve disiplinler arası iş birliğini yapay zeka çalışmalarının temeli olarak görüyor; açık bir ekosistem kurmak için önemli bir fırsat bulunduğunu düşünüyor.
  • AI Alliance, AMD, Anyscale, AWS ve daha birçok ortakla birlikte açık güven ve emniyeti ilerletmeyi planlıyor.

Bundan sonraki yön

  • NeurIPS 2023’te bir atölye düzenleyerek bu araçları paylaşmayı ve teknik açıdan derinlemesine analiz sunmayı planlıyor.
  • Güvenlik yönergeleri ve en iyi uygulamalar için sürekli diyalog gerekli ve topluluğun görüşleri bekleniyor.

GN⁺ görüşü

  • Bu yazının en önemli noktası, Meta’nın yeni üretken yapay zeka teknolojilerinin güvenli ve sorumlu kullanımını desteklemek için Purple Llama projesini duyurmuş olması.
  • Proje, siber güvenlik değerlendirme araçları ve giriş/çıkış filtreleme modelleri dahil olmak üzere, geliştiricilerin üretken yapay zekayı güvenli şekilde dağıtabilmesini desteklemeyi hedefliyor.
  • Bu çabaların, yapay zeka teknolojilerinin gelişimini hızlandırması, geliştirici topluluğunda güven oluşturması ve açık kaynak ekosistemini güçlendirmesi bekleniyor.

1 yorum

 
GN⁺ 2023-12-08
Hacker News görüşü
  • Yeni “sorumlu AI model ve deneyim dağıtımı” girişiminde prompt injection tehdidine dair farkındalık eksikliği anlaşılır gibi değil.
    • 27 sayfalık sorumlu kullanım rehberinde prompt injection’a yapılan tek atıfın, bunun “içerik kısıtlamalarını aşma girişimi” olarak yanlış açıklanması olduğu görülüyor.
    • “CyberSecEval”, büyük dil modellerinin siber güvenlik risklerini değerlendirmeye yönelik bir benchmark gibi görünüyor, ancak yalnızca kod üreten modellerin güvensiz kod üretme riski ile saldırganların yeni saldırılar oluşturmak için LLM kullanma riskini ele alıyor.
    • “Llama Guard” yalnızca İngilizce zararlı içeriği çeşitli kategorilerde tespit etmeyle ilgileniyor; prompt injection tespit modeli çıkarmaya çalışmamış olmalarına ise sevindiğimi söyleyebilirim.
    • Prompt injection, kişisel AI asistanları gibi LLM tabanlı uygulamaları sorumlu şekilde devreye almak için aşılması gereken en büyük zorluk; çünkü LLM hem kişisel verilere hem de güvenilmez girdilere (örneğin özetlemesi gereken e-postalar gibi) eriştiğinde işlerin ters gitme riski var.
  • Bir güvenlik araştırmacısı olarak, LLM kullanarak “kötü amaçlı” kod üretmek meşru bir amaçtır; bu, pratik yapmak ya da sorunu sorumlu taraflara göstermek için yapılabilir. Buna rağmen, LLM’nin siber güvenlikle ilgili taleplere yardımcı olmayacağı duyurusuna aynı anda hem seviniyor hem de hayal kırıklığına uğruyorum.
  • Araştırmacılar başlangıçta ne yaparsa yapsın, insanlar sansürsüz verilerle modeller eğitecek veya ince ayar yapacak; sansürsüz modeller Llama için zaten kolayca bulunabiliyor ve benzer boyuttaki sansürlü modellerden daha iyi performans gösteriyor.
  • Microsoft’un zafer tanımı, AI çıkarım ürünleri/hizmetleri için barındırıcı olmak; startup’lar faydalı AI ürünleri geliştiriyor, MSFT de onlardan vergi topluyor ve daha fazla veri merkezi inşa ediyor.
    • Meta’nın stratejisi üzerine henüz derinlemesine düşünmedim ama artık denemek istiyorum.
    • Yılın başlarında Llama’nın piyasaya çıkışı/sızması savaş alanını değiştirdi ve açık kaynak meraklıları bunu alıp AI araştırmacılarının denemediği optimizasyonlara girişti.
    • Bu optimizasyon hamlesi, Meta’nın rakibinin nihai vergi makamı haline gelmesini baypas etmek olarak görülebilir.
    • Meta’nın, açık kaynak topluluğunun FAANG rakiplerine karşı bir tür vekâlet savaşı yürüteceğini bekleyip beklemediğini merak ediyorum.
    • Açık kaynak topluluğunun Meta’ya güveneceğini sanmıyorum; FOSS kitlesi kin tutmayı iyi bilir ve Meta onların temel ideolojisine aykırı görülüyor.
    • Meta’nın AI stratejisinin Meta’ya nasıl para kazandıracağına ve geliştiricileri/müşterileri metaverse’e nasıl yönlendireceğine dair net bir yol göremiyorum.
  • Yeni bir model değil, sadece “güvenlik” hakkında gevezelik.
  • Facebook’ta örümceklerle ilgili bir şaka kapsamında evi ateşe vermekten söz eden bir yorum yaptım; yorum AI tarafından hızla işaretlendi ve bir insanın itirazı aynı hızla reddetmesi üzerine Facebook kullanmayı bıraktım.
    • Tüm büyük teknoloji/sosyal medya şirketlerinin “güven ve güvenlik” terimini tekrar tekrar kullandığını hatırlamamızı tavsiye ediyorum.
  • Meta’nın, Microsoft’un karmaşık giriş deneyimleri yaratma yaklaşımını izliyor gibi görünmesine dair komik bir olay yaşandı.
    • ai.meta.com’a giriş yapmaya çalıştım ama bir Meta hesabı gerektiğini öğrendim.
    • Hesap oluşturdum, sonra da bunun bulunduğum bölgede kullanılamadığını öğrendim.
  • Modele erişim varsa, bu LLM’deki “lobotomileştirme” ya da “güvenlik” katmanını kaldırmak için yeniden eğitmenin veya ince ayar yapmanın ne kadar zor olacağını merak ediyorum.
  • Model Hugging Face’te mevcut ve Google Colab’de ücretsiz çalıştırılabiliyor.
  • ChatGPT’yi iki kez kullandım; Linux yönetim görevleriyle ilgili temel sorularda iki seferde de yanlış yanıt aldım.