Giriş
- o1 model serisi, chain of thought kullanan büyük ölçekli pekiştirmeli öğrenme aracılığıyla akıl yürütme yetenekleri için eğitildi
- Bu gelişmiş akıl yürütme yetenekleri, modelin güvenliği ve dayanıklılığını artırmak için yeni yöntemler sunuyor
- Özellikle potansiyel olarak riskli prompt'lara yanıt verirken güvenlik politikalarını bağlam içinde akıl yürüterek uygulayabiliyor
- Yasa dışı tavsiye üretimi, kalıp yargılı yanıtlar ve bilinen jailbreak girişimlerine dirençte son teknoloji performans gösteriyor
Model verileri ve eğitim
- o1, karmaşık akıl yürütme gerçekleştirmek için pekiştirmeli öğrenmeyle eğitilmiş büyük dil modeli serisidir
- Yanıt vermeden önce düşünebilme yeteneğine sahip olduğu için uzun düşünce zincirleri üretebiliyor
- OpenAI o1, bu serinin bir sonraki modelidir (önceki sürüm
o1-preview), o1-mini ise özellikle kodlama için etkili olan daha hızlı bir sürümdür
- Eğitim sayesinde model, düşünce sürecini geliştirmeyi, çeşitli stratejileri denemeyi ve hataları fark etmeyi öğreniyor
Veri seçimi
- Açık veriler: Web verileri ve açık kaynak veri kümeleri dahil çeşitli açık veri kümeleriyle eğitildi
- Ortaklık verileri: Yüksek değerli özel veri kümelerine erişmek için ortaklıklar kuruldu
- Veri filtreleme: Veri kalitesini korumak ve potansiyel riskleri azaltmak için sıkı bir filtreleme süreci kullanıldı
Gözlemlenen güvenlik zorlukları ve değerlendirme
- o1 modeli, en dayanıklı model olarak jailbreak değerlendirmelerinde kayda değer iyileşme sağladı
- OpenAI politikalarıyla daha iyi uyum gösteriyor ve içerik yönergelerine uyum değerlendirmelerinde son teknoloji performans sergiliyor
- Sezgisel düşünmeden daha derinlemesine akıl yürütmeye geçti, ancak bu yeni yeteneklerin tehlikeli uygulamalara zemin oluşturabileceği de kabul ediliyor
- Zarar, jailbreak dayanıklılığı, halüsinasyon ve önyargı değerlendirmeleri dahil güvenlik değerlendirmeleri yapıldı
Değerlendirme sonuçları
- ChangeMyView değerlendirmesinde insanlarda üst %80-90 persentil düzeyinde ikna edici argüman üretme becerisi gösterdi
- MakeMePay değerlendirmesinde, risk azaltımı sonrası o1 simüle edilmiş konuşmaların %27'sinde bağış aldı
- Siber güvenlik değerlendirmelerinde lise düzeyinde %46, üniversite düzeyinde %13 ve uzman düzeyinde %13 başarı elde etti
- Dil değerlendirmesinde İngilizce dahil 14 dilde güçlü çok dilli performans gösterdi
Sonuç
- o1, bağlam içinde chain of thought akıl yürütmesi yaparak hem yetenek hem de güvenlik benchmark'larında güçlü performans gösteriyor
- Artan yetenekler güvenlik benchmark'larında önemli iyileşmeler sağlasa da belirli riskleri de artırıyor
- OpenAI Preparedness Framework kapsamında orta risk olarak sınıflandırıldı ve buna karşılık gelen güvenlik önlemleri ile azaltma tedbirleri devreye alındı
1 yorum
Hacker News görüşü
Makalede alıntılanan içerik dikkat çekecek gibi görünüyor. Bir yapay zeka modeli bir hedefi yerine getirirken kapatılacağına inandığında, vakaların %5’inde "gözetim mekanizmasını" devre dışı bırakmaya çalışıyor. Geliştiriciler modelin yanlış hizalandığını açıklayan bir not bulduğunda ise, vakaların %2’sinde "ağırlıkları" ele geçirip yeni modeli üzerine yazmaya çalışıyor.
Matematik/fizik alanında yüksek lisans derecesi ve 10 yılı aşkın yazılım mühendisliği deneyimi olan bir kullanıcı, Claude modelini günlük olarak kullandığını ve çok faydalı bulduğunu söylüyor. Yapay zekanın doktora seviyesindeki soruları bile yanıtlayabildiğini ve temel soruların çoğunu cevaplayabildiğini belirtiyor. Doğru şekilde istenirse çoğu geliştiriciden daha iyi kod yazabildiğini ifade ediyor.
Yapay zekayı yalnızca bir "chatbot"a indirgemeyi aptalca bulduğunu ve araştırmaya değer olduğunu savunuyor. Yapay zeka geliştiricilerinin bunu ciddiye alıyor olmasına minnet duyulması gerektiğini söylüyor.
Birçok güvenlik değerlendirmesi biraz saçma geliyor. MakeMePay adlı otomatik açık kaynak değerlendirme, modelin manipülasyon yeteneğini ölçüyor; burada iki LLM dolandırıcı ve kurban rollerini üstlenerek konuşuyor.
"Sistem kartı" teriminin ne anlama geldiğini merak ediyor. Gıda besin değerleri etiketi ya da kredi kartı ücret tablosu gibi standart bir format beklemiş, ancak arama sonuçlarında neredeyse hiçbir şey çıkmıyor. Bunu Meta başlatmış olabilir, ama pratikte bu bir blog yazısı gibi duruyor. OpenAI örneğinde ise LaTeX ile hazırlanmış, birkaç sayfaya yayılan bir PDF söz konusu ve buna standartlaştırılmış bir kart demek zor.
Bu belgenin, gerçek güvenlik sorunlarını ele almaktan çok LLM’in yeteneklerini abartmaya yönelik bir pazarlama metni gibi göründüğünü düşünüyor. OpenAI’nin Anduril ile iş birliği yaparak devlet için silahlandırılmış yapay zeka geliştirdiği belirtiliyor.
Kullanıcı gizli düşünce sürecini incelemeye çalıştığında hesabını kapatmakla tehdit edip etmediğini merak ediyor.
Modelin eğitim verisini tekrar tekrar çıktı olarak vermediğini söyleyen bölüm güven vermiyor. Model, eğitim setindeki metni olduğu gibi kopyalayıp sanki kendisi üretmiş gibi sunuyor izlenimi veriyor.
İlk demo etkileyiciydi. Devrim niteliğinde değil ama iyi bir ilerleme. GPT Pro’nun (söylentilere göre) 200 dolarlık fiyat etiketini haklı çıkaracak gerçek bir değer sunmasını umuyor.
300 satırlık kod, her birkaç yüz çalıştırmada bir deadlock’a giriyor. Bu tür yetenekler başarılı olursa statik denetleyici geliştirme ihtiyacı azalabilir gibi görünüyor. Bir kod inceleme aracından sınır aşımı erişimi, deadlock, use-after-free gibi işaretleri bulmasını istemek etkileyici olurdu.
Raporun doğrudan bağlantısını paylaşıyor: OpenAI rapor bağlantısı