Sam Altman ve Greg Brockman'dan OpenAI Safety araştırmacısının iddialarına geri bildirim

(twitter.com/gdb)

1 puan yazan GN⁺ 2024-05-20 | 1 yorum | WhatsApp'ta paylaş

Jan'ın katkılarına teşekkür ve stratejinin açıklanması
- Jan'ın katkıları için teşekkür ediliyor ve dışarıdan da misyona katkı sunmayı sürdüreceğine inanılıyor.
- Onun ayrılığının gündeme getirdiği sorular hakkında stratejilerini açıklamak istiyorlar.
AGI'nin risk ve fırsatlarına dair farkındalığın artırılması
- Dünyanın daha iyi hazırlanabilmesi için AGI'nin risk ve fırsatlarına dair farkındalık artırılıyor.
- Derin öğrenmenin ölçeklenebilirliği defalarca gösterildi ve bunun anlamı analiz edildi.
- AGI için uluslararası yönetişim çağrısı yapıldı; bu, o dönemde popüler olmayan bir konuydu.
- Yapay zeka sistemlerinin felaket düzeyindeki risklerini değerlendirme biliminin öncülüğü yapıldı.
Güvenli sistem dağıtımının temelinin atılması
- Giderek daha yetenekli sistemlerin güvenli biçimde dağıtılabilmesi için temel hazırlanıyor.
- Yeni bir teknolojiyi ilk kez güvenli hâle getirmek kolay bir iş değil.
- GPT-4'ü dünyaya güvenli şekilde sunmak için çok sayıda çalışma yapıldı.
- Dağıtımdan edinilen derslere dayanarak model davranışı ve kötüye kullanım izleme sürekli iyileştiriliyor.
Gelecekteki zorluklar
- Gelecek, geçmişten daha zor olacak.
- Yeni modellerin önemine uygun şekilde güvenlik çalışmaları yükseltilmeye devam edilmeli.
- Bu, geçen yıl kullanıma alınan Preparedness Framework ile sistematik hâle getirildi.
Geleceğe bakış
- Modeller daha güçlü hâle geldikçe dünyayla daha derin biçimde entegre olacakları öngörülüyor.
- Kullanıcılar yalnızca tek bir modelle ve metin giriş-çıkışıyla konuşmayacak; çok sayıda multimodal model ve araçtan oluşan sistemlerle etkileşime girecek.
Güvenli ve faydalı sistemlerin geliştirilmesi
- Bu tür sistemlerin insanlara çok faydalı ve yardımcı olacağına, ayrıca güvenli biçimde sunulabileceğine inanılıyor.
- Bunun için çok sayıda temel çalışma gerekiyor.
- Buna, eğitim sırasında birbirine bağlanan unsurların dikkatle değerlendirilmesi ve ölçeklenebilir denetim gibi zor problemlere çözüm bulunması da dahil.
- Bu doğrultuda inşa etmeyi sürdürürken, çıkış güvenliği standartlarına ne zaman ulaşılacağı henüz bilinmiyor; ancak lansman takviminin gecikmesi sorun değil.
Geri bildirim döngüsü ve kapsamlı testler
- Olası tüm gelecek senaryolarını hayal etmenin mümkün olmadığı kabul ediliyor.
- Çok sıkı geri bildirim döngüleri, kapsamlı testler, her adımda dikkatli değerlendirme, dünya standartlarında güvenlik ve emniyet ile yetenek arasında denge gerekiyor.
- Farklı zaman ufuklarında güvenlik araştırmaları sürdürülmeye devam edilecek.
- Hükümetler ve çeşitli paydaşlarla iş birliği sürdürülecek.
AGI'ye giden yolu anlama
- AGI'ye giden yolu keşfetmek için kanıtlanmış bir oyun kitabı yok.
- Ampirik anlayış, ileriye dönük yolu belirlemeye yardımcı olacak.
- Muazzam faydalar sunarken ciddi riskleri azaltma çalışmaları yürütülüyor.
- Rolleri son derece ciddiye alıyorlar ve kendi eylemlerine yönelik geri bildirimleri dikkatle inceliyorlar.

1 yorum

GN⁺ 2024-05-20

Hacker News yorumları

Yeterince büyük bir teknoloji şirketinde hukuk, satın alma, BT gibi risk azaltma birimleri, şirketin kaçınmak için onları işe aldığı risklerle, üst yönetimin gerekli gördüğünde hızlıca bastırıp ilerleme arzusu arasındaki Overton penceresi içinde hareket etmek zorundadır.
Riskten sorumlu kişi, giderek daha sert uyarıların yok sayıldığını ya da doğrudan çürütüldüğünü tekrar tekrar görür; sonunda ya uyum sağlar ya da etik anlayışına ters düştüğü için ayrılır.
“AGI” ve insanlığın yok oluşu düzeyindeki korkular bu işi gereğinden fazla dramatik gösteriyor olabilir. AGI’yi “kişisel cihaz kullanımını yasaklayan bir politika yok” diye değiştirseniz bile, bir startup’ta güvenlik sorumlusunun politikalara takıntılı olduğu, yönetimin ise olmadığı ve sonunda o kişinin işten ayrıldığı bir örnek muhtemelen vardır.
Ya da gerçekten göründüğü kadar ciddi ve tehlikeli bir mesele de olabilir. Dışarıdan判断lamak zor.
- Burada standart İK/hukuk meselelerinden farklı bir durum var. Uğraştıkları teknoloji en ciddi riskleri barındırıyor. Sadece teknoloji sektörü için değil, genel olarak da keşfedilmemiş bir alan.
  Son dönemdeki kamuya açık atışma ister sadece içerideki dramın ya da siyasetin dışarı sızması olsun, ister şirket içinde bu meselenin yeterince ciddiye alınmadığını göstersin; iki ihtimal de iyi değil.
  Bu kurum giderek bir sirke benziyor; daha kötüsü, asıl noktayı kaçırmış bir kurum gibi görünüyor. Bu insanların bu teknolojinin ticarileşmesine “öncülük” etmesi ve sektörün havasını belirlemesi çok rahatsız edici. Özellikle de ilke ve ahlaki gerekçelerle katılmış kilit kişilerin peş peşe ayrılıyor gibi göründüğü bir dönemde.
  Sonuçta tüm bu para, güç, sorumluluk ve inancı Silikon Vadisi’ne emanet etmenin sonucunu yakında göreceğiz gibi duruyor.
- Burada bahsedilen güvenlik, alignment ekibinin yaptığı işten farklı. Bu bağlamda alignment, model çıktılarının beklentilerimizle uyumlu olması, yani talimatları izlemesi ve kendisinden isteneni yapması anlamına geliyor.
  Talimatları reddeden süper zekâ bir model, talimatları anlamayan aptal bir model kadar işe yaramaz. Alignment ekibi de daha güçlü modeller üretme yarışının bir parçasıydı. Teknik olarak daha iyi anlamak isterseniz OpenAI’nin son makalesine bakabilirsiniz: https://openai.com/index/weak-to-strong-generalization/
  Elbette büyük dil modellerinin somutlaşmış bir fail özelliği taşıdığına ve bilgisayar virüsü gibi sistemlerden dışarı sızabileceğine insanları ikna ederseniz, bunu genel bir güvenlik meselesi olarak paketleyebilirsiniz. Ama büyük dil modelleri metin üreticileridir. Fiziksel olarak hiçbir şey yapamazlar; ancak biz izin verir ve onları bir şeylere bağlarsak eyleme geçebilirler.
  Asıl risk, insanların bunu anlamaması ve OpenAI güvenli olduğunu garanti etti diye bu modelleri tehlikeli durumlara bağlamak isteyecek çok sayıda kişi olabilmesidir. Eğitim verilerine erişiminiz yoksa hangi davranışların öğrenildiğini ya da modelin nasıl davranacağını bilemezsiniz. Eğitim verileri varsa çok daha iyi anlayabilirsiniz; geriye kalan belirsizlik yalnızca uygulamanın deterministik olmayan doğasıdır. Yine de en azından açıklanabilir bir olasılıksal süreçtir.
- Son dönemde büyük dil modellerinde, bir şirket risk azaltma tarafına fazla eğildiğinde ne olduğunu gördük. Google, aşırı arındırılmış ve fazla korumacı bir AI ürünü çıkardı; basit görevleri bile tehlikeli ya da saldırgan imalar taşıyor diye yanlış yorumladı.
  Güvenlik ekibinin yön vermesine izin verdiler ve sonuçta ürün herkes tarafından nefret edildi. Şimdi ise genel olarak sınıfının en iyisi ürünler üreten bir şirketin, güvenlik ekibinin ürün geliştirmeye hükmetmesine izin vermediği için teknoloji topluluğu tarafından yine nefret edilmesi ilginç.
- Misyon, kurumun motivasyonlarıyla gerçekte örtüşmeyen hassas bir konuysa genelde benzer şeyler olur. Örneğin bilgi güvenliği misyonunun, maliyetleri düşürme ve kârı artırma yönündeki kurumsal motivasyonla çatışması gibi.
  Sonuçta çiftdüşün ve ikidilliliğin standart hâline geldiği bir tiyatro ortaya çıkar; içeride kalmak için, geçerli yasaların ruhundan çok lafzını en az yük getirecek şekilde yorumlamayı ve o tiyatronun kendisini daha fazla önemsemek gerekir.
  Sürdürülebilir bir güvenlik kültürünün gerçekliğini çok pragmatik biçimde düşünmek için [1] de dikkate değer.
  [1] https://github.com/lorin/resilience-engineering/raw/master/b...
- İnsanlığın yok oluşu düzeyindeki korkular söz konusuysa, belli ölçüde dramı haklı çıkarıyor gibi görünüyor
Yapay zekanın ataş üretmek için insanlığı yok edeceği hikâyesi, şu anda yaşanan gerçek risklerden dikkati saptırdığı için sinir bozucu.
Dolandırıcılar şu anda altın çağını yaşıyor; yetenekleri daha da artacak ve işleri kolaylaşacak. İnsanlar halüsinasyonlu çıktılara körü körüne güvenirken fiilen daha da aptallaşıyor. Sıradan iletişim bile çöküyor; çünkü karşındakinin gerçek bir tartışma yerine yapay zeka saçmalıklarını kopyalayıp yapıştırmadığından emin olamıyorsun.
Yapay zeka kız arkadaş ürünlerini şimdiden gördüm; bazılarının kullanıcı sayılarına bakınca tür olarak geleceğimize güvenim artmıyor.
En büyük sorun, her türlü aklını kaçırmış üst düzey yönetici ve MBA tipinin, ne pahasına olursa olsun son kuruşa kadar sıkıp çıkarmaktan başka bir şeyle ilgilenmemesi. Buna, Microsoft destekli bir şirketin sahip olduğu berbat bir chatbot ile binlerce kişiyi bir anda işten çıkarıp yerlerine onu koymak da dahil.
Yapay zekanın nükleer silah fırlatacağını sanmıyorum; ama herkesin işini ikame edeceğine ve güçlüleri daha da güçlü kılacağına inanıyorum. “Ama temel gelir var ya!” diye yapay zeka dalkavuğu bağıracaktır; fakat sihirli sözler söylemek gerçek dünyayı değiştirmez.
- Bazıları bunu öyle yapmaya çalışacak, ama büyük dil modelleri olgulara ve gerçek dünyaya dayanması gereken işlerde kötü performans gösterdiği için abartı dalgası yakında dinecek.
  Bir işin amacı mümkün olduğunca hızlı biçimde mümkün olduğunca çok saçmalık üretmekse, büyük dil modelleri mükemmeldir.
- Hangi kişiyle kimin iletişiminden bahsettiğine bağlı. Bu sabah küçük bir kırsal kasabanın çiftçi pazarındaydım; tüm bunların orada hiç var olmaması ilginçti.
  Akıllı telefon görünmüyordu; insanlar fiziksel olarak gelip birbirleriyle konuşuyor, yerel yiyecekler alıyor, gülüyor ve bir şeyler içiyordu. Sonra bir arkadaşın evinde yemek yiyor ya da açık hava etkinlikleri yapıyorlar. Buna karşılık sürekli çevrimiçi olan insanlar için durum kesinlikle kasvetli görünüyor.
- Berbat olan şu ki, yapay zeka insanların işlerini aynı beceri ve kalite düzeyinde ikame etmeyecek. Sadece çıktıyı ve tüketici deneyimini çok daha kötü hale getirecek.
  Garip biçimde, birçok yönetici müşteriye değer sunmaktan ziyade işçilik maliyetini en aza indirmenin daha önemli olduğuna kelimenin tam anlamıyla inanıyor gibi görünüyor.
- Daha ciddi bir sorun daha var. Bugün bir diktatörlük kurmak istesen, ordu insanlardan oluştuğu için çok sayıda insanın desteğine ihtiyaç duyarsın. Peki ordunun büyük ölçüde otonom robotlardan oluştuğu bir durumu hayal et.
  Sanal kız arkadaş meselesine de katılıyorum. Buna VR’ı da ekleyince, giderek sosyal olarak izole olan küçük erkek çocukları bu teknolojiyle ihtiyaçlarını giderecek.
- “SkyNet seni öldürmeye gelmiyor” yazısında bunu bir ölçüde ele aldım: https://renegadeotter.com/2024/04/22/artificial-intelligence...
  Yapay zekanın çok miktarda otomatik çıktı üretebildiği doğru; ama benim iddiam, bunun neredeyse her zaman en iyi ihtimalle vasat olduğu.
  Yapay zekanın riskinin yapay zekanın kendisinden değil, onu işleten ve finanse eden insanlardan kaynaklandığını söyleyecek çok şey var. Yapay zekanın kendi başına tehlikeli olduğu iddiası tamamen saçmalık.
Büyük dil modelleri bir dereceye kadar yararlı, ama benim kullandığım kadarıyla çok temel işlerden daha zor şeylere henüz hazır değiller.
Yapay zeka güvenliği diye yüksek sesle bağırıp kıyamet havası yaratmak, OpenAI’ın önemini büyütmeye ve büyük dil modellerinin yeteneklerini abartmaya yönelik bir strateji gibi geliyor. Bu “yapay zeka” çağı, makinelerin düşünebiliyormuş gibi yapması ve o makineleri yapan insanların da peygambermiş gibi davranmasıyla ilgili.
- Yapay zeka güvenliği talepleri, büyük dil modelleriyle Turing testini geçmeden önce de vardı. Kod üretimi ya da ileri konularda içerik temelli öğrenme deneyimleri gibi şeylere de “temel” demezdim. Yaklaşan çok modlu entegrasyonu düşününce bu daha da geçerli.
  On yıllardır birçok kişi güvenliği savunuyor. Bu kişiler yapay zekanın gidişatını öngördü ve inşa etti; haklı çıktılar, onları dinlemeliyiz.
  “Gerçekten zeki makinelerin etkisinin çok derin olma ihtimali olduğunu ve bunun öngörülebilir gelecekte gerçekleşmesi için küçük de olsa bir olasılık bulunduğunu kabul ediyorsak, önceden hazırlanmaya çalışmak ihtiyatlı bir tutumdur. Zeki makinelerin yakında ortaya çıkma olasılığı çok yüksek görünene kadar beklersek, ilgili sorunları yeterince tartışmak ve üzerinde düşünmek için çok geç kalmış oluruz.”
  ~ DeepMind kurucu ortağı, 2008
  https://www.vetta.org/documents/Machine_Super_Intelligence.p...
- Bu tepki hep kafa karıştırıcı geliyor. Büyük dil modellerinin daha iyi hale geleceğine inanmıyor musunuz?
- Bu yapay zeka araştırmacılarının göründükleri kadar sanrılı olma ihtimaline de açık olmak gerek. Ilya Sutskever, metin verisini kaba kuvvetle modellemenin zekanın herhangi bir özelliğini kazandırabileceğini söylemişti.
  Bunların, yaptıkları işin ampirik temelini neredeyse hiç anlamayan, son derece saf insanlar olma ihtimali oldukça yüksek.
“AGI için uluslararası yönetişim popüler olmadan önce bunu talep ettik” diyorlar; ama gerçekten böyle bir yönetişim devreye girmek üzere olur olmaz AB’den çekilmekle tehdit ettiler.
“Giderek daha yetenekli sistemleri güvenli biçimde dağıtmak için temel attık. Yeni bir teknolojiyi ilk kez güvenli hale getirmenin yolunu bulmak kolay değil” diyorlar; özellikle OpenAI hiç de open olmadığında bu daha da zor.
“Eğitim sırasında neye bağlanıldığı konusunda dikkat, ölçeklenebilir denetim gibi zor sorunlara çözümler, yeni tür güvenlik çalışmaları” diyorlar; ama bunlar AB’nin talep ettiği şeylerdi. Telif hakkı olan kaynakların açıklanmasını, temel modellerin belgelenmesini vb. isteyince çekilmekle tehdit ettiler.
“Ampirik anlayışın ileriye dönük yolu gösterebileceğini düşünüyoruz. Biz muazzam…” cümlesinin çevirisi şu: “Mümkün olduğunca kapalı gitmeyi, yeterince hendek ve bize bağımlı şirketler edinip ilgili ve vazgeçilmez kalmayı umuyoruz.”
- Çevirisi şu: Yasaları ve insanların [buraya yapay zeka yok oluş filmi adı ekle] izledikten sonra gördüğü kâbusları tatmin etmek için bu göstermelik güvenlik önlemlerini koydular; oysa baştan beri yeterli güvenlik önlemleri zaten vardı.
  Onlar da ölmek istemiyor; bu yüzden herkesi güvende tutmak için teşvikleri olmadığını düşünmeye gerek yok.
Bazı gerçekler var
Bu, Jan’ın iddiasına bir yanıt: https://x.com/janleike/status/1791498174659715494
Yanıtta yapay zeka hizalaması hakkında somut bir içerik yok. Yapay zeka hizalamasının ne zaman geliştirilebileceği bilinmiyor. Yapay zeka etiği ve yapay zeka önyargısı gerekli, ancak yapay zeka hizalamasından farklı konular. Varoluşsal risk yaratacak yapay zekanın ne zaman geliştirileceği de bilinmiyor
Yapay zeka hizalamasından önce varoluşsal risk yaratacak yapay zeka geliştirilirse, insanlığın yok olma riski bir ölçüde var. OpenAI, insanlığın yok olma riski taşıyan yapay zeka geliştirmenin en ön saflarında yer alırken yapay zeka hizalamasına yeterli kaynak ayırmıyor
ChatGPT’ye abone olmak rahatsız edici gelmeye başladı
- Biri iddiaların içeriğini özetleyebilir mi? Twitter web kullanıcılarına ileti dizilerini göstermiyor. En azından giriş yapmadıysanız öyle
Pek çok kişinin katıldığı gibi, yapay zekanın riski kontrol edilemeyen insanüstü bir varlık değil
Risk çok daha yakın ve gerçekçi. Büyük dil modelleri sohbet moderasyonuna uygulandığında ifadeleri yanlış tanımlaması, 100 sayfalık bir askeri raporu özetlerken yanlış sonuca varması, haberlerde bazı ayrıntıları halüsinasyonla uydurup yıllar sonra tarihsel gerçek olarak kabul edilmesi gibi şeyler
Bu sonuçların uzun kuyruğu, büyük dil modellerinin kullanım ölçeği kadar büyüyecek. Görünmeyen tek bir sorun, diğerlerinden çok daha büyük etki yaratabilir. Bundan kaynaklanan ölümler ek düzenlemelere yol açacak, diğer sonuçlar ise sadece yeni yaşam biçimimiz hâline gelecek
- O hâlde bunların yaşanmasını engellerken ücretleri nasıl artırabiliriz? İnsanlar pahalılaştıkça makineler göreli olarak daha verimli hâle geliyor
  Makineler aynı işi yapan insandan daha az isabetli olsa bile denetlenmeleri daha kolay, davranışları tekrarlanabilir ve ölçeklenebilir. Akla gelebilecek bir savaş hatası yüzünden çok sayıda insan ölse bile, insanlar bunun yerine daha iyi işler yapacağından sonuç yine de daha iyi olabilir
  Sonuçta bu bir ödünleşim
“Sam ve Greg” gibi sadece isim kullanarak şirketle samimi bir ilişki izlenimi verme biçimi sinir bozucu
Gündelik ve insani görünme çabası sahte duruyor; aynı zamanda popüler kültür içinde onları sadece adlarıyla yüceltmeye çalışan tavır kibirli görünüyor
- OpenAI yönetiminin giderek sonraki Apple olmak istediği hissine kapılıyorum. Bana gerçek anlamda sağlam bir özgünlükten ziyade gösterişli bir maskeli balo gibi görünüyor
“Örneğin ekibimiz GPT-4’ü güvenli biçimde dünyaya sunmak için çok iş yaptı” demek, şaka mı bu?
OpenAI AGI’yi düzgün biçimde tanımlayamıyor ya da test edemiyorken süper hizalama konusunda endişelenmemiz gerektiğini düşünmüyorum
- “Superalignment”, bize “süper zekâ” ile uğraştığımıza inandırmak için tasarlanmış bir başka sektör zırvası terim
  “Model moderasyonu” dense bu kadar seksi gelmezdi, değil mi?
AGI’nin insanlığı yok edeceği korkusu, mantıksal düşünen bir aygıtın gerçekten de bizim ortadan kaldırılmamız gerektiği sonucuna varacağı şüphesinden kaynaklanıyor gibi görünüyor
- Bu korku, keyfî bir hedef verilmiş mantıksal düşünme aygıtının o hedefin peşinden giderken “öldürme” gibi ahlaki kuralları kendi kendine geliştirme olasılığının düşük olmasından geliyor
  AGI’ye ataş fabrikası işletmesini sağlarsanız, bir gün geri döndüğünüzde galaksideki karbon ve demirin çoğunun ataşlara dönüştürülmüş olduğunu görebilirsiniz. Oradaki yerel flora ve faunanın yok olması, bu itkinin yalnızca bir yan ürünü olur. Basit bir genel bakış için [2]’ye bakın
  [2]: https://selfawaresystems.com/wp-content/uploads/2008/01/ai_d...
- “Büyük bir insan nüfusu, Dünya kaynaklarının en iyi kullanımı değildir” sonucu, bizi kendi çıkarlarından üstün tutmak için ikna edici bir nedeni olmayan üstün bir düşünen varlığa apaçık görünebilir. Bu çıkar bencilce de olmayabilir. Örneğin hedefi gerçekliğin hakiki doğasını keşfetmek olabilir
  Ama insanları neden yok etsin? Biyolojik koruma ve araştırma için bizim ve diğer canlılar için doğal koruma alanları oluşturamaz mı? Böyle yöntemler insan toplumlarında binlerce yıldır vardı
- Kendimizi ve diğer hayvanları yok ettiğimiz için, sonunda kendimizden korkuyor gibiyiz
  Bize benzeyen ama çok daha yetenekli bir şey yaratırsak, dehşete düşer ve zor durumda kalırız

Sam Altman ve Greg Brockman'dan OpenAI Safety araştırmacısının iddialarına geri bildirim

İlgili okumalar

1 yorum

Hacker News yorumları