GPT-4’ten Kavram Çıkarma

(openai.com)

2 puan yazan GN⁺ 2024-06-07 | 1 yorum | WhatsApp'ta paylaş

OpenAI, dil modellerinin iç işleyişini daha iyi anlamak için GPT‑4’ün temsillerini 16 milyon özelliğe ayıran ölçeklenebilir bir yöntem yayımladı
Temel araç seyrek otoenkoder; yaklaşım, çıktıyı etkileyen az sayıdaki aktivasyon örüntüsünü insanların anlayabileceği kavramlarla ilişkilendirmeyi amaçlıyor
Yeni yöntem, mevcut tekniklere kıyasla daha öngörülebilir ölçekleme gösterdi ve GPT‑2 small ile GPT‑4 aktivasyonları üzerinde birden fazla otoenkoder eğitmek için kullanıldı
Sınırlar da belirgin: Pek çok özelliği yorumlamak hâlâ zor ve seyrek otoenkoderden geçirilen GPT‑4 aktivasyonları, yaklaşık 10 kat daha az eğitim hesaplaması kullanan bir model düzeyinde performansla sınırlı kalıyor
Yayımlanan makale, kod ve özellik görselleştirme aracı, sonraki araştırmalar için bir temel niteliğinde; kısa vadede dil modeli davranışının izlenmesi ve yönlendirilmesi için yararlı olup olmadığı test edilecek

Sinir ağlarının içini yorumlamanın neden zor olduğu

Günümüzde dil modellerinin içindeki sinirsel aktiviteyi anlamaya yönelik yöntemler yeterince yerleşmiş değil
Otomobil gibi insan yapımı ürünler, parça teknik özelliklerine dayanarak tasarlanabilir, değerlendirilebilir ve onarılabilir; ancak sinir ağları doğrudan tasarlanmış parçalardan değil, öğrenme algoritmalarının sonucundan oluşur
Bu nedenle sinir ağları kolayca tanımlanabilir parçalara ayrıştırılamaz ve otomobil güvenliğini çıkarımladığımız gibi AI güvenliğini ele almak zordur
Sinir ağlarını yorumlamak için önce sinirsel hesaplamayı açıklayabilecek yararlı yapı taşlarını bulmak gerekir

Seyrek otoenkoder yaklaşımı

Dil modellerinin iç aktivasyonları, öngörülmesi zor örüntülerle devreye girer ve aynı anda birden çok kavramı temsil ediyor gibi görünür
Aktivasyonlar yoğun biçimde ortaya çıkar; her girdi için çok sayıda unsur birlikte etkinleşir
Gerçek dünyadaki kavramlarda, belirli bir bağlamda bütünün yalnızca küçük bir bölümü ilgili olduğundan seyreklik önemlidir
Seyrek otoenkoder, belirli bir çıktının üretilmesinde önemli olan az sayıdaki özelliği belirleme yöntemidir
- İnsanların bir durumu akıl yürütürken zihninde tuttuğu az sayıdaki kavrama benzer bir yapı beklenir
- Yorumlanabilirlik doğrudan ödüllendirilmese bile, özellikler insanların anlaması kolay kavramlarla doğal biçimde örtüşen seyrek aktivasyon örüntüleri gösterir
Büyük dil modelleri çok sayıda kavramı temsil ettiğinden, frontier modellerdeki kavramları yeterince kapsamak için otoenkoderlerin de çok büyük olması gerekir

GPT‑4’te bulunan büyük ölçekli özellikler

OpenAI, frontier AI modellerinde seyrek otoenkoderleri on milyonlarca özellik ölçeğine çıkarabilen bir metodoloji geliştirdi
Bu metodoloji, mevcut tekniklere kıyasla daha iyi ölçekleme getirisi gösteriyor ve pürüzsüz, öngörülebilir ölçeklenme özelliklerine sahip
Özellik kalitesini değerlendirmek için birkaç yeni metrik de tanıtıldı
Bu reçeteyle GPT‑2 small ve GPT‑4 aktivasyonları üzerinde çeşitli otoenkoderler eğitildi
- GPT‑4 için 16 milyon özellikli bir otoenkoder eğitildi
Özelliklerin yorumlanabilirliği, belirli bir özelliğin etkinleştiği belgeler görselleştirilerek kontrol edildi
- Örnekler arasında insan kusurları, fiyat artışı, X ve Y, eğitim günlükleri, retorik sorular, cebirsel halkalar ve dopamine ile ilgili özellikler yer alıyor
- GPT‑4’te “nesnelerin, özellikle de insanların flawed olduğuna dair ifadeler” ile ilişkili bir özellik de tespit edildi
Daha fazla özellik özellik görselleştirme aracında keşfedilebilir

Hâlâ kalan sınırlar

Yorumlanabilirliğin model güvenilirliğini ve yönlendirilebilirliğini artırabileceği umulsa da mevcut çalışma erken aşamada bulunuyor
Keşfedilen özelliklerin birçoğunu yorumlamak hâlâ zor
- Belirgin bir örüntü olmadan etkinleşen durumlar var
- Normalde kodladığı düşünülen kavramlarla ilgisiz sahte aktivasyonların ortaya çıktığı durumlar var
- Yorumun geçerliliğini doğrulamak için henüz iyi bir yöntem yok
Seyrek otoenkoder, özgün modelin tüm davranışlarını yakalayamıyor
- GPT‑4 aktivasyonları seyrek otoenkoderden geçirildiğinde, yaklaşık 10 kat daha az eğitim hesaplamasıyla eğitilmiş bir modelle eşdeğer performans elde ediliyor
- Frontier LLM’lerin kavramlarını tamamen haritalamak için milyarlarca, hatta trilyonlarca özelliğe kadar ölçeklemek gerekebilir
- Geliştirilmiş ölçekleme teknikleri olsa bile bu ölçek hâlâ zorlu
Seyrek otoenkoder, model içindeki tek bir noktada özellikleri bulabilir; ancak bu, modelin tamamını yorumlamak için yalnızca bir adımdır
- Modelin bu özelliği nasıl hesapladığı
- Bu özelliğin modelin sonraki bölümlerinde nasıl kullanıldığı
- Bu iki sorunu anlamak için çok daha fazla çalışma gerekir

Yayımlanan kaynaklar ve sonraki adımlar

OpenAI, deneyleri ve yöntemleri içeren makaleyi yayımladı
GPT‑2 small için tüm otoenkoder koleksiyonunu ve bunları kullanan kodu sağladı
GPT‑2 ve GPT‑4 özelliklerinin neye karşılık gelebileceğine bakmayı sağlayan özellik görselleştirme aracını da yayımladı
Kısa vadede, keşfedilen özelliklerin dil modeli davranışının izlenmesi ve yönlendirilmesi için pratikte yararlı olup olmadığını frontier modellerde test etmeyi planlıyor
Uzun vadede amaç, yorumlanabilirliğin model güvenliği ve sağlamlığı hakkında çıkarım yapmanın yeni yollarını sunması ve güçlü AI modellerinin davranışı konusunda güvenceler sağlayarak güveni önemli ölçüde artırması

1 yorum

GN⁺ 2024-06-07

Hacker News yorumları

İlk örneklerden biri GPT-4 feature: ends of phrases related to price increases, ancak 5 yanıttan 2’si fiyat artışıyla hiç ilgili görünmüyor
Örneğin ham petrol fiyatının düştüğünü söyleyen bir cümle ya da sözleşme fiyatından bahseden bir çamaşırhane faturası cümlesi var
Bir şeyi yanlış anlamış gibiyim; seçilebilecek çok örnek varken neden özellikle bu örneği seçtiklerini merak ediyorum
- Çoğu örnekte yeşil vurgulu sayaç olmadığını görmek gerekiyor
  Yeşil vurgu small losses. KEEPING SCORE: The Dow Jones industrial average rose... gibi cümlelerde görünüyor; diğer cümleler ise bu nöronun ne kadar belirli bir örüntüye tepki verdiğini karşılaştırmak için konmuş gibi
Gerçekten harika; uzun zamandır beklediğim derin anlamsal arama yönüne gidiyor gibi hissettiriyor
Belgeleri “fiyat artışı” kavramıyla filtreleme ya da “retorik soru” gibi daha üst düzey kavramlarla arama örnekleri hoşuma gitti
Retorik soru örneği için modeli eğitip ya da ince ayar yapıp belgelerde buldurma yöntemiyle karşılaştırınca nasıl olur merak ediyorum
Girdi verip yanıt üretmesini sağlamak yerine yalnızca sinir ağı aktivasyonlarına bakıldığı için daha hızlı veya daha doğru olabilir gibi görünüyor
- Exa buna benzer bir şey deniyor
  Bu yöntemle bazı ilginç sonuçlar buldum ama henüz yeterince iyi olduğu hissini vermiyor
  https://exa.ai/search?c=all
İlginç; Anthropic’in Claude 3 Sonnet ile yaptığı benzer çalışmayı hatırlatıyor
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- Web sayfası, seyrek otoenkoderi OpenAI bu proje için icat etmiş gibi güçlü biçimde ima ediyor
  Web sayfasında atıf yapmayıp kaynakları makalenin içine gömmeleri epey tuhaf
- Yöntem aynı; OpenAI’nin Anthropic’in araştırmasını kendi modeline uygulamasına daha yakın
- Bunu eğitmek için gereken hesaplama kaynağının, orijinal modeli eğitirken gereken seviyeye neredeyse yakın olduğuna dair bir şeyler söylenmişti
Anthropic’in “Mapping the Mind of a Large Language Model” çalışmasından 3 hafta bile geçmeden böyle bir sonucun çıkması ilginç
Bu tür denemeler gerçekten heyecan verici; hâlâ “LLM’lerin ya da derin öğrenmenin nasıl çalıştığını hiç bilmiyoruz” dendiğini sık duyuyorum ama bu araştırmalara bakınca bu fazla genelleme gibi geliyor
Anthropic duyurusuna ve Jan Leike’nin OpenAI’den ayrılmasına yanıt olarak biraz aceleye getirilip getirilmediğini merak ediyorum
Makale bağlantısı da Arxiv’e gitmiyor ve analiz derinliği çok daha sığ görünüyor; gerçi alakasız da olabilir
- Yazının kendisinde “şu anda dil modellerinin içindeki sinirsel etkinliği nasıl yorumlamamız gerektiğini bilmiyoruz”, “çoğu insan yapımı eserin aksine sinir ağlarının iç işleyişini iyi anlamıyoruz”, “ağlar iyi anlaşılmış değil ve kolayca tanımlanabilir parçalara ayrılamıyor” gibi cümleler tekrarlanıyor
  İnsanların modelin neden böyle çıktılar ürettiğini şu anda bilmediğimizi söylemesinin nedeni, yazının açıkça belirttiği gibi gerçekten henüz bilmiyor olmamız
- Bahsettiğin diğer olaylardan bağımsız olarak makaleyi bu dönemde yayımlamayı planlıyorlardı
  LLM’lerin nasıl çalıştığını hâlâ neredeyse hiç bilmediğimizi söylemek bence genel olarak hâlâ doğru
  Seyrek otoenkoderler bir gün bunu değiştirebilir ama gidilecek yol hâlâ uzun
- Bu tür araştırmaların, iç işleyişe dair anlayışımızın hâlâ çok sınırlı olduğu noktasını aksine güçlendirdiğini düşünüyorum
  Blog yazısı da bu çalışmanın erken aşamada olduğunu ve çok sayıda sınırlaması bulunduğunu tekrar tekrar söylüyor
- Kaynağı bulmaya üşeniyorum ama Twitter’da biri ilk commit’in 6 ay önce olduğunu bulmuştu
  Muhtemelen herkes San Francisco’daki aynı atmosferin içindeydi ve sektör genelinde bu akım zaten yayılmıştı
- Makale başlığının LLM’lerin bir zihni varmış gibi ima etmesi, yazarlar açısından pek iyi bir işaret gibi görünmüyor
  “Güvenlik” hakkında anlamsız sözler de sürüyor
  Yeniden üretilebilir olması için çalışmanın içeriğini göstermeleri iyi olurdu ama reklam olarak fena değil
Başka bir örnekte, üreme anatomisi hakkında bilimsel bir açıklama gibi görünen bir belgeyi cinsel içerik olarak sınıflandırmış görünüyor
Kavram bağlantısı burada [içerik uyarısı]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
Bu yöntemin modellere SHAP[0][1] gibi bir şey uygulamaya kıyasla nasıl farklı olduğunu ya da neyi iyileştirdiğini merak ediyorum
İlk satırdaki “şu anda dil modellerinin içindeki sinirsel etkinliği nasıl yorumlamamız gerektiğini bilmiyoruz” cümlesi bana düpedüz yanlış gibi geliyor
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- SHAP’in oldukça ayrı bir şey olduğunu düşünüyorum
  Shapley analizi özünde oyun teorisine dayalı bir metodolojidir ve modelden bağımsızdır; yalnızca girdinin tek tek parçalarının belirli bir tahmine ne kadar katkıda bulunduğuna bakar, modelin içeride nasıl çalışıp çıktıyı ürettiğiyle ilgilenmez
  Çağrılabilir bir kara kutu varsa Shapley değerlerini ya da yaklaşımlarını hesaplayabilirsiniz; ama modelin içeride nasıl veya neden çalıştığını açıklamaz
Bunun neden önemli olduğunu basitçe açıklayabilir misin? 5 yaş seviyesine kadar olmasa da temel ifadelerle merak ediyorum
- LLM tabanlı yapay zekada çok sayıda “özellik” vardır ve bunlar bir ölçüde “kavramlara” benzer
  Örneğin don't kelimesindeki kesme işareti kavramından, erken dönem Amerikan tarihi bağlamında "George Wash" sonrasında genellikle "ington" gelmesi örüntüsüne kadar uzanabilir
  LLM sinir ağı içinde bunlar yazılım devrelerine benzeyen yollara eşlenir
  Bu özelliklerin LLM içinde nasıl oluştuğunu, çıktı üretirken hangi devrelerin etkinleştiğini ve neden o devreyi izlediğini iyi anlamadığımız için bu kısmı hata ayıklamak ve modeli iyileştirmek zorlaşır
  LLM/AI yeterince gelişirse bizi kasıtlı olarak kandırıp kandırmadığını tespit etmek isteyeceğiz, ama şu anda bunu yapamıyoruz
  Bu yüzden kavramların oluşturulması ve çıktıya dönüştürülmesi sürecinde sinir ağının içinde gerçekte neler olduğunu anlamaya çalışan alan yorumlanabilirliktir
  OpenAI, DeepMind ve Anthropic, LLM’in iç devrelerine bakıp bazı özellikleri ortaya çıkarma yöntemleri buldu
  Modele bir soru sorduktan sonra iç devrenin hangi bölümünün “açıldığını” izliyor, doğrulama adımı olarak da devreyi çıkarıp ilgili özelliğin yanıtta daha az kullanılıp kullanılmadığını kontrol ediyorlar
  Grafikler ve vurgulanan kelimeler, oldukça emin olunabilen kavramların görsel temsilleridir
  Örneğin bir cümlenin iki bölümünü birbirine bağlayan “AND” kavramı, “AND” kelimesini vurgular
  Yorumlanabilirlikle ilgileniyorsan Neel Nanda’nın en iyi kaynak olduğunu düşünüyorum
  Ancak bu yazıda ele alınan OpenAI metodolojisinden farklı bir yaklaşım: https://www.neelnanda.io/mechanistic-interpretability
- Büyük modellerin, örneğin difüzyon modelleri ya da transformer’ların içinde saklanan üst düzey kavramları birbirinden ayırmak genellikle zordur ve model neredeyse kara kutu gibidir
  Modelin ne bildiğini görebilmek için çok sayıda araştırma yapılıyor; bu da o yönde bir başka ilerleme
  Kavramların daha kolay ayrıştırılmasını sağlıyor
  Bu sayede model içindeki bilgiyi analiz etme ve ilgisiz kavramları daha az etkilerken belirli bir kavramı ekleme, silme ya da önemini değiştirme olasılığı doğuyor
  Ancak bu belirli teknikle elde edilebilecek hassasiyet her zaman soru işareti ve bazı kavramlar birbirine çok yakın olduğu için ayırması zor; dolayısıyla kusursuz olmayacak
- ChatGPT’nin kendi yanıtına göre bu yazı, araştırmacıların seyrek otoenkoderler kullanarak GPT-4 gibi karmaşık dil modellerindeki temel özellikleri nasıl belirleyip yorumladığını ve böylece iç işleyişi nasıl daha anlaşılır hâle getirdiğini ele alıyor
  Bu tür gelişmeler, modelin karar alma sürecini daha basit ve insanlar tarafından yorumlanabilir parçalara bölerek yapay zeka güvenliği ve güvenilirliğini artırmaya yardımcı olur
- Genel olarak Anthropic’in yaptığı çalışmayı takip ediyor; temelde yeni bir şey yok
  Burada yapılan şey, GPT-4 içinde belirli, tanımlanabilir kavramlara karşılık gelen örüntüleri bulmak
  Bu çalışma OpenAI’nin büyük ölçüde dağılmış güvenlik ekibi tarafından yapılmış gibi görünüyor ve yakın zamanda ayrılan ortak liderler Ilya ile Jan Leike’nin adları da geçiyor
  Görünürde amaç güvenlik; model çalışırken belirli kavramların aktivasyonunu güçlendirmeyi veya bastırmayı mümkün kılmak
  Anthropic’in modeli Golden Gate Bridge’e takıntılı hâle getirdiği demo buna örnek: https://www.anthropic.com/news/golden-gate-claude
  Bu tür çalışmalar yalnızca güvenlik için değil, modeli belirli şekillerde kontrol edebilme açısından da işlevsel kullanım potansiyeline sahip görünüyor
Bu, bir sinir ağının çıktısını açıklamak için o sinir ağı üzerinde eğitilmiş bir otoenkoderi birlikte yayımlamanın iyi bir pratik hâline gelebileceği anlamına mı geliyor?
Hugging Face’teki tüm açık modellerde böyle bir eklenti olsa faydalı olabilir gibi
- Böyle bir enkoderin belirli bir modele bağımlı olacağını düşünüyorum
Bu sinir ağları için fMRI gibi bir şey mi?
Konuya göre hangi bölgenin açıldığını görebilmek gibi
Otomatik olarak açılan bölgeleri değerlendiren bir değerlendirme sinir ağı eklenip eklenemeyeceğini de merak ediyorum
Yalnızca fMRI taramasıyla hastanın neye baktığını yapay zekanın yeniden oluşturduğu örnekteki gibi mümkün olabilir gibi görünüyor
Bu tür araştırmalardan beklenen işlevlerden biri, çıkarım sırasında kullanılan sıcak noktaları tespit etmek
Sanal makinede olduğu gibi bu bölümleri tamamen ya da kısmen önbelleğe alarak yanıt süresini azaltmak ve gereken işlem döngülerini de düşürmek mümkün olabilir gibi

GPT-4’ten Kavram Çıkarma

Sinir ağlarının içini yorumlamanın neden zor olduğu

Seyrek otoenkoder yaklaşımı

GPT‑4’te bulunan büyük ölçekli özellikler

Hâlâ kalan sınırlar

Yayımlanan kaynaklar ve sonraki adımlar

İlgili okumalar

1 yorum

Hacker News yorumları