Anthropic, LLM’nin iç işleyişini ayarladığı "Golden Gate Claude" sürümünü tanıttı

xguru · 2024-05-24T11:10:26+09:00

Birkaç gün önce LLM’lerin iç çalışma biçimini yorumlayan önemli bir araştırma makalesi yayımladı Claude 3 Sonnet modelinin "Mind" kısmında, ilgili metinleri veya görselleri okurken etkinleşen milyonlarca kavram keşfedildi Bu kavramlara "Feature" adı veriliyor; bunlardan biri de Golden Gate Bridge konsepti Claude’un sinir ağında, San Francisco’nun en ünlü simgesi olan Golden Gate Bridge’den söz edildiğinde veya onun fotoğrafı görüldüğünde etkinleşen belirli bir nöron kombinasyonu olduğu keşfedildi Bu özellikleri yalnızca tanımlamakla kalmayıp, etkinleşme şiddetini ayarlayarak Claude’un davranışındaki karşılık gelen değişiklikleri de gözlemlemek mümkün "Golden Gate Bridge" feature’ının gücü artırıldığında, Claude’un yanıtları doğrudan ilgili olmasa bile çoğu soruda Golden Gate Bridge’den söz etmeye başlıyor 10 doları nasıl harcayacağı sorulduğunda, bunu Golden Gate Bridge’den geçiş ücreti ödemek için kullanmayı öneriyor Bir aşk hikâyesi yazması istendiğinde, sisli bir günde sevdiği köprüden geçmeyi bekleyen bir araba hakkında hikâye anlatıyor Nasıl göründüğünü hayal etmesi istendiğinde, Golden Gate Bridge’e benzediğini söylüyor Bu model Claude.ai üzerinde doğrudan denenebiliyor (Golden Gate logosuna tıklayın) Bu bir araştırma demosu olduğundan beklenmedik tepkiler olabilir Claude içinde bu tür özelliklerin bulunup değiştirilebilmesi, büyük dil modellerinin gerçekte nasıl çalıştığını anlamaya başladıklarına dair güven veriyor Bu, modele sözlü olarak rol yapmasını istemek ya da Claude’a köprüymüş gibi davranmasını söyleyen ek metni tüm girdilere ekleyen yeni bir "system prompt" eklemek değil Ayrıca, önceki kara kutunun davranışını ayarlayan yeni bir kara kutu oluşturmak için ek eğitim verisi kullanan geleneksel "fine-tuning" de değil Bu, modelin iç etkinleşmelerindeki en temel bazı yönlere yönelik hassas ve cerrahi bir değişiklik Makalede açıklandığı gibi, aynı teknik tehlikeli bilgisayar kodu, suç faaliyetleri veya aldatmayla ilişkili özellikler gibi güvenlikle ilgili feature’ların gücünü değiştirmek için de kullanılabilir Ek araştırmalarla bunun yapay zeka modellerini daha güvenli hâle getirmeye yardımcı olabileceğine inanılıyor

(anthropic.com)

19 puan yazan xguru 2024-05-24 | 4 yorum | WhatsApp'ta paylaş

Birkaç gün önce LLM’lerin iç çalışma biçimini yorumlayan önemli bir araştırma makalesi yayımladı
Claude 3 Sonnet modelinin "Mind" kısmında, ilgili metinleri veya görselleri okurken etkinleşen milyonlarca kavram keşfedildi
Bu kavramlara "Feature" adı veriliyor; bunlardan biri de Golden Gate Bridge konsepti
Claude’un sinir ağında, San Francisco’nun en ünlü simgesi olan Golden Gate Bridge’den söz edildiğinde veya onun fotoğrafı görüldüğünde etkinleşen belirli bir nöron kombinasyonu olduğu keşfedildi
Bu özellikleri yalnızca tanımlamakla kalmayıp, etkinleşme şiddetini ayarlayarak Claude’un davranışındaki karşılık gelen değişiklikleri de gözlemlemek mümkün
"Golden Gate Bridge" feature’ının gücü artırıldığında, Claude’un yanıtları doğrudan ilgili olmasa bile çoğu soruda Golden Gate Bridge’den söz etmeye başlıyor
- 10 doları nasıl harcayacağı sorulduğunda, bunu Golden Gate Bridge’den geçiş ücreti ödemek için kullanmayı öneriyor
- Bir aşk hikâyesi yazması istendiğinde, sisli bir günde sevdiği köprüden geçmeyi bekleyen bir araba hakkında hikâye anlatıyor
- Nasıl göründüğünü hayal etmesi istendiğinde, Golden Gate Bridge’e benzediğini söylüyor
Bu model Claude.ai üzerinde doğrudan denenebiliyor (Golden Gate logosuna tıklayın)
- Bu bir araştırma demosu olduğundan beklenmedik tepkiler olabilir
Claude içinde bu tür özelliklerin bulunup değiştirilebilmesi, büyük dil modellerinin gerçekte nasıl çalıştığını anlamaya başladıklarına dair güven veriyor
Bu, modele sözlü olarak rol yapmasını istemek ya da Claude’a köprüymüş gibi davranmasını söyleyen ek metni tüm girdilere ekleyen yeni bir "system prompt" eklemek değil
Ayrıca, önceki kara kutunun davranışını ayarlayan yeni bir kara kutu oluşturmak için ek eğitim verisi kullanan geleneksel "fine-tuning" de değil
Bu, modelin iç etkinleşmelerindeki en temel bazı yönlere yönelik hassas ve cerrahi bir değişiklik
Makalede açıklandığı gibi, aynı teknik tehlikeli bilgisayar kodu, suç faaliyetleri veya aldatmayla ilişkili özellikler gibi güvenlikle ilgili feature’ların gücünü değiştirmek için de kullanılabilir
Ek araştırmalarla bunun yapay zeka modellerini daha güvenli hâle getirmeye yardımcı olabileceğine inanılıyor

4 yorum

chanran 2024-05-27

Beyinle kıyaslayınca, hangi işlevden sorumlu olduğunu anlamak için beyne elektrik uyarımı verip kabaca sezgisel bir harita çıkarıyoruz; burada ise o işlevden sorumlu nöron kombinasyonlarını tam olarak belirleyebiliyormuşuz gibi bir his veriyor.

laeyoung 2024-05-24

"Golden Gate" papağanına dönüşüp Kore'deki köprüleri sorarsanız, size Golden Gate olduğunu söylüyor 🫢

superwoou 2024-05-24

Sanki beynin belirli bölgelerinin hangi işlevlerden sorumlu olduğunu yavaş yavaş öğreniyormuşuz gibi..

xguru 2024-05-24

Anthropic, LLM'lerin iç işleyişini anlamada kayda değer bir ilerleme gösteriyor

Anthropic, LLM’nin iç işleyişini ayarladığı "Golden Gate Claude" sürümünü tanıttı

İlgili okumalar

4 yorum