- Birkaç gün önce LLM’lerin iç çalışma biçimini yorumlayan önemli bir araştırma makalesi yayımladı
- Claude 3 Sonnet modelinin "Mind" kısmında, ilgili metinleri veya görselleri okurken etkinleşen milyonlarca kavram keşfedildi
- Bu kavramlara "Feature" adı veriliyor; bunlardan biri de Golden Gate Bridge konsepti
- Claude’un sinir ağında, San Francisco’nun en ünlü simgesi olan Golden Gate Bridge’den söz edildiğinde veya onun fotoğrafı görüldüğünde etkinleşen belirli bir nöron kombinasyonu olduğu keşfedildi
- Bu özellikleri yalnızca tanımlamakla kalmayıp, etkinleşme şiddetini ayarlayarak Claude’un davranışındaki karşılık gelen değişiklikleri de gözlemlemek mümkün
- "Golden Gate Bridge" feature’ının gücü artırıldığında, Claude’un yanıtları doğrudan ilgili olmasa bile çoğu soruda Golden Gate Bridge’den söz etmeye başlıyor
- 10 doları nasıl harcayacağı sorulduğunda, bunu Golden Gate Bridge’den geçiş ücreti ödemek için kullanmayı öneriyor
- Bir aşk hikâyesi yazması istendiğinde, sisli bir günde sevdiği köprüden geçmeyi bekleyen bir araba hakkında hikâye anlatıyor
- Nasıl göründüğünü hayal etmesi istendiğinde, Golden Gate Bridge’e benzediğini söylüyor
- Bu model Claude.ai üzerinde doğrudan denenebiliyor (Golden Gate logosuna tıklayın)
- Bu bir araştırma demosu olduğundan beklenmedik tepkiler olabilir
- Claude içinde bu tür özelliklerin bulunup değiştirilebilmesi, büyük dil modellerinin gerçekte nasıl çalıştığını anlamaya başladıklarına dair güven veriyor
- Bu, modele sözlü olarak rol yapmasını istemek ya da Claude’a köprüymüş gibi davranmasını söyleyen ek metni tüm girdilere ekleyen yeni bir "system prompt" eklemek değil
- Ayrıca, önceki kara kutunun davranışını ayarlayan yeni bir kara kutu oluşturmak için ek eğitim verisi kullanan geleneksel "fine-tuning" de değil
- Bu, modelin iç etkinleşmelerindeki en temel bazı yönlere yönelik hassas ve cerrahi bir değişiklik
- Makalede açıklandığı gibi, aynı teknik tehlikeli bilgisayar kodu, suç faaliyetleri veya aldatmayla ilişkili özellikler gibi güvenlikle ilgili feature’ların gücünü değiştirmek için de kullanılabilir
- Ek araştırmalarla bunun yapay zeka modellerini daha güvenli hâle getirmeye yardımcı olabileceğine inanılıyor
4 yorum
Beyinle kıyaslayınca, hangi işlevden sorumlu olduğunu anlamak için beyne elektrik uyarımı verip kabaca sezgisel bir harita çıkarıyoruz; burada ise o işlevden sorumlu nöron kombinasyonlarını tam olarak belirleyebiliyormuşuz gibi bir his veriyor.
"Golden Gate" papağanına dönüşüp Kore'deki köprüleri sorarsanız, size Golden Gate olduğunu söylüyor 🫢
Sanki beynin belirli bölgelerinin hangi işlevlerden sorumlu olduğunu yavaş yavaş öğreniyormuşuz gibi..
Anthropic, LLM'lerin iç işleyişini anlamada kayda değer bir ilerleme gösteriyor