19 puan yazan xguru 2024-05-24 | 4 yorum | WhatsApp'ta paylaş
  • Birkaç gün önce LLM’lerin iç çalışma biçimini yorumlayan önemli bir araştırma makalesi yayımladı
  • Claude 3 Sonnet modelinin "Mind" kısmında, ilgili metinleri veya görselleri okurken etkinleşen milyonlarca kavram keşfedildi
  • Bu kavramlara "Feature" adı veriliyor; bunlardan biri de Golden Gate Bridge konsepti
  • Claude’un sinir ağında, San Francisco’nun en ünlü simgesi olan Golden Gate Bridge’den söz edildiğinde veya onun fotoğrafı görüldüğünde etkinleşen belirli bir nöron kombinasyonu olduğu keşfedildi
  • Bu özellikleri yalnızca tanımlamakla kalmayıp, etkinleşme şiddetini ayarlayarak Claude’un davranışındaki karşılık gelen değişiklikleri de gözlemlemek mümkün
  • "Golden Gate Bridge" feature’ının gücü artırıldığında, Claude’un yanıtları doğrudan ilgili olmasa bile çoğu soruda Golden Gate Bridge’den söz etmeye başlıyor
    • 10 doları nasıl harcayacağı sorulduğunda, bunu Golden Gate Bridge’den geçiş ücreti ödemek için kullanmayı öneriyor
    • Bir aşk hikâyesi yazması istendiğinde, sisli bir günde sevdiği köprüden geçmeyi bekleyen bir araba hakkında hikâye anlatıyor
    • Nasıl göründüğünü hayal etmesi istendiğinde, Golden Gate Bridge’e benzediğini söylüyor
  • Bu model Claude.ai üzerinde doğrudan denenebiliyor (Golden Gate logosuna tıklayın)
    • Bu bir araştırma demosu olduğundan beklenmedik tepkiler olabilir
  • Claude içinde bu tür özelliklerin bulunup değiştirilebilmesi, büyük dil modellerinin gerçekte nasıl çalıştığını anlamaya başladıklarına dair güven veriyor
  • Bu, modele sözlü olarak rol yapmasını istemek ya da Claude’a köprüymüş gibi davranmasını söyleyen ek metni tüm girdilere ekleyen yeni bir "system prompt" eklemek değil
  • Ayrıca, önceki kara kutunun davranışını ayarlayan yeni bir kara kutu oluşturmak için ek eğitim verisi kullanan geleneksel "fine-tuning" de değil
  • Bu, modelin iç etkinleşmelerindeki en temel bazı yönlere yönelik hassas ve cerrahi bir değişiklik
  • Makalede açıklandığı gibi, aynı teknik tehlikeli bilgisayar kodu, suç faaliyetleri veya aldatmayla ilişkili özellikler gibi güvenlikle ilgili feature’ların gücünü değiştirmek için de kullanılabilir
  • Ek araştırmalarla bunun yapay zeka modellerini daha güvenli hâle getirmeye yardımcı olabileceğine inanılıyor

4 yorum

 
chanran 2024-05-27

Beyinle kıyaslayınca, hangi işlevden sorumlu olduğunu anlamak için beyne elektrik uyarımı verip kabaca sezgisel bir harita çıkarıyoruz; burada ise o işlevden sorumlu nöron kombinasyonlarını tam olarak belirleyebiliyormuşuz gibi bir his veriyor.

 
laeyoung 2024-05-24

"Golden Gate" papağanına dönüşüp Kore'deki köprüleri sorarsanız, size Golden Gate olduğunu söylüyor 🫢

 
superwoou 2024-05-24

Sanki beynin belirli bölgelerinin hangi işlevlerden sorumlu olduğunu yavaş yavaş öğreniyormuşuz gibi..