서로 다른 LLM family 사이에서도 refusal, sentiment 같은 behavioral direction을 공유하고 재사용할 수 있을까?

이 논문은 서로 다른 hidden dimension을 가진 LLM들을 하나의 공통 공간인 Anchor Coordinate Space (ACS) 로 옮기고, 그 안에서 behavioral direction을 비교·전이·steering하는 framework를 제안합니다.

ACS_background.png

🧠 Great Findings!!

새로운 LLM이 나와도 다시 behavior vector를 추출할 필요 없이, anchor forward 만으로 아래 달성. Target unseen model에게 기존 모델에서 얻은 behavioral direction을 그대로 옮겨 쓸 수 있으며, 실제로, 이 ACS 전이를 통해 jailbreak 방어 성능(refusal rate)이 최대 +32.0%까지 향상됨.

📌 연구 배경: “모델마다 steering vector를 다시 뽑아야 할까?”

Activation steering에서는 보통 특정 behavior axis에 대해 direction을 뽑는다.

예를 들어 refusal axis라면:

refusal direction = mean(harmful prompts) - mean(benign prompts)

하지만 문제는 이 direction이 각 모델의 native hidden space 안에만 존재한다는 것.

즉, 모델마다 direction을 새로 뽑아야 하고, 서로 다른 family 사이에서 직접 비교하거나 재사용하기 어려움.

→ “서로 다른 모델의 behavioral direction을 하나의 공통 공간에서 볼 수는 없을까?

💡 핵심 아이디어: Anchor Coordinate Space