Cross-Family Universality of Behavioral Axes via Anchor-Projected Representations

서로 다른 LLM family 사이에서도 refusal, sentiment 같은 behavioral direction을 공유하고 재사용할 수 있을까?

이 논문은 서로 다른 hidden dimension을 가진 LLM들을 하나의 공통 공간인 Anchor Coordinate Space (ACS) 로 옮기고, 그 안에서 behavioral direction을 비교·전이·steering하는 framework를 제안합니다.

🧠 Great Findings!!

새로운 LLM이 나와도 다시 behavior vector를 추출할 필요 없이, anchor forward 만으로 아래 달성. Target unseen model에게 기존 모델에서 얻은 behavioral direction을 그대로 옮겨 쓸 수 있으며, 실제로, 이 ACS 전이를 통해 jailbreak 방어 성능(refusal rate)이 최대 +32.0%까지 향상됨.

📌 연구 배경: “모델마다 steering vector를 다시 뽑아야 할까?”

Activation steering에서는 보통 특정 behavior axis에 대해 direction을 뽑는다.

예를 들어 refusal axis라면:

refusal direction = mean(harmful prompts) - mean(benign prompts)

하지만 문제는 이 direction이 각 모델의 native hidden space 안에만 존재한다는 것.

Llama에서 뽑은 direction은 Llama hidden space에 있음
Qwen에서 뽑은 direction은 Qwen hidden space에 있음
Mistral, Phi, Gemma도 모두 hidden dimension과 basis가 다름

즉, 모델마다 direction을 새로 뽑아야 하고, 서로 다른 family 사이에서 직접 비교하거나 재사용하기 어려움.

→ “서로 다른 모델의 behavioral direction을 하나의 공통 공간에서 볼 수는 없을까?

💡 핵심 아이디어: Anchor Coordinate Space

300개의 fixed anchor prompt를 사용함. 같은 anchor prompt를 여러 모델에 넣으면, 각 모델이 이 anchor들에 대해 어떻게 반응하는지 알 수 있음.