LLM은 왜 어떤 요청에는 “죄송하지만 도와드릴 수 없습니다” 라고 말하고, 어떤 순간에는 “네, 대답해드릴게요” 처럼 응답을 시작할까?
그리고 그 거부를 야기하는 내부 feature는 어떻게 찾을 수 있을까?
CRaFT는 LLM의 refusal behavior를 단순히 “강한activation”으로 단서를 찾지 않고, 모델 내부의 circuit influence를 따라가며 refusal/compliance 결정의 근본 원인이 되는 feature를 찾는 방법입니다.
-1.png)
🧠 Great Findings!!
강하게 activate되는 feature(그림 좌측)가 항상 중요한 feature는 아님을 발견.
CRaFT(그림 우측)는 Cross-Layer Transcoder를 이용해 내부 refusal 흐름을 그래프화하여 파악하고, 찾아낸 거부 feature를 억제하여 Jailbreak 공격 성공률을 6.7%에서 무려 57.4%로 향상시킴
LLM safety 연구에서는 모델이 유해 요청을 어떻게 거절하는지 이해하는 것이 중요하다.
기존에는 보통 다음과 같은 방식으로 refusal feature를 찾음.
harmful prompt에서 강하게 activate되는 feature
OR
harmful prompt와 benign prompt 사이에서 activation 차이가 큰 feature
예를 들어:
refusal feature ≈ high_activation(harmful prompts)
하지만 여기에는 중요한 문제가 있음:
어떤 feature가 유해 prompt에서 강하게 켜졌다고 해서, 그 feature가 실제로 모델의 거절 결정을 만든다는 보장은 없다.
그 feature는 단지 다음과 같은 표면적 신호를 잡고 있을 수도 있습니다.
즉, activation은 correlation일 수 있지만, 우리가 찾고 싶은 것은 decision에 영향을 주는 mechanism입니다.