🧠 SafeRemind: "위험한 사고 과정"을 스스로 멈추게 하는 Training-free 세이프 가드

"SafeRemind는 최근 주목받는 Large Reasoning Models(LRMs)의 추론 과정(Thinking Process)에 개입하여, 모델의 지능은 유지하되 탈옥(Jailbreaking) 위험은 낮추는 새로운 Decoding-time 방어 기술입니다.

📌 연구 배경: “AI가 깊게 생각할수록 더 위험해질 수 있다?”

최근 DeepSeek-R1, OpenAI o1 등 Thinking Steps을 거쳐 답을 내놓는 거대 추론 모델(LRMs)들이 등장했습니다. 이들은 복잡한 수학 문제나 코딩에서 뛰어난 성능을 보입니다.

하지만 여기에는 치명적인 Trade-off가 존재합니다.

The Risk: 모델이 거치는 '사고 과정'이 오히려 탈옥(Jailbreaking) 공격의 통로가 되어 유해한 정보를 구체화하는 데 악용될 수 있음
The Dilemma: 그렇다고 사고 과정을 없애버리면? 모델의 뛰어난 추론 능력이 사라져 성능이 하락
Existing Limits: 기존의 방어 기법들은 모델을 재학습시켜야 해서 비용이 크거나(Fine-tuning), 추론 모델 특유의 메커니즘을 무시하여 방어율이 낮았음

→ "재학습 없이, 모델이 스스로 위험을 감지하고 멈추게 할 수는 없을까?"

우리는 LRM의 사고 과정을 분석하던 중 두 가지 흥미로운 사실을 발견했습니다.

Entropy Drop: 모델이 특정 사고 흐름에 확신을 가지면 엔트로피(Entropy)가 급격히 낮아지며 '결정 고정(Decision-locking)' 상태가 됩니다. 이때가 위험한 생각으로 굳어질 수 있는 타이밍입니다.
Self-Correction: 모델이 "Wait, let me think again(잠깐, 다시 생각해보자)" 같은 상기 문구(Reminding phrase)를 떠올리면, 스스로 유해성을 감지하고 안전한 방향으로 선회할 수 있습니다.

SafeRemind의 Running Example