๐ง SafeRemind: "์ํํ ์ฌ๊ณ ๊ณผ์ "์ ์ค์ค๋ก ๋ฉ์ถ๊ฒ ํ๋ Training-free ์ธ์ดํ ๊ฐ๋
"SafeRemind๋ ์ต๊ทผ ์ฃผ๋ชฉ๋ฐ๋ Large Reasoning Models(LRMs)์ ์ถ๋ก ๊ณผ์ (Thinking Process)์ ๊ฐ์
ํ์ฌ, ๋ชจ๋ธ์ ์ง๋ฅ์ ์ ์งํ๋ ํ์ฅ(Jailbreaking) ์ํ์ ๋ฎ์ถ๋ ์๋ก์ด Decoding-time ๋ฐฉ์ด ๊ธฐ์ ์
๋๋ค.

๐ ์ฐ๊ตฌ ๋ฐฐ๊ฒฝ: โAI๊ฐ ๊น๊ฒ ์๊ฐํ ์๋ก ๋ ์ํํด์ง ์ ์๋ค?โ
์ต๊ทผ DeepSeek-R1, OpenAI o1 ๋ฑ Thinking Steps์ ๊ฑฐ์ณ ๋ต์ ๋ด๋๋ ๊ฑฐ๋ ์ถ๋ก ๋ชจ๋ธ(LRMs)๋ค์ด ๋ฑ์ฅํ์ต๋๋ค. ์ด๋ค์ ๋ณต์กํ ์ํ ๋ฌธ์ ๋ ์ฝ๋ฉ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
ํ์ง๋ง ์ฌ๊ธฐ์๋ ์น๋ช
์ ์ธ Trade-off๊ฐ ์กด์ฌํฉ๋๋ค.
- The Risk: ๋ชจ๋ธ์ด ๊ฑฐ์น๋ '์ฌ๊ณ ๊ณผ์ '์ด ์คํ๋ ค ํ์ฅ(Jailbreaking) ๊ณต๊ฒฉ์ ํต๋ก๊ฐ ๋์ด ์ ํดํ ์ ๋ณด๋ฅผ ๊ตฌ์ฒดํํ๋ ๋ฐ ์
์ฉ๋ ์ ์์
- The Dilemma: ๊ทธ๋ ๋ค๊ณ ์ฌ๊ณ ๊ณผ์ ์ ์์ ๋ฒ๋ฆฌ๋ฉด? ๋ชจ๋ธ์ ๋ฐ์ด๋ ์ถ๋ก ๋ฅ๋ ฅ์ด ์ฌ๋ผ์ ธ ์ฑ๋ฅ์ด ํ๋ฝ
- Existing Limits: ๊ธฐ์กด์ ๋ฐฉ์ด ๊ธฐ๋ฒ๋ค์ ๋ชจ๋ธ์ ์ฌํ์ต์์ผ์ผ ํด์ ๋น์ฉ์ด ํฌ๊ฑฐ๋(Fine-tuning), ์ถ๋ก ๋ชจ๋ธ ํน์ ์ ๋ฉ์ปค๋์ฆ์ ๋ฌด์ํ์ฌ ๋ฐฉ์ด์จ์ด ๋ฎ์์
โ "์ฌํ์ต ์์ด, ๋ชจ๋ธ์ด ์ค์ค๋ก ์ํ์ ๊ฐ์งํ๊ณ ๋ฉ์ถ๊ฒ ํ ์๋ ์์๊น?"
๐ก ํต์ฌ ์์ด๋์ด: LRM์ โSelf-Correctionโ
์ฐ๋ฆฌ๋ LRM์ ์ฌ๊ณ ๊ณผ์ ์ ๋ถ์ํ๋ ์ค ๋ ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ์ฌ์ค์ ๋ฐ๊ฒฌํ์ต๋๋ค.
- Entropy Drop: ๋ชจ๋ธ์ด ํน์ ์ฌ๊ณ ํ๋ฆ์ ํ์ ์ ๊ฐ์ง๋ฉด ์ํธ๋กํผ(Entropy)๊ฐ ๊ธ๊ฒฉํ ๋ฎ์์ง๋ฉฐ '๊ฒฐ์ ๊ณ ์ (Decision-locking)' ์ํ๊ฐ ๋ฉ๋๋ค. ์ด๋๊ฐ ์ํํ ์๊ฐ์ผ๋ก ๊ตณ์ด์ง ์ ์๋ ํ์ด๋ฐ์
๋๋ค.
- Self-Correction: ๋ชจ๋ธ์ด "Wait, let me think again(์ ๊น, ๋ค์ ์๊ฐํด๋ณด์)" ๊ฐ์ ์๊ธฐ ๋ฌธ๊ตฌ(Reminding phrase)๋ฅผ ๋ ์ฌ๋ฆฌ๋ฉด, ์ค์ค๋ก ์ ํด์ฑ์ ๊ฐ์งํ๊ณ ์์ ํ ๋ฐฉํฅ์ผ๋ก ์ ํํ ์ ์์ต๋๋ค.

SafeRemind์ Running Example