๐Ÿง  SafeRemind: "์œ„ํ—˜ํ•œ ์‚ฌ๊ณ  ๊ณผ์ •"์„ ์Šค์Šค๋กœ ๋ฉˆ์ถ”๊ฒŒ ํ•˜๋Š” Training-free ์„ธ์ดํ”„ ๊ฐ€๋“œ

"SafeRemind๋Š” ์ตœ๊ทผ ์ฃผ๋ชฉ๋ฐ›๋Š” Large Reasoning Models(LRMs)์˜ ์ถ”๋ก  ๊ณผ์ •(Thinking Process)์— ๊ฐœ์ž…ํ•˜์—ฌ, ๋ชจ๋ธ์˜ ์ง€๋Šฅ์€ ์œ ์ง€ํ•˜๋˜ ํƒˆ์˜ฅ(Jailbreaking) ์œ„ํ—˜์€ ๋‚ฎ์ถ”๋Š” ์ƒˆ๋กœ์šด Decoding-time ๋ฐฉ์–ด ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

image.png


๐Ÿ“Œ ์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ: โ€œAI๊ฐ€ ๊นŠ๊ฒŒ ์ƒ๊ฐํ• ์ˆ˜๋ก ๋” ์œ„ํ—˜ํ•ด์งˆ ์ˆ˜ ์žˆ๋‹ค?โ€

์ตœ๊ทผ DeepSeek-R1, OpenAI o1 ๋“ฑ Thinking Steps์„ ๊ฑฐ์ณ ๋‹ต์„ ๋‚ด๋†“๋Š” ๊ฑฐ๋Œ€ ์ถ”๋ก  ๋ชจ๋ธ(LRMs)๋“ค์ด ๋“ฑ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ๋‚˜ ์ฝ”๋”ฉ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์—๋Š” ์น˜๋ช…์ ์ธ Trade-off๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

โ†’ "์žฌํ•™์Šต ์—†์ด, ๋ชจ๋ธ์ด ์Šค์Šค๋กœ ์œ„ํ—˜์„ ๊ฐ์ง€ํ•˜๊ณ  ๋ฉˆ์ถ”๊ฒŒ ํ•  ์ˆ˜๋Š” ์—†์„๊นŒ?"


๐Ÿ’ก ํ•ต์‹ฌ ์•„์ด๋””์–ด: LRM์˜ โ€œSelf-Correctionโ€

์šฐ๋ฆฌ๋Š” LRM์˜ ์‚ฌ๊ณ  ๊ณผ์ •์„ ๋ถ„์„ํ•˜๋˜ ์ค‘ ๋‘ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

  1. Entropy Drop: ๋ชจ๋ธ์ด ํŠน์ • ์‚ฌ๊ณ  ํ๋ฆ„์— ํ™•์‹ ์„ ๊ฐ€์ง€๋ฉด ์—”ํŠธ๋กœํ”ผ(Entropy)๊ฐ€ ๊ธ‰๊ฒฉํžˆ ๋‚ฎ์•„์ง€๋ฉฐ '๊ฒฐ์ • ๊ณ ์ •(Decision-locking)' ์ƒํƒœ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ด๋•Œ๊ฐ€ ์œ„ํ—˜ํ•œ ์ƒ๊ฐ์œผ๋กœ ๊ตณ์–ด์งˆ ์ˆ˜ ์žˆ๋Š” ํƒ€์ด๋ฐ์ž…๋‹ˆ๋‹ค.
  2. Self-Correction: ๋ชจ๋ธ์ด "Wait, let me think again(์ž ๊น, ๋‹ค์‹œ ์ƒ๊ฐํ•ด๋ณด์ž)" ๊ฐ™์€ ์ƒ๊ธฐ ๋ฌธ๊ตฌ(Reminding phrase)๋ฅผ ๋– ์˜ฌ๋ฆฌ๋ฉด, ์Šค์Šค๋กœ ์œ ํ•ด์„ฑ์„ ๊ฐ์ง€ํ•˜๊ณ  ์•ˆ์ „ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ์„ ํšŒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SafeRemind์˜ Running Example

SafeRemind์˜ Running Example