ํ ์ค ์์ฝ
LUNA๋ ํ์ฌ(POS) ๋ฌธ๋งฅ์ ๋ถํ์ค์ฑ์ ํ์ฉํด ์ํฐ๋งํฌ ๊ฐ๋๋ฅผ ๋์ ์ผ๋ก ์กฐ์ ํ๋ ๋ค๊ตญ์ด LLM ์ํฐ๋งํน ๊ธฐ๋ฒ์ด๋ค. ๋์ ํ์ง ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์์ฑ ํ์ง ์ ํ๋ฅผ ํฌ๊ฒ ์ค์ด๋ ๊ฒ์ด ํต์ฌ์ด๋ค.
LLM์ด ๋ง๋ ๊ธ์ ๋์ค์ ์๋ณํ ์ ์๋ค๋ฉด ๋ฌด์์ด ๋ฌ๋ผ์ง๊น์? ์์ฑํ AI๊ฐ ๋ง๋ ํ ์คํธ๊ฐ ๋ด์ค, ์ํค ๋ฌธ์, ์์ฝ๋ฌธ, ๋๊ธ, ๋ณด๊ณ ์์ฒ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์์ด๋ ํ๊ฒฝ์์๋ โ์ด ํ ์คํธ๊ฐ ์ด๋์์ ์๋๊ฐโ๋ฅผ ์ถ์ ํ๋ ๊ธฐ์ ์ด ์ค์ํด์ง๋๋ค. LLM ์ํฐ๋งํน์ ๋ฐ๋ก ์ด ๋ฌธ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์์ฑํ๋ ์๊ฐ ํต๊ณ์ ์ ํธ๋ฅผ ์ฌ๊ณ , ๋์ค์ ๊ทธ ์ ํธ๋ฅผ ๊ฒ์ ํด์ ์ํฐ๋งํฌ ์ฌ๋ถ๋ฅผ ํ๋จํฉ๋๋ค.
ํ์ง๋ง ํ ์คํธ ์ํฐ๋งํน์ ๋จ์ํ โ์ ์กํ๋ฉด ๋๋คโ๋ก ๋๋์ง ์์ต๋๋ค. ํ์ง๋ ๊ฐํด์ผ ํ์ง๋ง, ์์ฑ ํ์ง์ ๋ง์น๋ฉด ์ ๋ฉ๋๋ค. ๊ฒ์ฆ์๊ฐ ์๋ ๋ชจ๋ธ์ logits๋ forward pass์ ์ ๊ทผํด์ผ ํ๋ค๋ฉด ์ค์ ์๋น์ค๋ ์ 3์ ๊ฐ์ฌ ํ๊ฒฝ์์ ์ฐ๊ธฐ ์ด๋ ต์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ด์์ ์ ๋๋ ๋ฐฉ์์ด ํ๊ตญ์ด, ์ผ๋ณธ์ด, ์ค๊ตญ์ด, ๋ ์ผ์ด, ์๋์ด์์๋ ์์ฐ์ค๋ฝ๊ฒ ์ ๋๋ค๋ ๋ณด์ฅ๋ ์์ต๋๋ค.
LUNA๋ ์ด ์ธ ๊ฐ์ง ์๊ตฌ๋ฅผ ๋์์ ๊ฒจ๋ฅํ ๋ค๊ตญ์ด LLM ์ํฐ๋งํน ๋ฐฉ๋ฒ์ ๋๋ค. ์ด๋ฆ์ Linguistics-Aware Non-Distortionary LLM Watermarking์ ์ฝ์์ ๋๋ค. ํต์ฌ์ โ์ธ์ดํ์ ์ผ๋ก ๋ ๋ง์ ์ ํ์ง๊ฐ ์ด๋ ค ์๋ ์์น์ ๋ ๋ง์ ์ํฐ๋งํฌ ์ฆ๊ฑฐ๋ฅผ ๋ฐฐ์นํ์โ๋ ์์ด๋์ด์ ๋๋ค.
๊ธฐ์กด LLM ์ํฐ๋งํน ๋ฐฉ๋ฒ์ ๋์ฒด๋ก ๋ ๋ฐฉํฅ์ผ๋ก ๋๋ฉ๋๋ค.
ํ๋๋ next-token distribution์ ์ง์ ๋ฐ๊พธ๋ ๋ฐฉ์์ ๋๋ค. ์๋ฅผ ๋ค์ด ํน์ ํค์ ๋ฐ๋ผ vocabulary๋ฅผ green list์ red list๋ก ๋๋๊ณ , green token์ logit์ bias๋ฅผ ์ฃผ๋ ์์ ๋๋ค. ์ด๋ฐ ๋ฐฉ์์ ํ์ง๊ฐ ์ฝ๊ณ ๊ฐ๋ ฅํ ์ ์์ง๋ง, ํ ํฐ ๋ถํฌ๋ฅผ ์ง์ ๋ฐ๊พธ๊ธฐ ๋๋ฌธ์ ์์ฑ ํ์ง์ ์ํฅ์ ์ค ์ ์์ต๋๋ค.
๋ค๋ฅธ ํ๋๋ distribution-preserving ๋๋ non-distortionary ๊ณ์ด์ ๋๋ค. ์ํฐ๋งํฌ randomness์ ๋ํด ํ๊ท ์ ๋ด๋ฉด ์๋ next-token marginal distribution์ด ๋ณด์กด๋๋๋ก ์ค๊ณํฉ๋๋ค. LUNA๋ ์ด ๊ณ์ด์ ์ํฉ๋๋ค. ๋ค๋ง LUNA์ non-distortionary ์ฃผ์ฅ์ ์ ํํ ํ์ค random-key model์์ ๋จ์ผ ํ ํฐ marginal์ ๋ณด์กดํ๋ค๋ ์๋ฏธ์ ๋๋ค. ๊ณ ์ ๋ ํ๋์ key์์ ์ ์ฒด sequence distribution์ด ์์ ํ ๊ฐ๋ค๋ ๋ป์ ์๋๋๋ค.
๋ ๋ค๋ฅธ ์ถ์ adaptive watermarking์ ๋๋ค. ์ด๋ค ์์น์๋ ์ํฐ๋งํฌ๋ฅผ ๊ฐํ๊ฒ ๋ฃ๊ณ , ์ด๋ค ์์น์๋ ์ฝํ๊ฒ ๋ฃ๋ ๋ฐฉ์์ ๋๋ค. ๊ธฐ์กด adaptive ๋ฐฉ๋ฒ ์ค ์ผ๋ถ๋ language model entropy ๊ฐ์ ๋ชจ๋ธ ๋ด๋ถ ์ ๋ณด๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ฌธ์ ๋ detectionํ ๋๋ ๋ชจ๋ธ entropy๋ logits๊ฐ ํ์ํ ์ ์๋ค๋ ์ ์ ๋๋ค. ์ด๋ ๊ฒ ๋๋ฉด verifier๊ฐ ์๋ ๋ชจ๋ธ์ด๋ surrogate model์ ๋๋ ค์ผ ํฉ๋๋ค.
LUNA๋ ์ฌ๊ธฐ์ ๋ค๋ฅธ ๊ธธ์ ํํฉ๋๋ค. ๋ชจ๋ธ ๋ด๋ถ ์ ๋ณด ๋์ , ํ์ฌ ๋ฌธ๋งฅ์์ ๋ค์ ํ์ฌ ํ๊ทธ๊ฐ ์ผ๋ง๋ ์์ธก ๊ฐ๋ฅํ์ง๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ์ ํธ๋ ์ธ์ด์ POS ๋ถ์๊ธฐ์ ์ํด ๊ฒฐ์ ๋๋ฉฐ, ํน์ ์์ฑ ๋ชจ๋ธ์ logits์ ์์กดํ์ง ์์ต๋๋ค.
| ๊ธฐํธ | ์๋ฏธ |
|---|---|
| $c$ | POS context |
| $\lambda(c)$ | POS-context entropy๋ฅผ ์ ๊ทํํ ๊ฐ |
| $m_t$ | ํ์ฌ ์์น์์ ์ฌ์ฉํ tournament depth |
| $m_{\min}, m_{\mid}, m_{\max}$ | shallow / mid / deep depth |
| $\tau_1, \tau_2$ | depth๋ฅผ ๋๋๋ ์๊ณ๊ฐ |
| $x_t$ | ํ์ฌ ์์ฑํ ํ ํฐ |
| $p_t(v)$ | ์ธ์ด๋ชจ๋ธ์ next-token distribution |
์ธ์ด๋ง๋ค, ๊ทธ๋ฆฌ๊ณ ๊ฐ์ ์ธ์ด ์์์๋ ๋ฌธ๋งฅ๋ง๋ค โ๋ค์์ ๋ฌด์์ด ์ฌ ์ ์๋๊ฐโ๊ฐ ๋ค๋ฆ ๋๋ค.