๐ŸŒ™ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๋Š” LLM ์›Œํ„ฐ๋งˆํฌ, LUNA

ํ•œ ์ค„ ์š”์•ฝ

LUNA๋Š” ํ’ˆ์‚ฌ(POS) ๋ฌธ๋งฅ์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ํ™œ์šฉํ•ด ์›Œํ„ฐ๋งˆํฌ ๊ฐ•๋„๋ฅผ ๋™์ ์œผ๋กœ ์กฐ์ ˆํ•˜๋Š” ๋‹ค๊ตญ์–ด LLM ์›Œํ„ฐ๋งˆํ‚น ๊ธฐ๋ฒ•์ด๋‹ค. ๋†’์€ ํƒ์ง€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์ƒ์„ฑ ํ’ˆ์งˆ ์ €ํ•˜๋ฅผ ํฌ๊ฒŒ ์ค„์ด๋Š” ๊ฒƒ์ด ํ•ต์‹ฌ์ด๋‹ค.

LLM์ด ๋งŒ๋“  ๊ธ€์„ ๋‚˜์ค‘์— ์‹๋ณ„ํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ๋ฌด์—‡์ด ๋‹ฌ๋ผ์งˆ๊นŒ์š”? ์ƒ์„ฑํ˜• AI๊ฐ€ ๋งŒ๋“  ํ…์ŠคํŠธ๊ฐ€ ๋‰ด์Šค, ์œ„ํ‚ค ๋ฌธ์„œ, ์š”์•ฝ๋ฌธ, ๋Œ“๊ธ€, ๋ณด๊ณ ์„œ์ฒ˜๋Ÿผ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์„ž์ด๋Š” ํ™˜๊ฒฝ์—์„œ๋Š” โ€œ์ด ํ…์ŠคํŠธ๊ฐ€ ์–ด๋””์—์„œ ์™”๋Š”๊ฐ€โ€๋ฅผ ์ถ”์ ํ•˜๋Š” ๊ธฐ์ˆ ์ด ์ค‘์š”ํ•ด์ง‘๋‹ˆ๋‹ค. LLM ์›Œํ„ฐ๋งˆํ‚น์€ ๋ฐ”๋กœ ์ด ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ˆœ๊ฐ„ ํ†ต๊ณ„์  ์‹ ํ˜ธ๋ฅผ ์‹ฌ๊ณ , ๋‚˜์ค‘์— ๊ทธ ์‹ ํ˜ธ๋ฅผ ๊ฒ€์ •ํ•ด์„œ ์›Œํ„ฐ๋งˆํฌ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ํ…์ŠคํŠธ ์›Œํ„ฐ๋งˆํ‚น์€ ๋‹จ์ˆœํžˆ โ€œ์ž˜ ์žกํžˆ๋ฉด ๋œ๋‹คโ€๋กœ ๋๋‚˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ํƒ์ง€๋Š” ๊ฐ•ํ•ด์•ผ ํ•˜์ง€๋งŒ, ์ƒ์„ฑ ํ’ˆ์งˆ์„ ๋ง์น˜๋ฉด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. ๊ฒ€์ฆ์ž๊ฐ€ ์›๋ž˜ ๋ชจ๋ธ์˜ logits๋‚˜ forward pass์— ์ ‘๊ทผํ•ด์•ผ ํ•œ๋‹ค๋ฉด ์‹ค์ œ ์„œ๋น„์Šค๋‚˜ ์ œ3์ž ๊ฐ์‚ฌ ํ™˜๊ฒฝ์—์„œ ์“ฐ๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์˜์–ด์—์„œ ์ž˜ ๋˜๋Š” ๋ฐฉ์‹์ด ํ•œ๊ตญ์–ด, ์ผ๋ณธ์–ด, ์ค‘๊ตญ์–ด, ๋…์ผ์–ด, ์•„๋ž์–ด์—์„œ๋„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ž˜ ๋œ๋‹ค๋Š” ๋ณด์žฅ๋„ ์—†์Šต๋‹ˆ๋‹ค.

LUNA๋Š” ์ด ์„ธ ๊ฐ€์ง€ ์š”๊ตฌ๋ฅผ ๋™์‹œ์— ๊ฒจ๋ƒฅํ•œ ๋‹ค๊ตญ์–ด LLM ์›Œํ„ฐ๋งˆํ‚น ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋ฆ„์€ Linguistics-Aware Non-Distortionary LLM Watermarking์˜ ์•ฝ์ž์ž…๋‹ˆ๋‹ค. ํ•ต์‹ฌ์€ โ€œ์–ธ์–ดํ•™์ ์œผ๋กœ ๋” ๋งŽ์€ ์„ ํƒ์ง€๊ฐ€ ์—ด๋ ค ์žˆ๋Š” ์œ„์น˜์— ๋” ๋งŽ์€ ์›Œํ„ฐ๋งˆํฌ ์ฆ๊ฑฐ๋ฅผ ๋ฐฐ์น˜ํ•˜์žโ€๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค.


๐Ÿค” ์™œ LUNA๊ฐ€ ํ•„์š”ํ•œ๊ฐ€

๊ธฐ์กด LLM ์›Œํ„ฐ๋งˆํ‚น ๋ฐฉ๋ฒ•์€ ๋Œ€์ฒด๋กœ ๋‘ ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค.

ํ•˜๋‚˜๋Š” next-token distribution์„ ์ง์ ‘ ๋ฐ”๊พธ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ํŠน์ • ํ‚ค์— ๋”ฐ๋ผ vocabulary๋ฅผ green list์™€ red list๋กœ ๋‚˜๋ˆ„๊ณ , green token์˜ logit์— bias๋ฅผ ์ฃผ๋Š” ์‹์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋ฐฉ์‹์€ ํƒ์ง€๊ฐ€ ์‰ฝ๊ณ  ๊ฐ•๋ ฅํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ† ํฐ ๋ถ„ํฌ๋ฅผ ์ง์ ‘ ๋ฐ”๊พธ๊ธฐ ๋•Œ๋ฌธ์— ์ƒ์„ฑ ํ’ˆ์งˆ์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” distribution-preserving ๋˜๋Š” non-distortionary ๊ณ„์—ด์ž…๋‹ˆ๋‹ค. ์›Œํ„ฐ๋งˆํฌ randomness์— ๋Œ€ํ•ด ํ‰๊ท ์„ ๋‚ด๋ฉด ์›๋ž˜ next-token marginal distribution์ด ๋ณด์กด๋˜๋„๋ก ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค. LUNA๋Š” ์ด ๊ณ„์—ด์— ์†ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค๋งŒ LUNA์˜ non-distortionary ์ฃผ์žฅ์€ ์ •ํ™•ํžˆ ํ‘œ์ค€ random-key model์—์„œ ๋‹จ์ผ ํ† ํฐ marginal์„ ๋ณด์กดํ•œ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. ๊ณ ์ •๋œ ํ•˜๋‚˜์˜ key์—์„œ ์ „์ฒด sequence distribution์ด ์™„์ „ํžˆ ๊ฐ™๋‹ค๋Š” ๋œป์€ ์•„๋‹™๋‹ˆ๋‹ค.

๋˜ ๋‹ค๋ฅธ ์ถ•์€ adaptive watermarking์ž…๋‹ˆ๋‹ค. ์–ด๋–ค ์œ„์น˜์—๋Š” ์›Œํ„ฐ๋งˆํฌ๋ฅผ ๊ฐ•ํ•˜๊ฒŒ ๋„ฃ๊ณ , ์–ด๋–ค ์œ„์น˜์—๋Š” ์•ฝํ•˜๊ฒŒ ๋„ฃ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด adaptive ๋ฐฉ๋ฒ• ์ค‘ ์ผ๋ถ€๋Š” language model entropy ๊ฐ™์€ ๋ชจ๋ธ ๋‚ด๋ถ€ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์ œ๋Š” detectionํ•  ๋•Œ๋„ ๋ชจ๋ธ entropy๋‚˜ logits๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด verifier๊ฐ€ ์›๋ž˜ ๋ชจ๋ธ์ด๋‚˜ surrogate model์„ ๋Œ๋ ค์•ผ ํ•ฉ๋‹ˆ๋‹ค.

LUNA๋Š” ์—ฌ๊ธฐ์„œ ๋‹ค๋ฅธ ๊ธธ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ ๋‚ด๋ถ€ ์ •๋ณด ๋Œ€์‹ , ํ’ˆ์‚ฌ ๋ฌธ๋งฅ์—์„œ ๋‹ค์Œ ํ’ˆ์‚ฌ ํƒœ๊ทธ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์˜ˆ์ธก ๊ฐ€๋Šฅํ•œ์ง€๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์‹ ํ˜ธ๋Š” ์–ธ์–ด์™€ POS ๋ถ„์„๊ธฐ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋ฉฐ, ํŠน์ • ์ƒ์„ฑ ๋ชจ๋ธ์˜ logits์— ์˜์กดํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.


๐Ÿ“– ๋จผ์ € ์•Œ์•„๋‘˜ ํ‘œ๊ธฐ๋ฒ•

๊ธฐํ˜ธ ์˜๋ฏธ
$c$ POS context
$\lambda(c)$ POS-context entropy๋ฅผ ์ •๊ทœํ™”ํ•œ ๊ฐ’
$m_t$ ํ˜„์žฌ ์œ„์น˜์—์„œ ์‚ฌ์šฉํ•  tournament depth
$m_{\min}, m_{\mid}, m_{\max}$ shallow / mid / deep depth
$\tau_1, \tau_2$ depth๋ฅผ ๋‚˜๋ˆ„๋Š” ์ž„๊ณ„๊ฐ’
$x_t$ ํ˜„์žฌ ์ƒ์„ฑํ•  ํ† ํฐ
$p_t(v)$ ์–ธ์–ด๋ชจ๋ธ์˜ next-token distribution

๐Ÿ’ก ํ•ต์‹ฌ ์ง๊ด€: ๋ฌธ๋ฒ•์ ์œผ๋กœ ์„ ํƒ์ง€๊ฐ€ ๋งŽ์€ ๊ณณ๊ณผ ์ ์€ ๊ณณ

์–ธ์–ด๋งˆ๋‹ค, ๊ทธ๋ฆฌ๊ณ  ๊ฐ™์€ ์–ธ์–ด ์•ˆ์—์„œ๋„ ๋ฌธ๋งฅ๋งˆ๋‹ค โ€œ๋‹ค์Œ์— ๋ฌด์—‡์ด ์˜ฌ ์ˆ˜ ์žˆ๋Š”๊ฐ€โ€๊ฐ€ ๋‹ค๋ฆ…๋‹ˆ๋‹ค.