✨ WaterMod: 확률 순위를 이용한 새로운 LLM 워터마킹 패러다임

WaterMod는 대규모 언어 모델(LLM)의 생성 텍스트 품질을 보존하면서도

강력한 탐지 성능을 달성하는 확률 균형(probability-balanced) 워터마킹 프레임워크입니다.

기존의 워터마킹 방법들은 무작위 어휘 분할(random vocabulary split)로 인해 자연스러운 단어가 금지(Red list) 집합에 포함되는 문제가 있었습니다. 이로 인해 문장 품질이 저하되고, 탐지 강건성과 유창성 간의 근본적 trade-off가 발생했습니다. WaterMod는 이 문제를 단어가 아닌 확률 순위(rank)를 분할하는 접근으로 해결합니다. 즉, 모델이 계산한 확률 분포를 기반으로 단어들을 순위별로 나눈 뒤, **모듈러 연산(rank mod k)**을 적용하여 색상군(color class)을 구성합니다. 이 단순한 규칙은 인접한 고확률 단어(의미상 유사어)를 자연스럽게 분산시켜 하나 이상의 고품질 후보를 유지할 수 있도록 합니다.



📌 배경: 왜 WaterMod가 필요한가?

AI 생성물이 사회 전반에 확산되면서,

이 콘텐츠를 누가 만들었는가?”를 검증하는 기술의 필요성이 급격히 커지고 있습니다.

특히 EU AI Act와 같은 글로벌 규제 프레임워크는

AI가 생성한 콘텐츠에 대해 기계적으로 검증 가능한 출처 표시(machine-verifiable provenance) 를 요구하고 있습니다.

이에 따라 LLM 워터마킹(Logit-based watermarking) 이 가장 유력한 기술적 대안으로 주목받고 있지만,

기존 방법들은 다음과 같은 본질적인 한계를 안고 있습니다.

1️⃣ 품질 저하 문제 — “무작위 어휘 분할(Random Vocabulary Split)”

대부분의 기존 워터마킹 방식은 매 생성 단계마다

모델의 어휘 전체를 무작위로 green listred list로 나눕니다.

이후 green list의 토큰 확률만 인위적으로 높여 선택되도록 유도합니다.

이 단순한 구조는 토큰 선택의 유연성 을 심각하게 제한합니다.

가장 문맥에 어울리는 단어가 red list에 포함되면,

모델은 불가피하게 어색한 단어를 선택해야 하며,