WaterMod는 대규모 언어 모델(LLM)의 생성 텍스트 품질을 보존하면서도
강력한 탐지 성능을 달성하는 확률 균형(probability-balanced) 워터마킹 프레임워크입니다.
기존의 워터마킹 방법들은 무작위 어휘 분할(random vocabulary split)로 인해 자연스러운 단어가 금지(Red list) 집합에 포함되는 문제가 있었습니다. 이로 인해 문장 품질이 저하되고, 탐지 강건성과 유창성 간의 근본적 trade-off가 발생했습니다. WaterMod는 이 문제를 단어가 아닌 확률 순위(rank)를 분할하는 접근으로 해결합니다. 즉, 모델이 계산한 확률 분포를 기반으로 단어들을 순위별로 나눈 뒤, **모듈러 연산(rank mod k)**을 적용하여 색상군(color class)을 구성합니다. 이 단순한 규칙은 인접한 고확률 단어(의미상 유사어)를 자연스럽게 분산시켜 하나 이상의 고품질 후보를 유지할 수 있도록 합니다.
AI 생성물이 사회 전반에 확산되면서,
“이 콘텐츠를 누가 만들었는가?”를 검증하는 기술의 필요성이 급격히 커지고 있습니다.
특히 EU AI Act와 같은 글로벌 규제 프레임워크는
AI가 생성한 콘텐츠에 대해 기계적으로 검증 가능한 출처 표시(machine-verifiable provenance) 를 요구하고 있습니다.
이에 따라 LLM 워터마킹(Logit-based watermarking) 이 가장 유력한 기술적 대안으로 주목받고 있지만,
기존 방법들은 다음과 같은 본질적인 한계를 안고 있습니다.
대부분의 기존 워터마킹 방식은 매 생성 단계마다
모델의 어휘 전체를 무작위로 green list와 red list로 나눕니다.
이후 green list의 토큰 확률만 인위적으로 높여 선택되도록 유도합니다.
이 단순한 구조는 토큰 선택의 유연성 을 심각하게 제한합니다.
가장 문맥에 어울리는 단어가 red list에 포함되면,
모델은 불가피하게 어색한 단어를 선택해야 하며,