STELA는 언어학적 지식을 활용한 모델-프리(model-free) 워터마킹 기법으로, 기존 방법론의 한계를 뛰어넘어 텍스트 품질과 ****탐지 강건성 사이에서 탁월한 균형점을 찾았습니다.
STELA는 워터마크의 강도를 언어에 내재된 자유도(linguistic degrees of freedom)에 맞춰 조절합니다. 품사(Part-of-Speech) n-gram 엔트로피로 측정되는 문법적 예측 가능성을 통해 워터마크 편향(bias)을 조절함으로써, 누구나 검증할 수 있는 공개 검증 가능성(publicly verifiable)까지 확보했습니다.
대규모 언어 모델(LLM)이 발전함에 따라, 신뢰할 수 있는 LLM-생성 텍스트 탐지 및 추적 도구가 중요해졌습니다. LLM 워터마킹은 유력한 해결책이지만, 기존 방법들은 다음과 같은 근본적인 trade-off를 직면합니다.
STELA는 적응형 메커니즘을 위해 모델과 독립적인 언어학적 신호를 도입합니다. 이를 통해 STELA는 텍스트 품질을 보존하도록 워터마크 강도를 조절하면서도, 제3자가 소스 모델 없이 워터마크를 검증할 수 있도록 합니다.
기존 워터마킹 방법은 토큰 수준 엔트로피 같은 모델 의존적 신호를 사용하기 때문에, 모델의 로짓(logits) 접근이 필수적이며 이는 공개 검증을 어렵게 만듭니다.
STELA는 이 한계를 극복하기 위해, 사람이 작성한 텍스트 코퍼스에서 도출된 모델-독립적인 언어 신호인 언어적 불확정성(linguistic indeterminacy)을 도입합니다.
생성 단계마다, STELA는 다음의 과정을 거칩니다.
언어적 불확정성 값 λ(c_t) 계산: 현재 품사 문맥(c_t)의 문법적 자유도를 나타냅니다.
워터마크 편향의 적응적 조절: 워터마크 편향 **λ(c_t)**에 비례하여 조정됩니다.
적응적 탐지: 탐지 시, 각 토큰은 λ(c_t에 비례하는 가중치를 가지고 z-점수 계산에 기여합니다. 이로써 로짓 접근 없이, 모델에 구애받지 않는 적응적 탐지 통계량을 얻습니다.
(I) 높은 불확정성 문맥: "The intelligent student"와 같은 구절 다음에는 다양한 문법적 후속 표현이 가능합니다. 여기서 λ(cₜ)는 높으므로, STELA는 강력한 편향을 적용하여 강건한 워터마크를 삽입합니다.
(II) 낮은 불확정성 문맥: "...read the difficult" 다음에는 명사가 올 확률이 매우 높습니다. 여기서 λ(cₜ)는 낮으므로, STELA는 약한 편향을 적용하여 텍스트 품질을 우선시하고 부자연스러운 단어 생성을 피합니다.
이러한 적응형 삽입 전략은 탐지 과정에도 그대로 반영됩니다. 탐지기는 각 토큰의 최종 z-score에 대한 기여도를 해당 언어학적 불확정성 값으로 가중치를 부여합니다. 이 모든 과정은 logits 없이 모델과 무관하게 이루어지므로, 공개적 검증을 용이하게 합니다.