A Linguistics-Aware LLM Watermarking via Syntactic Predictability

✨ STELA: 언어의 자유도에 맞춰 숨겨진 워터마크 기술

STELA는 언어학적 지식을 활용한 모델-프리(model-free) 워터마킹 기법으로, 기존 방법론의 한계를 뛰어넘어 텍스트 품질과 ****탐지 강건성 사이에서 탁월한 균형점을 찾았습니다.

STELA는 워터마크의 강도를 언어에 내재된 자유도(linguistic degrees of freedom)에 맞춰 조절합니다. 품사(Part-of-Speech) n-gram 엔트로피로 측정되는 문법적 예측 가능성을 통해 워터마크 편향(bias)을 조절함으로써, 누구나 검증할 수 있는 공개 검증 가능성(publicly verifiable)까지 확보했습니다.

📌 배경: 왜 새로운 워터마크가 필요한가?

대규모 언어 모델(LLM)이 발전함에 따라, 신뢰할 수 있는 LLM-생성 텍스트 탐지 및 추적 도구가 중요해졌습니다. LLM 워터마킹은 유력한 해결책이지만, 기존 방법들은 다음과 같은 근본적인 trade-off를 직면합니다.

정적(Static) 워터마킹
- 동작 방식: 모든 생성 단계에서 고정된 강도의 편향을 적용합니다.
- 문제점: 문법적으로 제약이 심한 문맥에서 워터마크가 적용된 토큰을 강제로 생성하면 부자연스러운 단어가 생성되어 텍스트 품질이 저하될 수 있습니다.
모델 종속적(Model-Dependent) 적응형 워터마킹
- 동작 방식: 토큰 엔트로피와 같이 모델 내부의 출력 확률(logits)을 사용하여 워터마크 강도를 조절합니다. 이는 텍스트 품질을 보존하는 데 도움이 됩니다.
- 문제점: 탐지 시 원본 모델의 logits에 접근해야 합니다. 이는 제3자가 소스 모델 없이 독립적으로 워터마크를 검증할 수 없게 만들어 공개적 검증에 큰 장벽이 됩니다.

STELA는 적응형 메커니즘을 위해 모델과 독립적인 언어학적 신호를 도입합니다. 이를 통해 STELA는 텍스트 품질을 보존하도록 워터마크 강도를 조절하면서도, 제3자가 소스 모델 없이 워터마크를 검증할 수 있도록 합니다.

🌐 핵심 원리: 모델 독립적인 언어 신호

기존 워터마킹 방법은 토큰 수준 엔트로피 같은 모델 의존적 신호를 사용하기 때문에, 모델의 로짓(logits) 접근이 필수적이며 이는 공개 검증을 어렵게 만듭니다.

STELA는 이 한계를 극복하기 위해, 사람이 작성한 텍스트 코퍼스에서 도출된 모델-독립적인 언어 신호인 언어적 불확정성(linguistic indeterminacy)을 도입합니다.

STELA의 동작 방식 개요

생성 단계마다, STELA는 다음의 과정을 거칩니다.

언어적 불확정성 값 λ(c_t) 계산: 현재 품사 문맥(c_t)의 문법적 자유도를 나타냅니다.
워터마크 편향의 적응적 조절: 워터마크 편향 **λ(c_t)**에 비례하여 조정됩니다.
- 문법적으로 유연한 문맥에서는 워터마크를 강화합니다.
- 문법적으로 제약된 문맥에서는 텍스트 품질을 위해 워터마크를 약화합니다.
적응적 탐지: 탐지 시, 각 토큰은 λ(c_t에 비례하는 가중치를 가지고 z-점수 계산에 기여합니다. 이로써 로짓 접근 없이, 모델에 구애받지 않는 적응적 탐지 통계량을 얻습니다.

STELA의 동작 단계별 동작 방식
1. 언어학적 문맥 분석: 이전 토큰들의 품사(POS) 시퀀스를 식별하여 현재 문맥 cₜ를 정의합니다.
2. 불확정성 값 조회: 현재 문맥에 대해 사전 계산된 언어학적 불확정성 값 λ(cₜ)를 조회합니다. 이 값은 0과 1 사이로 정규화됩니다.
  - λ(cₜ) → 1 (높은 불확정성): 문맥이 문법적으로 유연하여 다양한 종류의 단어가 뒤따를 수 있습니다 (예: "The intelligent student" 다음에는 동사, 부사, 조동사 등이 모두 가능).
  - λ(cₜ) → 0 (낮은 불확정성): 문맥이 문법적으로 제약되어 특정 문법 구조를 강력하게 시사합니다 (예: "...read the difficult" 다음에는 명사가 거의 필수적으로 와야 함).
3. 워터마크 강도 조절: 기본 워터마크 강도 δ를 불확정성 값으로 스케일링하여 현재 단계의 적응형 편향을 계산합니다: δ′ₜ = δ × λ(cₜ).
(I) 높은 불확정성 문맥: "The intelligent student"와 같은 구절 다음에는 다양한 문법적 후속 표현이 가능합니다. 여기서 λ(cₜ)는 높으므로, STELA는 강력한 편향을 적용하여 강건한 워터마크를 삽입합니다.

(II) 낮은 불확정성 문맥: "...read the difficult" 다음에는 명사가 올 확률이 매우 높습니다. 여기서 λ(cₜ)는 낮으므로, STELA는 약한 편향을 적용하여 텍스트 품질을 우선시하고 부자연스러운 단어 생성을 피합니다.

이러한 적응형 삽입 전략은 탐지 과정에도 그대로 반영됩니다. 탐지기는 각 토큰의 최종 z-score에 대한 기여도를 해당 언어학적 불확정성 값으로 가중치를 부여합니다. 이 모든 과정은 logits 없이 모델과 무관하게 이루어지므로, 공개적 검증을 용이하게 합니다.

✨ STELA: 언어의 자유도에 맞춰 숨겨진 워터마크 기술

📌 배경: 왜 새로운 워터마크가 필요한가?

🌐 핵심 원리: 모델 독립적인 언어 신호

STELA의 동작 방식 개요

STELA의 동작 단계별 동작 방식

🚀 주요 결과: 압도적인 성능 우위