혐오 표현, 어떻게 탐지할까?

인터넷 플랫폼이 발전하면서, 많은 정보를 얻을 수 있는 동시에 나쁜 정보에 대한 노출도 쉬워졌습니다. 이러한 나쁜 정보들 중에는 직접적인 욕설 없이도 특정 대상에 대한 편견이나 적개심을 문맥 속에 숨겨 표현하는 **암시적 혐오(Implicit Hate Speech)**가 존재합니다. 기존의 모델들은 명시적인 비하 발언이나 욕설에 초점을 맞추었기 때문에 암시적인 표현들은 탐지가 매우 어렵다는 문제가 있습니다. 따라서 이 논문은 사람처럼 문장을 해석하는 방법을 모사한 새로운 접근법 AmpleHate를 제안하였습니다.

사람은 특정 집단 (예: 인종, 성별, 국적 등)을 먼저 식별한 뒤, 그 집단이 문맥 속에서 어떻게 언급되는지 바탕으로 혐오 여부를 판단합니다. AmpleHate는 이러한 인간의 추론 과정을 모방하여 작동합니다.

사람.png

우리.png

기존.png

위 그림에서 확인할 수 있듯이 AmpleHate의 attention signals를 보면 ‘man’, ‘.’, ‘the’ 와 같은 토큰들에 집중하지 않고, 사람과 비슷하게 혐오 표현과 관련있는 토큰들을 집중으로 문맥을 파악하는 것을 알 수 있습니다.

AmpleHate: 혐오 표현 탐지 방법론


overview.png

AmpleHate는 다음과 같이 세단계에 거쳐 혐오 표현 탐지를 진행합니다.

1. 대상 식별 (Target Identification)

문장 내에서 혐오의 대상이 되는 존재를 먼저 찾아냅니다. 이들은 크게 두 가지로 구분이 됩니다.

  1. 명시적 대상 탐지 (Explicit Targets)
  2. 암시적 대상 탐지 (Implicit Targets)

2. 집단과의 관계 연산 (Relation Computation)

이 단계에서는 대상과 문장 전체 간의 관계를 계산합니다.

<aside> 💡

단순히 문장을 임베딩하는 것이 아니라, 문장 내 대상이 어떤 방식으로 문맥에 의해 혐오적으로 표현되는가를 모델이 집중적으로 파악하도록 유도합니다.

</aside>

3. 관계 주입 (Direct Injection)