혐오 표현, 어떻게 탐지할까?

인터넷 플랫폼이 발전하면서, 많은 정보를 얻을 수 있는 동시에 나쁜 정보에 대한 노출도 쉬워졌습니다. 이러한 나쁜 정보들 중에는 직접적인 욕설 없이도 특정 대상에 대한 편견이나 적개심을 문맥 속에 숨겨 표현하는 **암시적 혐오(Implicit Hate Speech)**가 존재합니다. 기존의 모델들은 명시적인 비하 발언이나 욕설에 초점을 맞추었기 때문에 암시적인 표현들은 탐지가 매우 어렵다는 문제가 있습니다. 따라서 이 논문은 사람처럼 문장을 해석하는 방법을 모사한 새로운 접근법 AmpleHate를 제안하였습니다.

사람은 특정 집단 (예: 인종, 성별, 국적 등)을 먼저 식별한 뒤, 그 집단이 문맥 속에서 어떻게 언급되는지 바탕으로 혐오 여부를 판단합니다. AmpleHate는 이러한 인간의 추론 과정을 모방하여 작동합니다.

사람.png

우리.png

기존.png

위 그림에서 확인할 수 있듯이 AmpleHate의 attention signals를 보면 ‘man’, ‘.’, ‘the’ 와 같은 토큰들에 집중하지 않고, 사람과 비슷하게 혐오 표현과 관련있는 토큰들을 집중으로 문맥을 파악하는 것을 알 수 있습니다.

AmpleHate: 혐오 표현 탐지 방법론

AmpleHate는 다음과 같이 세단계에 거쳐 혐오 표현 탐지를 진행합니다.

1. 대상 식별 (Target Identification)

문장 내에서 혐오의 대상이 되는 존재를 먼저 찾아냅니다. 이들은 크게 두 가지로 구분이 됩니다.

명시적 대상 탐지 (Explicit Targets)
- 문장 속에 명확히 등장하는 사람, 집단, 지역 이름 등
- 이를 위해 사전 학습된 NER (Named Entity Recognition) 모델을 활용함
- 특정 개체 유형 (ORG, NORP, GPE, LOC, EVENT)에 해당하는 단어들을 명시적 대상으로 식별
암시적 대상 탐지 (Implicit Targets)
- 문장 전체를 대표하는 [CLS] 토큰을 활용하여 문맥을 압축적으로 표현
- 이 토큰은 문장의 전체적인 분위기나 맥락적 의미를 내포하므로, 암시적 의미를 담는 데 유리함

2. 집단과의 관계 연산 (Relation Computation)

이 단계에서는 대상과 문장 전체 간의 관계를 계산합니다.

[CLS] 토큰을 Query와 Value로 ****두고, 명시적/암시적 대상들을 Key로 하여 attention 연산을 수행함
이 attention 결과로부터 대상-문맥 간의 상호작용 벡터 r 을 얻음
이 벡터 r 은 문장의 혐오성이 대상과 어떤 관계를 맺고 있는지를 반영함

<aside> 💡

단순히 문장을 임베딩하는 것이 아니라, 문장 내 대상이 어떤 방식으로 문맥에 의해 혐오적으로 표현되는가를 모델이 집중적으로 파악하도록 유도합니다.

</aside>

혐오 표현, 어떻게 탐지할까?

AmpleHate: 혐오 표현 탐지 방법론

1. 대상 식별 (Target Identification)

2. 집단과의 관계 연산 (Relation Computation)

3. 관계 주입 (Direct Injection)