인터넷 플랫폼이 발전하면서, 많은 정보를 얻을 수 있는 동시에 나쁜 정보에 대한 노출도 쉬워졌습니다. 이러한 나쁜 정보들 중에는 직접적인 욕설 없이도 특정 대상에 대한 편견이나 적개심을 문맥 속에 숨겨 표현하는 **암시적 혐오(Implicit Hate Speech)**가 존재합니다. 기존의 모델들은 명시적인 비하 발언이나 욕설에 초점을 맞추었기 때문에 암시적인 표현들은 탐지가 매우 어렵다는 문제가 있습니다. 따라서 이 논문은 사람처럼 문장을 해석하는 방법을 모사한 새로운 접근법 AmpleHate를 제안하였습니다.
사람은 특정 집단 (예: 인종, 성별, 국적 등)을 먼저 식별한 뒤, 그 집단이 문맥 속에서 어떻게 언급되는지 바탕으로 혐오 여부를 판단합니다. AmpleHate는 이러한 인간의 추론 과정을 모방하여 작동합니다.
위 그림에서 확인할 수 있듯이 AmpleHate의 attention signals를 보면 ‘man’, ‘.’, ‘the’ 와 같은 토큰들에 집중하지 않고, 사람과 비슷하게 혐오 표현과 관련있는 토큰들을 집중으로 문맥을 파악하는 것을 알 수 있습니다.
AmpleHate는 다음과 같이 세단계에 거쳐 혐오 표현 탐지를 진행합니다.
문장 내에서 혐오의 대상이 되는 존재를 먼저 찾아냅니다. 이들은 크게 두 가지로 구분이 됩니다.
ORG
, NORP
, GPE
, LOC
, EVENT
)에 해당하는 단어들을 명시적 대상으로 식별[CLS]
토큰을 활용하여 문맥을 압축적으로 표현이 단계에서는 대상과 문장 전체 간의 관계를 계산합니다.
[CLS]
토큰을 Query와 Value로 ****두고, 명시적/암시적 대상들을 Key로 하여 attention 연산을 수행함r
을 얻음r
은 문장의 혐오성이 대상과 어떤 관계를 맺고 있는지를 반영함<aside> 💡
단순히 문장을 임베딩하는 것이 아니라, 문장 내 대상이 어떤 방식으로 문맥에 의해 혐오적으로 표현되는가를 모델이 집중적으로 파악하도록 유도합니다.
</aside>