image.png

TL;DR

온라인 공간에서 혐오표현은 점점 더 교묘해지고 있습니다. 명시적 혐오표현은 비교적 쉽게 탐지되지만, 암시적 혐오표현은 맥락과 미묘한 뉘앙스를 고려해야 하기 때문에 탐지가 훨씬 어렵습니다. 이러한 과제에 도전한 기존의 연구들은 인간 주석자의 추가 작업이나 데이터 증강에 크게 의존하는 한계를 가졌습니다.

이러한 문제를 해결하기 위해, 저희는 ShareCon이라는 새로운 접근법을 제안합니다. SharedCon은 데이터를 클러스터링하고, 각 클러스터의 중심에 해당하는 공유 의미(shared semanics)를 활용하여 암시적 혐오 표현 탐지의 성능을 극대화합니다.

데이터의 숨겨진 공통점

SharedCon에서 말하는 공유 의미는 데이터의 내재적인 공통된 특성을 나타냅니다.

image.png

예를 들어, 위 그림은 IHC 데이터셋 내의 서로 다른 문장들이 비슷한 혐오의 함의를 가진 대표 문장으로 묶이는 것을 확인할 수 있습니다. SharedCon은 이러한 대표 문장을 서로 다른 문장들이 공유하는 암시적 의미로 간주합니다. 기존에는 이러한 암시적 의미를 인간 주석자가 추가로 작성하거나, 머신을 통해 생성해야 했지만, 이는 높은 비용과 시간, 그리고 과적합의 위험을 동반했습니다. 그러나 SharedCon은 데이터 자체의 의미적 유사성을 활용하여 이러한 추가 작업 없이 고품질의 공유 의미를 추출합니다.

공유 의미와 대조학습의 결합

image.png