욕설도 진화한다 - 한글 속에 숨은 유해 표현의 비밀

한국어 인터넷 속 유해 표현은 생각보다 훨씬 교묘합니다. 단순한 욕설이 아니라, 자음 몇 개만 바꾸거나 이모지를 끼워 넣어 탐지를 피하는 식으로 난독화된 독성 언어가 넘쳐납니다. 그렇다면 AI는 이런 난독화된 독성 표현을 얼마나 알아챌 수 있을까요?

이번 연구 KOTOX는 바로 이러한 질문에서 출발합니다. 우리는 한국어의 독특한 음운 구조와 한글의 조합원리를 이용해, 실제 사람들이 쓰는 난독화된 독성 표현을 체계적으로 분류하고 데이터셋으로 구축했습니다. 이 데이터는 AI가 독성 문장을 해독하고 정화할 수 있도록 훈련하는 데 쓰입니다. 즉, 욕설을 감지하는 것에서 나아가, 이를 깨끗하고 자연스러운 문장으로 바꾸는 능력까지 평가할 수 있는 새로운 기준을 제시하였습니다.

KObfus_motivation.png

한글의 자모를 살짝 바꾸거나 외국 문자를 섞어 만든 난독화된 문장이라도, 모델이 이를 해독하고 본래의 독성 표현임을 감지하는 과정을 시각화한 그림입니다. 비속어 탐지 모델이 실제로 어떤 변형에 약한지를 직관적으로 보여주는 도입 예시입니다.

난독화 규칙


사람들은 자음이나 모음을 살짝 바꾸거나, 이모티콘이나 외국 문자를 섞어 쓰며 AI의 감시를 피합니다.

이처럼 난독화된 독성 표현(Obfuscated toxic text)을 다루기 위해, 우리는 한국어의 언어적 특성을 바탕으로 5가지 접근법의 변환 규칙을 정의하였습니다. 각 접근법은 한국어의 발음·형태·시각적 구조를 반영하며, AI가 얼마나 다양한 형태의 유해 표현을 인식하고 정화할 수 있는지를 평가하는 핵심 기준이 됩니다.

난독화 접근법 난독화 규칙 예시
음운적 접근 초성 대치 한국인 → 한꾹인
반모음 대치 해수욕장 → 헤수욕장
받침 대치 한국인 → 핝굮읹
발음 대로 한국인 → 한구긴
초성 추가 한국인 → 한국긴
반모음 추가 한국인 → 환궉윈
받침 추가 바깥 → 박깥
연음 및 역연음 할 짓이가 → 할찌시가, 바보 → 밥오
도상적 접근 한글로 대치 귀엽다 → 커엽다
외국어 및 기호 대치 쭈꾸미 → 卒꾸口I
회전 논문 → 곰국
표기법적 접근 라틴어로 음차 망했어 → mang했어
한자로 음차 수상해 → 水상해
번역후 음차 가지마세요 → 돈트고쿠다사이
통사적 접근 띄어쓰기 변형 화장실 더럽고 별로 → 화장 실더럽 고별로
순서 바꾸기 오랜만에 외국여행을 → 오만랜에 외여국행을
화용적 접근 기호 및 이모지 추가 돈을 쓰는 호갱 → 돈을°♡ 쓰는《호..갱》≥ㅅ≤

난독화 데이터셋 구축 과정


KObfus_overview.png

1. 데이터 정제

2. 난독화 진행