– 언어학 특성 기반 탐지 연구 소개**
대형 언어 모델(LLM)의 발전으로 인간이 작성한 텍스트와 LLM이 생성한 텍스트를 구분하는 일이 점점 더 어려워지고 있습니다. LLM 생성 텍스트를 탐지하는 것은 학문윤리를 유지하고, 표절을 방지하고, 연구윤리를 보전하기 위해 필수적입니다. 개별 언어의 특성을 활용하는 것이 유용하고 필요함에도 불구하고 기존 방법은 대부분 영어를 기반으로 발전하였기에 개별 언어의 특성을 간과하고 있습니다. 한국어는 고유한 띄어쓰기 규칙, 풍부한 형태소 구조, 독특한 문장부호 패턴을 지니고 있어 영어 중심의 탐지 방법론으로는 중요한 특성을 포착하기 어렵습니다. 따라서 언어의 특성을 반영한 접근이 필요합니다.
LLM이 생성한 한국어 텍스트 탐지를 위한 첫 번째 벤치마크 데이터셋, 🐟 KatFish (KoreAn LLM-generated Text Benchmark For Identifying AuthorSHip)를 소개합니다. KatFish는 네 가지 LLM과 세 가지 장르에서 수집된 데이터를 기반으로 구축하였습니다. 띄어쓰기 방식, 품사 조합의 다양성, 문장부호 사용 패턴이라는 핵심 언어적 요소를 분석하여 인간이 쓴 텍스트와 LLM이 생성한 텍스트의 근본적인 차이를 밝힙니다. 이러한 분석을 바탕으로, 한국어 텍스트 탐지에 최적화된 방법인 🐟 KatFishNet을 제안합니다. KatFishNet은 기존 탐지 방법을 크게 능가하며, 언어적 특성을 활용한 탐지 접근법의 효과와 잠재력을 보입니다.
이 연구는 한국어 LLM 생성 텍스트 탐지에 대한 연구의 기반을 마련하고, 언어의 고유한 특성을 반영한 탐지 방법론의 가능성을 보여줍니다.
우리의 데이터셋은 서로 다른 특성을 가진 여러 LLM이 생성한 텍스트로 구축하여 현실 환경에서의 탐지 상황을 반영합니다. 보다 포괄적이고 실용적인 벤치마크를 제공하며, 다양한 측면에서의 분석을 가능하게 합니다.
KatFish는 에세이(주장하는 글), 시, 논문 초록의 세 가지 서로 다른 장르로 구성되어 있어 폭넓은 언어적·구조적인 다양성을 지니고 있습니다. 여러 종류의 장르를 반영함으로써 KatFish는 다양한 문체에서 LLM 생성 텍스트 탐지에 대한 풍부한 분석 및 테스트 환경을 제공합니다.
LLM 생성 텍스트의 탐지는 KatFish를 구성하는 세 장르에서 중요한 가치를 가집니다.
에세이: LLM이 작성한 에세이는 표절을 조장하고 비판적 사고를 약화시키며, 학문윤리을 위협합니다.
시: AI 생성 시의 확산은 표절, 저작권 문제, 그리고 예술적 고유성에 대한 우려를 불러일으킵니다.
논문 초록: LLM이 생성한 연구 초록은 잘못된 정보를 포함할 가능성이 있어 연구의 신뢰성을 저해할 수 있습니다.