**LLM이 생성한 한국어 글, 어떻게 탐지할까?

– 언어학 특성 기반 탐지 연구 소개**

image.png

대형 언어 모델(LLM)의 발전으로 인간이 작성한 텍스트와 LLM이 생성한 텍스트를 구분하는 일이 점점 더 어려워지고 있습니다. LLM 생성 텍스트를 탐지하는 것은 학문윤리를 유지하고, 표절을 방지하고, 연구윤리를 보전하기 위해 필수적입니다. 개별 언어의 특성을 활용하는 것이 유용하고 필요함에도 불구하고 기존 방법은 대부분 영어를 기반으로 발전하였기에 개별 언어의 특성을 간과하고 있습니다. 한국어는 고유한 띄어쓰기 규칙, 풍부한 형태소 구조, 독특한 문장부호 패턴을 지니고 있어 영어 중심의 탐지 방법론으로는 중요한 특성을 포착하기 어렵습니다. 따라서 언어의 특성을 반영한 접근이 필요합니다.

image.png

LLM이 생성한 한국어 텍스트 탐지를 위한 첫 번째 벤치마크 데이터셋, 🐟 KatFish (KoreAn LLM-generated Text Benchmark For Identifying AuthorSHip)를 소개합니다. KatFish는 네 가지 LLM과 세 가지 장르에서 수집된 데이터를 기반으로 구축하였습니다. 띄어쓰기 방식, 품사 조합의 다양성, 문장부호 사용 패턴이라는 핵심 언어적 요소를 분석하여 인간이 쓴 텍스트와 LLM이 생성한 텍스트의 근본적인 차이를 밝힙니다. 이러한 분석을 바탕으로, 한국어 텍스트 탐지에 최적화된 방법인 🐟 KatFishNet을 제안합니다. KatFishNet은 기존 탐지 방법을 크게 능가하며, 언어적 특성을 활용한 탐지 접근법의 효과와 잠재력을 보입니다.

이 연구는 한국어 LLM 생성 텍스트 탐지에 대한 연구의 기반을 마련하고, 언어의 고유한 특성을 반영한 탐지 방법론의 가능성을 보여줍니다.

KatFish: LLM 생성 한글 텍스트 탐지 벤치마크


🤖 Multi-LLM: 다양한 특성을 가진 모델을 통해 구축

image.png

우리의 데이터셋은 서로 다른 특성을 가진 여러 LLM이 생성한 텍스트로 구축하여 현실 환경에서의 탐지 상황을 반영합니다. 보다 포괄적이고 실용적인 벤치마크를 제공하며, 다양한 측면에서의 분석을 가능하게 합니다.

📚 Multi-Genre: 언어적·구조적 다양성

image.png

KatFish에세이(주장하는 글), , 논문 초록세 가지 서로 다른 장르로 구성되어 있어 폭넓은 언어적·구조적인 다양성을 지니고 있습니다. 여러 종류의 장르를 반영함으로써 KatFish는 다양한 문체에서 LLM 생성 텍스트 탐지에 대한 풍부한 분석 및 테스트 환경을 제공합니다.

🔍 탐지의 중요성**: 실질적인 영향**

LLM 생성 텍스트의 탐지는 KatFish를 구성하는 세 장르에서 중요한 가치를 가집니다.