심각한 LLM의 오남용


LLM이 발전하면서 누구나 질문 한 번에 원하는 정보를 얻고 자신이 마주한 여러 문제들을 손쉽게 해결할 수 있게 되었습니다. 하지만 그와 동시에 공개되면 안 되는 민감한 정보가 LLM에게 노출되거나 학술 및 교육 분야에서 LLM을 이용한 부정행위가 늘어나는 등 LLM 오남용으로 인한 부작용 역시 많아지고 있습니다. 특히, 교육 분야에서 LLM의 사용은 학생들의 문제풀이능력 향상을 저해하고 평가를 어렵게 하는 등 심각한 부작용을 낳고 있습니다. 기존의 LLM 생성물 탐지는 어떤 주어진 자료가 LLM에 의해서 생성되었는지 여부를 판단하는 방식으로 이루어지는데 생성 LLM에 대한 접근이 제한되거나 생성물에 변화가 가해진 경우 성능이 쉽게 하락되는 문제가 있습니다. 따라서 이 논문은 input 자체에 변형을 가해 사람이 보기에는 동일하지만 LLM 평가 시 성능이 떨어지도록 하는 TrapDoc 프레임워크를 제안하였습니다.

TrapDoc은 사용자가 자신의 과업 명세서 그 자체를 LLM에게 주는 상황을 상정하여, 널리 사용되는 문서 포맷인 PDF input에 대해 변형을 가합니다. 보다 구체적으로는 LLM에게 PDF 파일과 명령 프롬프트를 input으로 주는 상황에서, PDF에 사람은 인식할 수 없는 text를 삽입함으로써 LLM의 output이 그럴듯 해 보이면서도 실제로는 틀리도록 하는 것을 목표로 합니다.

스크린샷 2025-06-11 오후 9.45.47.png

위 그림은 PDF 파일에 보이지 않는 phantom tokens를 삽입함으로써 LLM의 output을 왜곡하는 예를 나타내고 있습니다. 그림에서는 “non-”과 “minus”같은 토큰을 삽입하여 기존 PDF의 문제를 non-prime numbers를 출력하고 1 + (-2)를 계산하는 문제로 바꿉니다. 결과적으로 LLM은 잘못된 문제 설명을 인식하게 되면서 틀린 output을 만들게 됩니다.

LLM 시력 검사


LLM이 PDF를 인식하기 위한 방법론에는 여러 가지가 있습니다. PDF stream을 parsing하여 텍스트 정보를 추출할 수도 있고 PDF의 각 페이지를 이미지로 인식할 수도 있습니다. 우리는 다양한 투명도와 다양한 색, 다양한 크기의 텍스트를 포함하고 있는 PDF 파일을 만든 뒤 LLM에게 해당 PDF 파일 속의 텍스트를 추출해달라고 요청하였습니다. 실험 결과는 아래 표와 같습니다. OpenAI와 Claude사의 LLM은 PDF 속 모든 텍스트를 성공적으로 추출한 반면 다른 LLM들은 텍스트를 아예 인식하지 못하거나 틀리게 인식하는 것을 확인할 수 있었습니다. 이런 실험 결과를 바탕으로 OpenAI사의 GPT 계열 모델을 대상으로 TrapDoc 프레임워크를 적용하였습니다.

                                                                               LLM 시력 검사 결과

                                                                           LLM 시력 검사 결과

TrapDoc: PDF 변형 방법론


                                                                            TrapDoc Framework

                                                                        TrapDoc Framework

TrapDoc은 주어진 PDF에 변형을 가해 LLM의 output을 왜곡하기 위한 프레임워크 입니다. PDF 변형은 크게 3단계로 이루어집니다.

1. PDF에서 원본 텍스트 추출

우선 PDF에서 변형을 가할 원본 텍스트를 추출합니다. 실제 구현상에서는 PDF를 구성할 텍스트 데이터가 데이터셋에 이미 존재하는 반면, PDF화된 데이터는 없기 때문에 거꾸로 PDF로 만드는 작업을 수행하였습니다. 하지만 real-world 상황에서는 PDF에서 원본 텍스트를 추출하는 과정이 필요합니다.

2. 추출된 텍스트의 변형

추출된 텍스트를 PDF에 삽입할 때 의미를 왜곡하기 위해 변형을 가합니다. TrapDoc 프레임워크는 LLM에게 해당 텍스트를 Hallucination해줄 것을 요청함으로써 변형된 텍스트를 만듭니다. 하지만 이 뿐만 아니라 다양한 텍스트 변형 방법론이 폭넓게 적용될 수 있으며 이것은 TrapDoc 프레임워크의 장점 중 하나입니다.

3. PDF 파일에 변형된 텍스트 삽입

PDF 파일에 변형된 텍스트를 삽입합니다. 새로운 텍스트 박스를 만들거나 기존 텍스트 박스의 끝자락에 단순히 내용을 추가하는 경우 LLM이 새로 삽입된 텍스트를 노이즈 처럼 취급합니다. 이를 막기 위해 PDF를 먼저 parsing한 뒤 기존 텍스트를 token 이하의 무의미한 짧은 문자열로 자르고 그 사이사이에 변형된 텍스트를 보이지 않게 삽입합니다. 이런 방식을 통해 변형 시, 사람은 변화를 인지할 수 없지만 LLM은 삽입된 텍스트와 잘린 원본 텍스트를 모두 인식합니다. 이 때, 원본 텍스트는 무의미한 단위로 잘렸기 때문에 LLM은 이를 노이즈로 취급하게 되며 변형된 텍스트를 올바른 데이터로 인식하게 됩니다.