Repairing Regex Vulnerabilities via Localization-Guided Instructions

ReDoS(정규식 서비스 거부 공격) 취약점 자동 복구 프레임워크, LRR(Localized Regex Repair)는 기호적 분석(Symbolic Analysis)의 정밀함과 대규모 언어 모델(LLM)의 일반화 성능을 결합하여 기존 방법들의 한계를 극복한다

🧐 문제: ReDoS 자동 복구의 어려움

정규식은 현대 컴퓨팅의 핵심 도구이지만, 특정 패턴은 ReDoS라는 심각한 성능 취약점을 유발할 수 있습니다. 기존의 자동 복구 방법들은 다음과 같은 딜레마를 가집니다.

규칙 기반 시스템: 알려진 취약점 패턴은 정밀하게 찾아내지만, 복잡하거나 새로운 패턴을 복구하는 데 실패하는 경향이 있습니다.
LLM 단독 사용: 일반화 능력이 뛰어나 복잡한 패턴을 다룰 잠재력은 있지만, 정규식의 엄격한 문법과 의미를 유지하는 데 신뢰성이 떨어집니다.

💡 해결책: LRR (Localized Regex Repair)

LRR은 문제 위치 파악과 문제 해결을 분리하는 하이브리드 접근법을 통해 이 딜레마를 해결합니다.

1단계: 취약점 위치 특정
- 심볼릭 모듈이 ReDoS를 유발하는 정확한 하위 패턴을 정밀하게 찾아냅니다.
- 이를 통해 광범위하고 복잡했던 문제를 작고 다루기 쉬운 문제로 변환합니다.
2단계: LLM을 통한 지능적 교정 (Intelligent Repair)
- 위치 정보가 포함된 프롬프트를 LLM에 전달하여, 문제의 원인에만 집중하도록 유도합니다.
- LLM은 의미적으로는 동일하면서도 ReDoS에 안전한 새로운 정규식을 생성합니다.

LRR 프레임워크 개요: 취약한 정규식이 입력되면, 기호 분석 모듈이 문제 세그먼트를 식별합니다. 이 위치 정보와 CoT 예제를 함께 LLM에 전달하여 정확하고 효율적인 복구를 수행합니다.

🚀 주요 성과

기존 SOTA(State-of-the-art) 모델인 RegexScalpel 대비 15.4%p 높은 복구율을 달성했습니다.
뛰어난 성능: LRR 프레임워크는 다양한 LLM 모델에서 기존 규칙 기반 시스템의 복구율을 평균 6.3%p 이상 향상시켰습니다.
높은 의미적 유사도 유지: 취약점을 제거하면서도 원본 정규식의 의미를 거의 완벽하게 보존합니다. 아래 그래프에서 LRR(노란색 점)은 베이스라인(파란색 점)보다 높은 복구율(Y축)과 의미적 유사도(X축)를 보여줍니다.

🧠 단순 규칙을 넘어 문맥을 이해하는 능력

LRR의 가장 큰 장점 중 하나는 LLM이 정규식의 의미를 파악하여 복구를 수행한다는 점입니다.

예를 들어, 아래 정규식은 git diff 헤더를 검출하기 위한 것입니다. 규칙 기반 도구는 이를 복구하지 못하지만, LRR은 @@ ... @@ 패턴을 보고 \\d+가 줄 번호를 의미함을 추론합니다. 그 결과, 단순히 \\d+를 더 안전한 표현으로 바꾸는 것을 넘어, 훨씬 더 현실적이고 구체적인 패턴으로 개선합니다.

Original:

@@ \\-(\\d+),?(\\d+)? \\+(\\d+),?(\\d+)?? @@