LLM์ ๋ฐ์ ์ผ๋ก ์๋ ์ฝ๋ ์์ฑ์ด ํ๋ฐํด์ก์ง๋ง, ํ์ค์ฒ๋ผ ์ฐ์ด๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ(HumanEval+, MBPP+)๋ ์ฌ์ ํ pass@k ์ค์ฌ์ functional correctness์ ๋จธ๋ฌผ๋ฌ ์์ต๋๋ค. ์ด ๋ฐฉ์์ ํ์์ด ์ฌ๋ฐ๋ฅธ ์ ๋ ฅ(well-formed input, ์: ํจ์๊ฐ ๊ธฐ๋ํ๋ ํ์ ยท๋ฒ์๋ฅผ ๋ชจ๋ ๋ง์กฑํ๋ ์ ์ ์ ๋ ฅ)์ ๋ํด ์ ๋ต์ ๋ด๋์ง๋ง ์คํ, ์ธก์ ํ๊ธฐ ๋๋ฌธ์, ์ ๋ ฅ์ด ์ง์ผ์ผ ํ ์ ์ ์กฐ๊ฑด์ ์ฝ๋๊ฐ ์ค์ ๋ก ๊ฐ์ ํ๋์ง๋ ์ ํ ๋๋ฌ๋์ง ์์ต๋๋ค.
๋ฌธ์ ๋ ์ฌ๊ธฐ์ ๋น๋กฏ๋ฉ๋๋ค. ์ค์ task description์ "๋ฆฌ์คํธ์ ์ธ๋ฑ์ค๋ก ์์๋ฅผ ๊บผ๋ธ๋ค"์ฒ๋ผ ์ ๋ ฅ์ด ๋ง์กฑํด์ผ ํ ์กฐ๊ฑด์ ์๋ฌต์ ์ผ๋ก๋ง ๋จ๊ธฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ด๋ฌํ ์กฐ๊ฑด(์: "์ธ๋ฑ์ค๋ 0 ์ด์, ๋ฆฌ์คํธ ๊ธธ์ด ๋ฏธ๋ง์ ์ ์์ฌ์ผ ํ๋ค")์ ๋ช ์์ ์ผ๋ก ๊ธฐ์ ํ ๊ท์น์ contract๋ผ๊ณ ํ๋ฉฐ, ์ด๋ฅผ ์๋ฐํ๋ ์ ๋ ฅโ์์ ์ธ๋ฑ์ค, ๋ฌธ์์ด ์ธ๋ฑ์ค์ฒ๋ผ ์ ์ ์กฐ๊ฑด์ ๊นจ๋ ์ ๋ ฅโ์ ill-formed input์ด๋ผ ํฉ๋๋ค. ๊ธฐ์กด ํ๊ฐ ์ค์ํธ๋ ์ด๋ฌํ ill-formed input์ ์ฌ์ ์ ์ ๊ฑฐํ ์ฑ well-formed input๋ง ์คํํ๊ธฐ ๋๋ฌธ์, ์์ฑ ์ฝ๋๊ฐ ์ ๋ ฅ ์กฐ๊ฑด์ ์ ํ ํ์ธํ์ง ์์๋ pass@k ์ ์๋ ๋๊ฒ ๋์ต๋๋ค. ์ค์ ๋ก ๋ํ ๋ชจ๋ธ๋ค์ pass@1 75โ82%๋ฅผ ๋ฌ์ฑํ๋ฉด์๋ contract satisfaction์ 0%์ธ illusion of correctness๋ฅผ ๋๋ฌ๋ ๋๋ค. ์ฆ "์ ๋ต์ ๋ด๋๊ฐ" ์ "์๋ชป๋ ์ ๋ ฅ์ ์๋ํ assertion์ผ๋ก ๊ฑฐ๋ถํ๋๊ฐ" ๋ ์ฝ๋ ํ์ง์ ์๋ก ๋ค๋ฅธ ์ถ์ด์ง๋ง, ํ์๋ ๊ธฐ์กด ๋ฒค์น๋งํฌ์์ ๊ตฌ์กฐ์ ์ผ๋ก ์ธก์ ์ด ๋ถ๊ฐ๋ฅํฉ๋๋ค. HumanEval+์ MBPP+๊ฐ reference contract ํ๋๋ฅผ ์ด๋ฏธ ๊ฐ์ง๊ณ ์์์๋, ์ด๋ฅผ ill-formed input์ ๊ฑธ๋ฌ๋ด๋ ์ฉ๋๋ก๋ง ์ฐ๊ธฐ ๋๋ฌธ์ ๊ณต๋ฐฑ์ ํด์๋์ง ์์ต๋๋ค.
์ฐ๋ฆฌ๋ ์ด ํ๊ฐ ๊ณต๋ฐฑ์ ๋ฉ์ฐ๊ธฐ ์ํด ContractEval์ ์ ์ํฉ๋๋ค. ContractEval์ HumanEval+/MBPP+๋ฅผ ํ์ฅํด, ์์ฑ ์ฝ๋๊ฐ ill-formed input์ ๋ํด ๋จ์ํ ํฌ๋์ํ๋์ง๊ฐ ์๋๋ผ ์๋ํ contract assertion์ผ๋ก ๋ช ์์ ์ผ๋ก ๊ฑฐ๋ถํ๋์ง๋ฅผ ํ์คํ๋ ๋ฐฉ์์ผ๋ก ํ๊ฐํฉ๋๋ค.

ContractEval์ LLM ์ฝ๋ ํ๊ฐ๋ฅผ functional correctness์์ ํ ๋จ๊ณ ํ์ฅํด, contract ์ค์๊น์ง ํจ๊ป ์ธก์ ํ๋ contract-aware benchmark์ ๋๋ค. ๊ธฐ์กด pass@k ํ๊ฐ๊ฐ ์ ์ ์ ๋ ฅ(well-formed input)์์์ ์ ๋ต ์ฌ๋ถ๋ง ํ์ธํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, ContractEval์ ์๋ชป๋ ์ ๋ ฅ(ill-formed input)์ ๋ํด ์์ฑ ์ฝ๋๊ฐ ์๋ํ assertion์ผ๋ก ๋ช ์์ ์ผ๋ก ๊ฑฐ๋ถ(reject)ํ๋์ง๊น์ง ์ธก์ ํฉ๋๋ค.
(๋ฌธ์ ์ค๋ช ์ ์จ์ด ์๋ ์ ๋ ฅ ์กฐ๊ฑด์ ๋๋ฌ๋ด๊ธฐ)**
(์๋ํ ๊ณ์ฝ๋ง ์ ํํ ์๋ฐํ๋ ํ ์คํธ ๋ง๋ค๊ธฐ)
(์ ๋ต ์ฝ๋์ contract๋ฅผ ์ถ๊ฐํ๊ธฐ)