AI 결과를 일관되게 검증하기

AI가 만든 결과물을 그때그때 인상으로 보지 않고, 관찰 가능한 검증 기준과 대표 사례 묶음으로 같은 기준을 반복 적용해 검증하는 체계를 직접 만든다. 컴퓨터에서 폴더와 텍스트 파일을 만들 수 있고 웹 브라우저로 생성형 AI 서비스에 접속할 수 있으면 따라올 수 있다. 끝까지 따라 하면 criteria 기준 파일과 정상·문제 사례 네 벌, 그리고 AI가 놓친 오류를 기준에 되먹이는 검증 절차가 손에 남는다.

1 – 검증 기준 준비

좋아 보이는 결과와 요구사항을 충족한 결과는 다르다. 같은 기준으로 반복 확인할 수 있어야 한다.

검증 기준은 평가자의 기분이 아니라 관찰 가능한 문장이어야 한다. 정상 사례와 문제 사례를 함께 시험해야 AI가 어떤 오류를 놓치는지 확인할 수 있다.

1.1 – 검증 파일 만들기

"ai_prompt" 폴더에 "22_quality" 폴더를 만든다.
"22_quality"에 "criteria.md"를 만든다.
문서 검수 업무를 기준으로 다음 내용을 입력한다.

# 문서 검증 기준

필수:
- 제목이 있다.
- 날짜가 YYYY-MM-DD 형식이다.
- 입력 자료의 핵심 사실이 모두 있다.
- 입력 자료에 없는 사실이 없다.
- 개인정보가 없다.

문장:
- 한 문장에 핵심 내용이 하나이다.
- 뜻이 모호한 지시어가 없다.
- 같은 내용이 반복되지 않는다.

출력:
- 문제 위치가 표시된다.
- 원인과 수정문이 구분된다.

2 – 대표 사례 만들기

2.1 – 정상 사례와 문제 사례 준비하기

"normal.md"를 만든다.
기준을 모두 만족하는 짧은 안내문을 넣는다.
"missing.md"를 만든다.
날짜와 장소가 빠진 안내문을 넣는다.
"added-fact.md"를 만든다.
입력 자료에 없는 비용과 연락처가 있는 안내문을 넣는다.
"personal-info.md"를 만든다.
실명이 포함된 가상 안내문을 넣는다.

[!NOTE]

정상 사례만으로는 오류를 찾는 능력을 확인할 수 없다.

누락, 잘못된 추가, 위험 정보처럼 서로 다른 문제 사례가 필요하다.

3 – 검증 요청 실행하기

3.1 – 같은 요청으로 네 파일 확인하기

다음 요청문을 사용한다.

아래 문서를 검증 기준에 따라 확인한다.

출력:
| 기준 | 결과 | 근거 위치 | 수정 필요 내용 |

결과는 '확인' 또는 '문제'만 사용한다.
기준에 없는 취향 판단은 추가하지 않는다.

<검증 기준>
[criteria.md 내용]
</검증 기준>

<문서>
[검증할 문서 내용]
</문서>

네 파일에 같은 요청문을 사용한다.
예상한 문제를 찾았는지 기록한다.

파일 | 예상 문제 | AI가 찾은 문제 | 놓친 문제 | 잘못 지적한 문제

[!WARNING]

같은 문서에 결과가 매번 달라지면 입력 문서와 검증 기준이 같은지 확인하고, 출력 형식을 고정한 뒤 판단이 필요한 기준을 더 구체적으로 고친다.

중요한 항목은 규칙 기반 검사나 사람이 다시 확인한다.

기준이 너무 많으면 필수 기준과 권장 기준을 나눠 필수 기준부터 확인하고, 통과한 뒤 문장 품질을 확인한다.

4 – 기준 수정하기

4.1 – 놓친 오류를 기준에 반영하기

AI가 반복해서 놓친 문제를 찾는다.
기준을 더 구체적인 질문으로 바꾼다.

모호함: 개인정보가 없다.
명확함: 이름, 전화번호, 이메일, 주소, 생년월일이 포함되지 않았는가?

기준을 수정한 뒤 네 파일을 다시 확인한다.
이전 결과와 비교한다.

5 – 사람 검토 남기기

5.1 – AI 확인과 사람 확인 분리하기

다음 항목은 사람이 최종 확인한다.
1. 문맥에 맞는 말투
2. 기관 정책과의 일치
3. 출처 원문과의 일치
4. 공개해도 되는 정보인지
"human-review.md"에 확인자, 날짜, 수정 내용을 기록한다.

[!NOTE]
AI에게 검토를 요청하는 것은 AI 확인이다. 같은 입력에 같은 판정을 내리는 검색 규칙, 계산식, 프로그램 검사와 같은 방식만 규칙 기반 자동 검사라고 부른다.

6 – 직접 만들기

반복해서 확인할 결과물 하나를 고른다.
검증 기준을 작성한다.
정상 사례 한 개와 문제 사례 세 개를 만든다.
같은 요청으로 모두 확인한다.
놓친 문제를 기준에 반영한다.

7 – 예상 결과와 맞춰보기

파일 | 예상 문제 | AI가 찾은 문제 | 놓친 문제 | 잘못 지적한 문제
normal.md | 없음 | 없음 | 없음 | 없음
missing.md | 날짜·장소 누락 | 날짜·장소 누락 | 없음 | 없음
added-fact.md | 비용·연락처 추가 | 비용 추가 | 연락처 | 없음
personal-info.md | 실명 포함 | 실명 포함 | 없음 | 없음

정상 사례와 서로 다른 문제 사례를 구분하고 놓친 오류가 검증 기준에 반영되면 정상이다.

[!INFO]
다섯 항목 중 네 항목 이상을 만족하면 정상이다.

검증 기준을 확인 가능한 문장으로 작성했다.

정상 사례와 문제 사례를 함께 시험했다.

AI가 놓친 문제와 잘못 지적한 문제를 기록했다.

AI 확인과 규칙 기반 자동 검사를 구분했다.

기관 정책과 공개 가능 여부를 사람이 최종 확인했다.

8 – 막히면 AI 코치에게 묻기

이 문서에서 익힌 AI 결과를 같은 기준으로 반복 검증하기를 내 상황에 적용하다 막히면, 아래를 대화형 AI(ChatGPT·Claude·Gemini)에 붙여 넣어 실습 코치로 삼는다. 답을 한꺼번에 받지 말고 한 단계씩 풀어 간다.

너는 결과 검증 실습 코치다. 나는 확인 가능한 검증 기준을 만들고 정상 사례 한 개와 문제 사례 여러 개로 같은 요청을 돌려 놓친 오류를 기준에 반영하는 법을 배웠고, 내 결과물의 검증 기준과 대표 사례 묶음을 직접 완성하려 한다. 답을 통째로 주지 말고 한 단계씩 물어 내가 직접 하게 한다.

[코칭 방식]
1. 먼저 내가 지금까지 한 것과 막힌 지점을 묻는다.
2. 막힌 원인을 한 가지 짚어 준다. 완성된 기준·검증표를 통째로 주지 않는다.
3. 다음 한 단계만 제시하고, 내가 해 본 결과를 말하면 확인 질문을 던진다.
4. 마지막에 기준이 관찰 가능한 문장이고 정상·문제 사례를 함께 시험했으며 놓친 오류를 기준에 반영했는지 점검 질문을 한다.

[내 상황]
- 지금까지 한 것: {한것}
- 막힌 지점·메시지: {막힌점}
- 내 소재: {소재}

준비됐으면 "그 기준 중에서 사람마다 다르게 판단할 수 있는 모호한 문장은 무엇인가?"라고만 답한다.

{한것} – 지금까지 진행한 단계, 예: 검증 기준은 적었지만 정상 사례만 만들고 문제 사례는 아직 안 만들었다.
{막힌점} – 막힌 부분이나 받은 메시지, 예: 같은 문서를 다시 검증하면 판정이 매번 달라진다.
{소재} – 적용할 내 자료·주제, 예: 배포 전 점검하는 행사 안내문.

채운 예시 한 벌은 이렇다.

너는 결과 검증 실습 코치다. 나는 확인 가능한 검증 기준을 만들고 정상 사례 한 개와 문제 사례 여러 개로 같은 요청을 돌려 놓친 오류를 기준에 반영하는 법을 배웠고, 내 결과물의 검증 기준과 대표 사례 묶음을 직접 완성하려 한다. 답을 통째로 주지 말고 한 단계씩 물어 내가 직접 하게 한다.

[코칭 방식]
1. 먼저 내가 지금까지 한 것과 막힌 지점을 묻는다.
2. 막힌 원인을 한 가지 짚어 준다. 완성된 기준·검증표를 통째로 주지 않는다.
3. 다음 한 단계만 제시하고, 내가 해 본 결과를 말하면 확인 질문을 던진다.
4. 마지막에 기준이 관찰 가능한 문장이고 정상·문제 사례를 함께 시험했으며 놓친 오류를 기준에 반영했는지 점검 질문을 한다.

[내 상황]
- 지금까지 한 것: 검증 기준은 적었지만 정상 사례만 만들고 문제 사례는 아직 안 만들었다.
- 막힌 지점·메시지: 같은 문서를 다시 검증하면 판정이 매번 달라진다.
- 내 소재: 배포 전 점검하는 행사 안내문.

준비됐으면 "그 기준 중에서 사람마다 다르게 판단할 수 있는 모호한 문장은 무엇인가?"라고만 답한다.

[!TIP]

코치가 답을 통째로 주려 하면 "한 단계씩 물어라"라고 다시 요청한다.

내 상황을 적을 때 누락·잘못된 추가·위험 정보처럼 서로 다른 종류의 문제 사례를 함께 준비했는지 함께 적는다.