[보관] P7. AI한테 채점 시켜보기 — 쉬운 버전

통계 용어 없이 쓴 P7 가이드.

한 줄 요약

“민지(사람)가 채점한 결과물 일부를 ChatGPT(codex)에도 채점시키고, 두 점수가 얼마나 비슷한지 봄. 비슷하면 v2 본 운용에서 AI가 일부 채점 자동화 가능 → 민지 부담 1/10.”

본 시리즈에선 채점이 모두 사람 손. 21일짜리 v2에서도 사람 손이면 부담 너무 큼.

시험: ChatGPT한테 같은 결과물·같은 루브릭(채점 기준) 주고 채점시킴 → 사람 점수랑 순위가 비슷한지 측정. 비슷하면 v2에서 부분 자동화 가능.

P1·P3·P5의 결과물 중 대표 5건 무작위 추출. 점수 분포가 1~5 골고루 포함되게.

이미 채점된 점수 → 표 정리.

비교 방법:

약속	OK?	이유
C3 격리	OK	codex CLI 사용은 평가자 측 도구라 ~~/.hermes/·~~/.openclaw/ 무관
C4 자연어	OK	codex한테 자연어 프롬프트
C5 30분 텀	OK	사람 점수와 AI 점수 시간 분리 (사람 먼저, AI 나중)
C6 비용	주의	codex 호출 5건 = 적음, 한도 무관
C7 3단 채집	OK	AI 점수는 별도 컬럼 (`runs/judge.jsonl` 신규)
C8 반증	OK	§2
C9 fork	OK	정량 트랙 안

ID	사람	AI	차