콘텐츠로 이동

[보관] P7. AI한테 채점 시켜보기 — 쉬운 버전

통계 용어 없이 쓴 P7 가이드.

“민지(사람)가 채점한 결과물 일부를 ChatGPT(codex)에도 채점시키고, 두 점수가 얼마나 비슷한지 봄. 비슷하면 v2 본 운용에서 AI가 일부 채점 자동화 가능 → 민지 부담 1/10.”

본 시리즈에선 채점이 모두 사람 손. 21일짜리 v2에서도 사람 손이면 부담 너무 큼.

시험: ChatGPT한테 같은 결과물·같은 루브릭(채점 기준) 주고 채점시킴 → 사람 점수랑 순위가 비슷한지 측정. 비슷하면 v2에서 부분 자동화 가능.

  • F1: AI 점수가 사람 점수와 완전히 따로 놂 → 자동화 무용
  • F2: AI 점수가 너무 후함 (모두 5점) → 변별 못 함
  • F3: AI 점수가 사람 점수의 50% 이하 일치 → 신뢰 못 함

P1·P3·P5의 결과물 중 대표 5건 무작위 추출. 점수 분포가 1~5 골고루 포함되게.

2단계 — 사람(민지) 점수 정리 (15분)

섹션 제목: “2단계 — 사람(민지) 점수 정리 (15분)”

이미 채점된 점수 → 표 정리.

3단계 — codex CLI한테 채점시키기 (60분)

섹션 제목: “3단계 — codex CLI한테 채점시키기 (60분)”
  • 같은 루브릭 프롬프트로 codex에 결과물 5건 채점 요청
  • 한 번에 한 건씩 (순서 효과 차단)
  • 익명 처리: 도구 표시 지운 결과물만

4단계 — 사람 vs AI 점수 비교 (60분)

섹션 제목: “4단계 — 사람 vs AI 점수 비교 (60분)”
결과물사람 점수AI 점수차이
1
2
3
4
5

비교 방법:

  • 평균 차이가 ≤1점: 좋음
  • 순위 (1~5등) 일치율 ≥ 70%: 자동화 가치 있음
  • 사람 5점에 AI 1점 같은 큰 어긋남 1건이라도 → 자동화 보류
비교 결과결정
평균 차 ≤1점 + 순위 70%+ 일치채택 — v2에서 1차 채점 자동화
평균 차 1~2점, 순위 일부 어긋남보류 — v2에서 사람 검토 보조로만
평균 차 2점+ 또는 큰 어긋남 1건+폐기 — 자동화 무용
약속OK?이유
C3 격리OKcodex CLI 사용은 평가자 측 도구라 /.hermes/·/.openclaw/ 무관
C4 자연어OKcodex한테 자연어 프롬프트
C5 30분 텀OK사람 점수와 AI 점수 시간 분리 (사람 먼저, AI 나중)
C6 비용주의codex 호출 5건 = 적음, 한도 무관
C7 3단 채집OKAI 점수는 별도 컬럼 (runs/judge.jsonl 신규)
C8 반증OK§2
C9 forkOK정량 트랙 안
ID사람AI
  • 평균 차이: ___
  • 순위 일치율: __%
  • 큰 어긋남 횟수: ___
  • 채택 — v2에서 codex가 1차 채점, 사람은 검토만
  • 보류 (v2 본 운용에서 큰 표본 재검증)
  • 폐기