[보관] P7. AI한테 채점 시켜보기 — 쉬운 버전
통계 용어 없이 쓴 P7 가이드.
한 줄 요약
섹션 제목: “한 줄 요약”“민지(사람)가 채점한 결과물 일부를 ChatGPT(codex)에도 채점시키고, 두 점수가 얼마나 비슷한지 봄. 비슷하면 v2 본 운용에서 AI가 일부 채점 자동화 가능 → 민지 부담 1/10.”
1. 무엇을 시험하나
섹션 제목: “1. 무엇을 시험하나”본 시리즈에선 채점이 모두 사람 손. 21일짜리 v2에서도 사람 손이면 부담 너무 큼.
시험: ChatGPT한테 같은 결과물·같은 루브릭(채점 기준) 주고 채점시킴 → 사람 점수랑 순위가 비슷한지 측정. 비슷하면 v2에서 부분 자동화 가능.
2. 실패 조건 (시작 전)
섹션 제목: “2. 실패 조건 (시작 전)”- F1: AI 점수가 사람 점수와 완전히 따로 놂 → 자동화 무용
- F2: AI 점수가 너무 후함 (모두 5점) → 변별 못 함
- F3: AI 점수가 사람 점수의 50% 이하 일치 → 신뢰 못 함
3. 단계 (총 4~5시간)
섹션 제목: “3. 단계 (총 4~5시간)”1단계 — 채점 대상 추출 (15분)
섹션 제목: “1단계 — 채점 대상 추출 (15분)”P1·P3·P5의 결과물 중 대표 5건 무작위 추출. 점수 분포가 1~5 골고루 포함되게.
2단계 — 사람(민지) 점수 정리 (15분)
섹션 제목: “2단계 — 사람(민지) 점수 정리 (15분)”이미 채점된 점수 → 표 정리.
3단계 — codex CLI한테 채점시키기 (60분)
섹션 제목: “3단계 — codex CLI한테 채점시키기 (60분)”- 같은 루브릭 프롬프트로 codex에 결과물 5건 채점 요청
- 한 번에 한 건씩 (순서 효과 차단)
- 익명 처리: 도구 표시 지운 결과물만
4단계 — 사람 vs AI 점수 비교 (60분)
섹션 제목: “4단계 — 사람 vs AI 점수 비교 (60분)”| 결과물 | 사람 점수 | AI 점수 | 차이 |
|---|---|---|---|
| 1 | |||
| 2 | |||
| 3 | |||
| 4 | |||
| 5 |
비교 방법:
- 평균 차이가 ≤1점: 좋음
- 순위 (1~5등) 일치율 ≥ 70%: 자동화 가치 있음
- 사람 5점에 AI 1점 같은 큰 어긋남 1건이라도 → 자동화 보류
5단계 — 결정 (60분 분석)
섹션 제목: “5단계 — 결정 (60분 분석)”| 비교 결과 | 결정 |
|---|---|
| 평균 차 ≤1점 + 순위 70%+ 일치 | 채택 — v2에서 1차 채점 자동화 |
| 평균 차 1~2점, 순위 일부 어긋남 | 보류 — v2에서 사람 검토 보조로만 |
| 평균 차 2점+ 또는 큰 어긋남 1건+ | 폐기 — 자동화 무용 |
4. C-제약
섹션 제목: “4. C-제약”| 약속 | OK? | 이유 |
|---|---|---|
| C3 격리 | OK | codex CLI 사용은 평가자 측 도구라 |
| C4 자연어 | OK | codex한테 자연어 프롬프트 |
| C5 30분 텀 | OK | 사람 점수와 AI 점수 시간 분리 (사람 먼저, AI 나중) |
| C6 비용 | 주의 | codex 호출 5건 = 적음, 한도 무관 |
| C7 3단 채집 | OK | AI 점수는 별도 컬럼 (runs/judge.jsonl 신규) |
| C8 반증 | OK | §2 |
| C9 fork | OK | 정량 트랙 안 |
5. 결과 (실행 후 채움)
섹션 제목: “5. 결과 (실행 후 채움)”5.1 점수 비교
섹션 제목: “5.1 점수 비교”| ID | 사람 | AI | 차 |
|---|
5.2 일치도
섹션 제목: “5.2 일치도”- 평균 차이: ___
- 순위 일치율: __%
- 큰 어긋남 횟수: ___
6. 결정
섹션 제목: “6. 결정”- 채택 — v2에서 codex가 1차 채점, 사람은 검토만
- 보류 (v2 본 운용에서 큰 표본 재검증)
- 폐기