콘텐츠로 이동

[보관] P5. 결과물 점수 1~5를 *둘로 쪼갬* — 쉬운 버전

통계 용어 없이 쓴 P5 가이드.

“결과물에 1~5점 하나만 매기면 ‘톤은 좋고 내용 틀림’ vs ‘내용 정확하고 톤 어색’ 둘 다 4점이 됨 → 정보 손실. 내용 정확성바로 쓸 수 있나 두 점수로 쪼개면 변별력 올라가나?“

지금 I5(결과물 품질) = 1점부터 5점까지 한 점수.

문제: 두 차원이 한 점수에 합쳐짐

  • 차원 A: 사실 오류 없나 (객관)
  • 차원 B: 그대로 발송 가능한가, 톤 적합한가 (주관)

→ 이 둘 따로 매기면 어디서 도구 차이 나는지 더 또렷.

시험: 같은 결과물에 두 점수(I5a 정확성·I5b 즉시 사용성) 매겨서 한 점수보다 변별력이 실제로 올라가나?

  • F1: 두 차원이 항상 같은 값 (예: 정확성 5 → 즉시 사용성 5) → 분해 무용
  • F2: 분해해도 두 도구 차이 안 남 → 변별력 변화 없음
  • F3: 채점 시간이 1.5배 이상 늘어남 → 비용 큼 (3~4시간 예산 초과)

1단계 — 채점 가이드 작성 (30분)

섹션 제목: “1단계 — 채점 가이드 작성 (30분)”
  • 정확성 1~5 (5: 사실 오류 0건, 1: 사실 오류 5건+)
  • 즉시 사용성 1~5 (5: 그대로 발송, 1: 폐기)

2단계 — P1~P4의 결과물 무작위 10건 추출 (15분)

섹션 제목: “2단계 — P1~P4의 결과물 무작위 10건 추출 (15분)”

이미 채점된 결과물에 2-차원 재채점 시도.

3단계 — 익명·셔플 후 재채점 (90분)

섹션 제목: “3단계 — 익명·셔플 후 재채점 (90분)”

도구 표시 지우고, 두 차원 따로 매김.

비교 축1차원 점수 결론2차원 분해 결론
어느 도구가 더 좋아?
어느 차원에서 차이 나?
사망 후보 변화?

차이 1개 이상 → probe pass.

결과물도구1차원 점수정확성 (I5a)즉시 사용성 (I5b)
  • 1차원: ___
  • 2차원: ___
  • 채택 — I5를 I5a + I5b로 분해. runs/runs.csv 헤더 갱신 (quality_accuracy, quality_usability)
  • 폐기 — F1~F3 사유
  • 보류 (v2)