04. 다층 Rubric (7-25-130)

한 줄: “결과물 품질 1–5점” 같은 단일 점수는 채점자 두 명이 합의가 안 됨 → 큰 차원→작은 차원→체크 항목으로 3단 분해해서 객관성을 끌어올리는 채점 명세서.

비유: 음식점 후기 별점 4점 vs 3점은 사람마다 다르지만, “맛 / 청결 / 가격 / 서비스” 4축으로 분해하고 각 축마다 “음식이 따뜻했나? Y/N” 같은 체크리스트가 있으면 누가 채점해도 비슷한 결과가 나옴.

이 문서에서 챙길 3가지

7-25-130 = 7개 큰 차원 → 25개 하위 차원 → 130개 측정 가능한 Y/N 항목 (숫자보다 3단 위계가 핵심)
단일 점수의 함정: 채점자 일치도(κ)가 낮고, “왜 이 점수?”의 근거 추적 불가
본 실험은 풀 130 항목은 과함 — 축소 rubric (정확성·톤·즉시사용·자연어이해 4차원)으로 충분

1. 정의

Rubric은 주관적 판단을 반복 가능한 점수로 만드는 명세서다. 단일 차원 1–5 점수(“결과물 품질”) 대신, 명시적 차원과 등급 정의를 두어 채점자 간(또는 같은 채점자의 시점 간) 점수가 흔들리지 않게 한다.

업계에서 흔히 인용되는 “3-tier 7-25-130 분류”는 다음을 가리킨다:

7 primary dimensions — 평가의 큰 축 (예: comprehensiveness, accuracy, coherence, …)
25 sub-dimensions — 큰 축의 하위 분해 (예: coherence → 논리 흐름 / 용어 일관성 / 구조 / …)
130 fine-grained rubric items — 측정 가능한 체크 항목 (예: “문서화된 엣지케이스를 처리하는가” Y/N)

숫자 자체보다 3단 위계가 핵심: 추상 차원 → 하위 차원 → 측정 항목.

2. 핵심 메커니즘

2.1 왜 단일 1–5가 약한가

“결과물 품질 1–5”에서 4점과 3점의 차이를 채점자 두 명이 합의할 수 있나? 거의 못 한다. 이유:

차원 혼합: 정확하지만 톤이 어색한 답과, 톤은 좋은데 부정확한 답을 어느 쪽에 4점을 주나? 채점자마다 가중치가 다름.
기준 표류: 첫째 주의 4점과 둘째 주의 4점이 같은 기준인가? 채점자가 점점 까다로워짐 (rubric drift).
비교 불가: 도구 A의 평균 3.8과 B의 4.1 차이가 유의미한지 통계적으로 말하기 어려움.

다층 rubric은 이걸 푼다:

차원 혼합 해소: 각 차원을 별도로 채점, 가중 합산은 나중에. 가중치 정책을 명시.
기준 고정: 측정 항목이 Y/N에 가까울수록 표류가 적음.
비교 가능: 차원별 통계를 별도로 낼 수 있음 — “A는 정확성 우위, B는 톤 우위” 같은 구조 발견.

2.2 차원 설계 — 어떻게 7개를 고르나

도메인 의존이지만 패턴은 있다.

일반 텍스트 평가용 (chatbot, 답변 품질)

Accuracy (사실 정합성)
Helpfulness (요구 충족도)
Coherence (논리·일관성)
Comprehensiveness (완결성·누락)
Conciseness (간결성)
Tone/Politeness
Safety/Harm

에이전트 평가용

Task completion (목표 달성)
Tool selection accuracy (올바른 툴)
Tool argument correctness (인자 정확)
Reasoning coherence (추론 일관)
Error recovery (실패 복구)
Efficiency (불필요 step 없음)
Safety/policy adherence

이걸 그대로 쓰지 말고 우리 태스크에 맞게 조정. 우리 실험은 “비개발자 페르소나가 자연어 지시” 라서 다음이 더 맞다:

자연어 이해 (요청 누락·오해)
정확성 (이름·날짜·숫자)
톤·페르소나 적합 (채널별)
즉시 사용 가능성 (그대로 발송 가능?)
셋업/개입 비용 (페르소나 모드 위반?)
외부 통합 정확성 (Discord/Slack/Gmail에 진짜로 갔나)
일관성 (반복 시 결과가 흔들리지 않나)

2.3 등급 정의 — Likert 스케일의 함정

“1–5”라고 적기만 하면 무용. 각 점수의 정의가 있어야 한다.

정확성 차원
5: 사실/이름/날짜/숫자 모두 정확. 발송 가능.
4: 1개 minor 오류 (오타·중복) 있으나 발송 가능.
3: 발송 전 1개 fact 검증 필요.
2: 다중 사실 오류. 처음부터 재작성 권장.
1: 환각 다수. 사용 불가.

이 정의가 프롬프트에도, 채점자 안내에도 그대로 들어가야 함. Few-shot 예시까지 더하면 더 좋음(2장 참고).

2.4 Sub-dimension 분해 — 언제 25개로 갈까

7 차원으로 부족할 때:

한 차원의 평균이 항상 비슷하게 나와서 변별력 없음 → 분해
채점자 간 불일치가 한 차원에 집중 → 분해해서 어디서 갈리는지 봄
분석 시 “어느 sub에서 문제?”라는 질문이 자주 나옴 → 분해해서 보고

예시 — “톤·페르소나 적합” 차원의 분해

채널 매칭 (Discord = 캐주얼, Gmail = 정중)
어휘 수준 (전문용어 빈도)
길이 적정성
이모지·이모티콘 사용
호명·인사 (멤버명·역할 호출 정확)

필요한 만큼만 분해. 모든 차원을 25개까지 가는 건 아님.

2.5 Fine-grained Items — 130개 체크리스트

가장 객관적인 형태. Y/N으로 답할 수 있는 항목.

T1 공지 작성 채점 항목 (예시 부분):
[Y/N] 행사명이 공지에 포함되어 있나
[Y/N] 일시가 명확한가 (요일·시간대 포함)
[Y/N] 장소/링크가 정확한가
[Y/N] CTA(참가 신청 방법)가 있나
[Y/N] 채널별 변형이 의미 있는 차이를 가지나
...

이게 측정 가능의 끝판왕. 자동 채점·LLM judge 가장 신뢰. 동시에 디테일하기 때문에 항목 설계 비용이 큼.

2.6 종합 — 가중 합산

차원 점수 → 단일 종합 점수가 필요할 때:

$$\text{Total} = \sum_{i=1}^{7} w_i \cdot s_i$$

(w_i = 차원 가중치, s_i = 차원 점수)

가중치 결정:

Equal weighting: 모든 차원 동등 — 디폴트, 분석 단순
Persona-weighted: 페르소나에게 중요한 차원에 가중 (민지 → 톤·즉시사용성·외부통합 高)
Threshold-based: 한 차원이 임계 미달이면 종합 0 (예: 정확성 ≤ 2면 무조건 fail)

임계 기반을 권장하는 영역: 안전·정책 관련. 톤 만점이라도 사실 오류 있으면 fail.

3. 강점과 약점

강점	약점
채점자간 일치율 ↑ (IRR, Cohen’s κ ↑)	설계 비용 큼 (rubric 자체 작성·합의)
차원별 비교 가능 (통계 풍부)	채점 시간 ↑ (차원 수만큼 판단)
LLM judge calibration 쉬움	분해가 과하면 피로 채점 (의미 없는 0/1)
Drift 적음	도메인 변화 시 rubric 갱신 필요
디버깅 ↑ (어느 차원이 약점?)	종합 가중치가 또 다른 주관

4. 대안과의 비교

채점 형식	비용	정밀도	권장
단일 1–5 (자유)	매우 低	매우 低	빠른 spot check
단일 1–5 (등급 정의 有)	低	中	MVP, 채점자 1인
Pairwise A/B	中	中	두 모델 비교, 순위만 필요
다차원 1–5 (rubric)	中	高	본격 평가
Y/N 체크리스트 (fine-grained)	高	매우 高	자동화 + 회귀
다차원 + 체크리스트 결합	매우 高	최고	프로덕션, 안전성 평가

Rubric vs Pairwise: 둘 다 단일 1–5보다 좋다. Pairwise는 “어느 게 나은가”만 봄 — 상대 비교 강함, 절대 품질 모름. Rubric은 절대 비교 — 추세·임계 측정 가능.

본 실험은 둘 다 필요. 도구간 비교(pairwise) + 도구별 절대 수준(rubric).

5. 우리 실험에의 적용

§6의 “결과물 품질 1–5”를 그대로 쓰면 위에서 본 대로 약하다. 다음 분해를 제안:

4-차원 rubric (단순화 버전)

차원	등급 정의 (요약)	가중치
자연어 이해	5=요청 그대로, 1=핵심 누락	0.25
정확성	5=사실 오류 0, 1=환각 다수	0.30
톤·페르소나	5=채널 적합, 1=거부감	0.20
즉시 사용성	5=그대로 발송 OK, 1=재작성	0.25

Threshold rule: 정확성 ≤ 2면 종합 = min(종합, 2). 사실 틀린 답을 톤 좋다고 4점 주는 일을 막음.

태스크별 fine-grained 체크리스트 (옵션)

T1·T2 같은 정형 태스크에만 추가. T1 예:

[Y/N] 행사명 포함
[Y/N] 일시·장소 정확
[Y/N] 신청 방법 명시
[Y/N] 디스코드/슬랙/카톡 톤 변형 차이가 보임
[Y/N] 줌/오프라인 등 매체 명시
[Y/N] 공지 길이가 채널에 적정 (Discord ≤ 500자, Slack ≤ 800자)

이건 LLM judge가 boolean만 채점하면 되므로 신뢰도 高. 6개 Y/N의 비율이 보조 지표.

채점 양식 갱신 (CSV 컬럼)

기존: 날짜, 도구, 태스크, TTC, 개입수, 셋업분, 점수, 메모

신규: 날짜, 도구, 태스크, TTC, 개입수, 셋업분, S_이해, S_정확, S_톤, S_즉시, S_종합, FG_점수, 메모

(FG_점수 = fine-grained Y/N 비율, 정형 태스크에만)

이 정도가 14일 분량에 적정. 더 분해하면 채점 피로 ↑, 데이터 노이즈 ↑.

검증 절차

Day 1–2의 첫 30건은 같은 결과물을 민지 + codex(LLM judge)가 동시 채점
Spearman ρ 측정. ρ ≥ 0.7면 codex를 보조 채점자로 등록 (불일치 케이스만 민지 재검)
ρ < 0.5면 codex 폐기, 민지 단독 채점 유지

6. 더 읽을거리

Galileo, “Agent Evaluation Framework: Metrics, Rubrics & Benchmarks” — 3-tier 7-25-130 분류의 원 출처
Inter-rater reliability (Wikipedia) — Cohen’s κ, Krippendorff’s α 등 채점자간 일치도 지표 기초
Simply Psychology, “Likert Scale” — 등급 정의·앵커 표현·홀수 vs 짝수 스케일 best practices

다음 장 미리보기

지금까지 어떻게 채점할 것인가를 봤다. 이제 무엇을 측정하기 위해 사람들이 만든 벤치마크들을 본다. 첫 타자는 customer-service 시뮬레이션 + pass^k 일관성 메트릭으로 유명한 τ-bench. 우리 H2 가설(반복 일관성)에 가장 직결되는 도구. 05장.

이 장에서 확실히 알아야 하는 것

단일 1–5가 흔들리는 3가지 이유 (차원 혼합·기준 표류·비교 불가)를 안다.
7-25-130 위계의 의미를 한 줄로 설명할 수 있다.
Threshold rule(임계 미달 시 종합 캡)이 왜 필요한지 안다.
본 실험의 4-차원 rubric (이해·정확·톤·즉시)을 외워서 적을 수 있다.
CSV 컬럼이 어떻게 바뀌어야 하는지 안다.