[보관] 평가·통계 용어 풀이 (쉬운 버전)

본 프로젝트 문서들에 자주 등장하는 용어를 일상 한국어 한 줄로 풀이. 정확한 학술 정의는 study/ 시리즈에.

일반

용어	일상어 풀이
L1 (대상)	“두 도구 중 누가 더 나아?” — 도구 결정
L2 (방법)	“어떻게 측정해야 도구를 비교할 수 있어?” — 평가 프레임워크
L3 (메타)	“그 측정 방식 자체가 맞는 방향이야?” — 평가 방식에 대한 평가
probe	작은 실험 1건. 본 시리즈에선 “하루 1 probe”
Track A / Track B	A = Claude(Anthropic) 백엔드 / B = ChatGPT(Codex) 백엔드
Phase 0~5	본 시리즈 5단계 (준비 → 작은 실험 → 통합 → 부록 → 백엔드 전환 → v2 결정)

점수·일관성

용어	일상어 풀이
TTC (Time to Completion)	태스크 시작에서 완료까지 걸린 시간(초)
개입 횟수	처음 시켰을 때 한 방에 못 알아들어서 추가로 말한 횟수
결과물 품질 1~5	결과물에 5점부터 1점까지 점수 매김. 5는 그대로 발송, 1은 폐기
pass^3	같은 일을 3번 시켰을 때 3번 다 잘 했나 비율
std (표준편차)	점수가 얼마나 들쭉날쭉한지. 작을수록 일관됨
σ (시그마)	표준편차의 기호. “1σ 이상 차이” = “오차 범위 넘어 차이남”

신뢰성·일치도

용어	일상어 풀이
Cohen’s κ (카파)	두 사람이 같은 결과물에 점수 매겼을 때 얼마나 비슷한지 측정 (0=우연, 1=완벽 일치)
ICC	같은 사람이 두 번 점수 매겼을 때 얼마나 비슷한지 측정 (값 의미 비슷). 우리는 평가자 1명이라 κ 못 쓰고 ICC 사용
Spearman ρ (로)	두 점수 순서가 얼마나 비슷한지 (예: AI 채점 순위 vs 사람 채점 순위). 1에 가까우면 거의 같은 순서
κ ≥ 0.6 / ICC ≥ 0.7 / ρ ≥ 0.7	학계에서 “이 정도면 믿을 만함” 임계값들

평가 방법

용어	일상어 풀이
블라인드 채점	결과물에서 누가 만들었는지 가리고 점수 매김. 편향 차단
루브릭	점수 기준표. “이러면 5점, 이러면 4점” 식으로 미리 정해둠
trajectory	도구가 어떤 순서로 무엇을 했는지 행동 기록 (어떤 함수 호출, 어떤 도구 사용)
LLM-as-judge	AI한테 채점 시키기. 사람 부담 줄이는 자동화
Agent-as-judge	AI한테 다른 AI의 행동까지 능동 분석시켜 채점. LLM-judge보다 정교
outcome 평가	최종 결과물만 보고 채점
trajectory 평가	결과뿐 아니라 과정까지 보고 채점
rubric 분해	한 점수(예: 결과물 품질 1~5)를 여러 차원(정확성·즉시 사용성)으로 쪼갬

가설·실험 제어

용어	일상어 풀이
반증 조건	”이러면 이 실험은 실패다”를 시작 전에 적어둠. 사후 짜맞춤 차단
편향(bias)	의도와 무관하게 점수가 한쪽으로 쏠리는 현상
position bias	”먼저 본 게 더 잘 보임” 같은 순서 편향
length bias	”긴 답이 좋아 보임” 같은 길이 편향
reward hacking	도구가 진짜 일을 안 하고 점수 잘 받는 꼼수 부리는 것
Goodhart 법칙	”지표를 목표로 삼으면 그 지표는 지표로서 죽음” — 수단이 목적이 됨
Goodhart 가드	위 법칙 차단 장치 (예: 빠른데 품질 낮은 결과를 따로 카운트)
carry-over	”전 결과의 인상이 다음 측정에 묻어감” — 평가자 머릿속 잔재

시리즈 구조

용어	일상어 풀이
fork (분기)	평가를 정량(점수)와 정성(메모) 두 트랙으로 동시 진행
fork 트리거	정량 점수가 사망하면 정성 비중 늘리는 자동 분기 장치
framing A/B/C/D/E	같은 raw 데이터를 5가지 시각으로 분석하는 방식. 본 시리즈는 A·B·D만 채택, C·E는 v2 후보
v1 / v2	v1 = 본 시리즈에서 만든 첫 평가 프레임워크 / v2 = 본 시리즈 결과로 만들 본 운용 실험
C1~C9	본 실험의 9가지 제약 (백엔드·격리·페르소나·무결성 등). `02-constraints.md`

외부 도구

용어	일상어 풀이
τ-bench (타우-벤치)	고객 서비스 시뮬레이션 벤치마크. pass^k 개념의 출처
MemoryAgentBench	AI 메모리 능력 측정 벤치마크. 4축(회상·학습·장거리·충돌)
OAuth	”로그인은 했는데 비밀번호 안 주고 권한만 위임” 인증 방식
provider	”어느 LLM 서비스 쓸지” 설정 (anthropic / openai-codex 등)
rate limit	단위 시간당 보낼 수 있는 메시지 수 천장
429 에러	한도 초과 응답 코드

헷갈리기 쉬운 짝

Cohen’s κ vs ICC: 둘 다 “점수가 얼마나 비슷한지”인데, κ는 두 사람, ICC는 같은 사람 두 번 또는 그룹. 본 실험은 평가자 1명이라 ICC만 사용
Spearman ρ vs Pearson r: 둘 다 상관관계인데, ρ는 순서만, r은 값 자체. 점수 채점은 ρ가 더 안정적
outcome vs trajectory: outcome = 결과만 / trajectory = 과정 포함. 본 실험은 둘 다 채집
probe vs experiment: probe = 작은 단위 실험 (하루치) / experiment = 본 실험(v2) 전체

”그래서 이게 왜 중요한가” 한 단락

본 실험의 출발점은 업계가 AI 에이전트를 정성 후기로만 평가하는데, 조직 의사결정엔 부족하다는 것. 그래서 정량적 비교 프레임을 만들고 싶음. 그런데 정량 프레임이 자기검증 가능하려면 위 통계 용어들이 필요함 — “내가 매긴 점수를 믿을 만한가”, “이 지표가 진짜 변별력 있나”, “AI 점수가 사람 점수랑 얼마나 비슷한가” 같은 질문들에 숫자로 답해야 함.

용어 자체는 어렵지만 각각 묻는 질문은 단순. 이 글로서리는 그 매핑을 한 줄씩 해둔 것.