본 프로젝트 문서들에 자주 등장하는 용어를 일상 한국어 한 줄로 풀이. 정확한 학술 정의는 study/ 시리즈에.
| 용어 | 일상어 풀이 |
|---|
| L1 (대상) | “두 도구 중 누가 더 나아?” — 도구 결정 |
| L2 (방법) | “어떻게 측정해야 도구를 비교할 수 있어?” — 평가 프레임워크 |
| L3 (메타) | “그 측정 방식 자체가 맞는 방향이야?” — 평가 방식에 대한 평가 |
| probe | 작은 실험 1건. 본 시리즈에선 “하루 1 probe” |
| Track A / Track B | A = Claude(Anthropic) 백엔드 / B = ChatGPT(Codex) 백엔드 |
| Phase 0~5 | 본 시리즈 5단계 (준비 → 작은 실험 → 통합 → 부록 → 백엔드 전환 → v2 결정) |
| 용어 | 일상어 풀이 |
|---|
| TTC (Time to Completion) | 태스크 시작에서 완료까지 걸린 시간(초) |
| 개입 횟수 | 처음 시켰을 때 한 방에 못 알아들어서 추가로 말한 횟수 |
| 결과물 품질 1~5 | 결과물에 5점부터 1점까지 점수 매김. 5는 그대로 발송, 1은 폐기 |
| pass^3 | 같은 일을 3번 시켰을 때 3번 다 잘 했나 비율 |
| std (표준편차) | 점수가 얼마나 들쭉날쭉한지. 작을수록 일관됨 |
| σ (시그마) | 표준편차의 기호. “1σ 이상 차이” = “오차 범위 넘어 차이남” |
| 용어 | 일상어 풀이 |
|---|
| Cohen’s κ (카파) | 두 사람이 같은 결과물에 점수 매겼을 때 얼마나 비슷한지 측정 (0=우연, 1=완벽 일치) |
| ICC | 같은 사람이 두 번 점수 매겼을 때 얼마나 비슷한지 측정 (값 의미 비슷). 우리는 평가자 1명이라 κ 못 쓰고 ICC 사용 |
| Spearman ρ (로) | 두 점수 순서가 얼마나 비슷한지 (예: AI 채점 순위 vs 사람 채점 순위). 1에 가까우면 거의 같은 순서 |
| κ ≥ 0.6 / ICC ≥ 0.7 / ρ ≥ 0.7 | 학계에서 “이 정도면 믿을 만함” 임계값들 |
| 용어 | 일상어 풀이 |
|---|
| 블라인드 채점 | 결과물에서 누가 만들었는지 가리고 점수 매김. 편향 차단 |
| 루브릭 | 점수 기준표. “이러면 5점, 이러면 4점” 식으로 미리 정해둠 |
| trajectory | 도구가 어떤 순서로 무엇을 했는지 행동 기록 (어떤 함수 호출, 어떤 도구 사용) |
| LLM-as-judge | AI한테 채점 시키기. 사람 부담 줄이는 자동화 |
| Agent-as-judge | AI한테 다른 AI의 행동까지 능동 분석시켜 채점. LLM-judge보다 정교 |
| outcome 평가 | 최종 결과물만 보고 채점 |
| trajectory 평가 | 결과뿐 아니라 과정까지 보고 채점 |
| rubric 분해 | 한 점수(예: 결과물 품질 1~5)를 여러 차원(정확성·즉시 사용성)으로 쪼갬 |
| 용어 | 일상어 풀이 |
|---|
| 반증 조건 | ”이러면 이 실험은 실패다”를 시작 전에 적어둠. 사후 짜맞춤 차단 |
| 편향(bias) | 의도와 무관하게 점수가 한쪽으로 쏠리는 현상 |
| position bias | ”먼저 본 게 더 잘 보임” 같은 순서 편향 |
| length bias | ”긴 답이 좋아 보임” 같은 길이 편향 |
| reward hacking | 도구가 진짜 일을 안 하고 점수 잘 받는 꼼수 부리는 것 |
| Goodhart 법칙 | ”지표를 목표로 삼으면 그 지표는 지표로서 죽음” — 수단이 목적이 됨 |
| Goodhart 가드 | 위 법칙 차단 장치 (예: 빠른데 품질 낮은 결과를 따로 카운트) |
| carry-over | ”전 결과의 인상이 다음 측정에 묻어감” — 평가자 머릿속 잔재 |
| 용어 | 일상어 풀이 |
|---|
| fork (분기) | 평가를 정량(점수)와 정성(메모) 두 트랙으로 동시 진행 |
| fork 트리거 | 정량 점수가 사망하면 정성 비중 늘리는 자동 분기 장치 |
| framing A/B/C/D/E | 같은 raw 데이터를 5가지 시각으로 분석하는 방식. 본 시리즈는 A·B·D만 채택, C·E는 v2 후보 |
| v1 / v2 | v1 = 본 시리즈에서 만든 첫 평가 프레임워크 / v2 = 본 시리즈 결과로 만들 본 운용 실험 |
| C1~C9 | 본 실험의 9가지 제약 (백엔드·격리·페르소나·무결성 등). 02-constraints.md |
| 용어 | 일상어 풀이 |
|---|
| τ-bench (타우-벤치) | 고객 서비스 시뮬레이션 벤치마크. pass^k 개념의 출처 |
| MemoryAgentBench | AI 메모리 능력 측정 벤치마크. 4축(회상·학습·장거리·충돌) |
| OAuth | ”로그인은 했는데 비밀번호 안 주고 권한만 위임” 인증 방식 |
| provider | ”어느 LLM 서비스 쓸지” 설정 (anthropic / openai-codex 등) |
| rate limit | 단위 시간당 보낼 수 있는 메시지 수 천장 |
| 429 에러 | 한도 초과 응답 코드 |
- Cohen’s κ vs ICC: 둘 다 “점수가 얼마나 비슷한지”인데, κ는 두 사람, ICC는 같은 사람 두 번 또는 그룹. 본 실험은 평가자 1명이라 ICC만 사용
- Spearman ρ vs Pearson r: 둘 다 상관관계인데, ρ는 순서만, r은 값 자체. 점수 채점은 ρ가 더 안정적
- outcome vs trajectory: outcome = 결과만 / trajectory = 과정 포함. 본 실험은 둘 다 채집
- probe vs experiment: probe = 작은 단위 실험 (하루치) / experiment = 본 실험(v2) 전체
본 실험의 출발점은 업계가 AI 에이전트를 정성 후기로만 평가하는데, 조직 의사결정엔 부족하다는 것. 그래서 정량적 비교 프레임을 만들고 싶음. 그런데 정량 프레임이 자기검증 가능하려면 위 통계 용어들이 필요함 — “내가 매긴 점수를 믿을 만한가”, “이 지표가 진짜 변별력 있나”, “AI 점수가 사람 점수랑 얼마나 비슷한가” 같은 질문들에 숫자로 답해야 함.
용어 자체는 어렵지만 각각 묻는 질문은 단순. 이 글로서리는 그 매핑을 한 줄씩 해둔 것.