02. LLM-as-Judge

한 줄: 사람이 일일이 채점하기엔 너무 비싸고 느리니까, 다른 AI(LLM)한테 채점을 맡긴다 — 그런데 그 AI가 체계적으로 편향돼 있어서, 보정 없이 그냥 쓰면 결과를 믿을 수 없다.

비유: 신입 인턴에게 시험지 채점을 시키는 상황. 빠르고 싸지만, 인턴이 “첫 번째 답안에 점수를 후하게 준다”거나 “긴 답을 좋은 답으로 착각한다” 같은 습관이 있다는 걸 알고 보정해야 한다.

이 문서에서 챙길 3가지

LLM 평가자에겐 알려진 편향 6종이 있다 (위치·길이·동의 등)
인간 점수와의 순위 상관 ρ ≥ 0.80이 “쓸 만한 평가자”의 임계선
“근거 먼저, 점수 나중”처럼 프롬프트를 살짝만 바꿔도 일관성이 크게 오른다

1. 정의

LLM-as-Judge는 다른 LLM의 출력(또는 trajectory)을 LLM 자신이 채점하게 하는 평가 패턴이다. 인간 채점이 너무 비싸고 느려서 도입된 우회로지만, 단순한 자동화가 아니라 인간 채점을 근사하는 학습 시스템에 가깝다.

좁은 의미로는 “텍스트 답변에 1–5 점수를 매기게 한다”, 넓은 의미로는 “두 응답 중 어느 게 낫나 골라라(pairwise)”, “이 trajectory가 정책을 위반했나(boolean)” 등 모든 LLM 기반 채점을 포함한다.

2. 핵심 메커니즘

sequenceDiagram
    participant Eval as 평가자(스크립트)
    participant Judge as Judge LLM
    participant Cal as 보정 (선택)
    Eval->>Judge: 시스템 프롬프트 + [질문, 답변]
    Judge-->>Eval: 점수(1–5) + 근거
    Note over Eval,Judge: 두 답 비교 시 위치 swap → 2회 호출
    Eval->>Cal: ρ(Judge, 인간) 측정
    Cal-->>Eval: 신뢰 임계 통과/미달
    alt 미달
        Eval->>Eval: 인간 평가로 폴백
    end

2.1 가장 단순한 형태

시스템 프롬프트:
당신은 평가자다. 다음 답변을 1–5로 채점하라.

[질문]: ...
[답변]: ...

응답 형식:
점수: <1–5>
이유: <근거>

이걸로 끝. 그런데 이게 “잘 동작하느냐”가 LLM-as-judge 분야 전체의 골치다.

2.2 알려진 편향 (3대장)

판정 LLM은 체계적으로 틀린다. 단순히 무작위로 틀리는 게 아니라 방향이 있는 오류다.

편향	정의	회피책
Position bias	두 답을 A/B로 보여주면 첫 번째에 점수를 더 줌	위치를 swap해서 두 번 평가, 평균
Length bias	긴 답변에 더 높은 점수 (정보량이 많아 보임)	길이 정규화 또는 “간결성”을 별도 차원으로 분리
Agreeableness bias	”이건 좋은 답이지?”처럼 유도하면 동의함. 자기 출력 평가 시 후함	중립 프롬프트, self-eval 금지

추가로:

Self-preference: 같은 패밀리 모델 출력에 후하다 (GPT-4가 GPT-4 출력 선호)
Verbosity / format bias: 마크다운·번호 매기기 답변에 후함
Egocentricity: 자기가 학습한 도메인에 강한 편향

2.3 신뢰도 측정 — Cronbach’s α 와 Spearman 상관

LLM-as-judge가 쓸 만한가를 판단하려면 두 가지를 잰다.

(1) 내부 일관성 — Cronbach’s α

같은 답안을 같은 판정자에 여러 번 묻거나, 여러 판정자(temperature 다른 sampling)에 묻고, 점수의 분산을 본다.

$$\alpha = \frac{k}{k-1}\left(1 - \frac{\sum_{i=1}^k \sigma^2_{Y_i}}{\sigma^2_X}\right)$$

(k = 반복 횟수, σ²_Y_i = i번째 평가의 분산, σ²_X = 합산 점수의 분산)

👉 풀어 쓰면: 같은 답을 같은 평가자에게 5번 물었을 때 점수가 얼마나 들쭉날쭉한가를 0–1 숫자 하나로 요약한 것. 1.0에 가까울수록 매번 비슷한 점수 → “이 평가자는 일관됨”이고, 낮으면 “기분 따라 점수가 바뀌는 평가자”라 못 씀.

α ≥ 0.7이면 “내부적으로 일관”으로 본다. 같은 모델이 같은 답을 매번 다르게 점수 매기면 α 낮음 → 그 평가자는 못 씀.

(2) 인간과의 일치 — Spearman 순위 상관

LLM 판정 점수와 인간 전문가 점수를 답안별로 페어링해서 순위 상관을 잰다 (Pearson은 점수 절대값 차이를 보지만, 순위만 일치해도 충분하므로 Spearman).

$$\rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$$

(d_i = i번째 답안의 LLM 순위와 인간 순위 차이)

👉 풀어 쓰면: 답안 100개에 대해 LLM이 매긴 순위(1등~100등)와 사람이 매긴 순위가 얼마나 비슷한가. 1.0이면 완전히 같은 순서, 0이면 완전 무작위, -1이면 정반대. 절대 점수가 같을 필요는 없고 순서만 맞으면 됨 — 그래서 Pearson(절대값 차이) 대신 Spearman(순위 차이)을 씀.

ρ ≥ 0.80 이 프로덕션 도입 임계로 통용된다. 0.8 이상이면 “인간과 거의 같은 순위로 정렬한다”는 의미.

현실: 전문 도메인에서 LLM-인간 일치율이 64–68% 수준이라는 보고. 즉 영역에 따라 0.8을 못 넘는 경우가 많다.

2.4 프롬프트 설계 원칙

같은 모델이라도 프롬프트 설계로 신뢰도가 크게 달라진다. 베스트 프랙티스:

명시 rubric: “1점 = …, 2점 = …” 식으로 각 점수 의미를 정의. 차원 분리 (정확성·완결성·톤)
Few-shot 예시: 1점/3점/5점 예시 답안을 프롬프트에 박음
근거 먼저, 점수 나중: “점수: 4 / 이유: …”가 아니라 “이유: … / 그러므로 점수: 4”. 이 한 변경만으로 일관성 ↑
구조화 출력: JSON으로 받음. {“score”: 4, “evidence”: ”…”, “criteria_violated”: []}
Single-answer scoring vs Pairwise: 절대점수보다 두 답을 비교하는 pairwise가 일반적으로 더 안정. 모델이 “이 답이 4점인가 5점인가” 보다 “A가 B보다 나은가”를 더 잘 판단.

2.5 Multi-model Consensus

단일 모델 판정의 분산을 줄이는 표준 기법: 3개 이상의 모델에 같은 평가를 시키고 다수결 또는 평균. Hallucination 탐지·factuality 등에서 인간에 근접한 정확도를 50ms 이하 latency로 얻는다는 보고.

문제점: 비용 3배. 또 모델들끼리 같은 편향을 공유하면 분산 감소가 적음.

3. 강점과 약점

강점	약점
인간 채점 대비 100–1000배 빠름·쌈	체계적 편향 (위 6종)
24/7 자동 실행 가능	복잡 평가에서 50%+ 오차
일관된 rubric 적용 (인간은 피곤하면 점수 흐려짐)	자기-답 평가 시 후함 (self-preference)
Trajectory처럼 라벨링 비싼 데이터에 적용 가능	”왜 이 점수?”의 진짜 근거가 아니라 그럴듯한 근거를 만들어냄
Pairwise는 의외로 안정적	도메인 전문성이 약하면 무용 (의료·법률 등)

핵심 원칙: LLM judge는 인간을 대체하지 않는다, 인간을 1000배 증폭한다. 인간 100건 채점한 결과로 LLM judge를 calibrate하고, 그 LLM judge로 100,000건을 자동 채점하는 식.

4. 대안과의 비교

평가자	비용	일관성	신뢰도 (전문 도메인)
인간 전문가 (HITL)	매우 高	중 (피로·편향)	최고 (gold standard)
인간 크라우드	중	낮음	낮음 (전문성 부족)
LLM-as-Judge (단일)	매우 低	中 (편향 有)	中 (도메인 의존)
LLM-as-Judge (multi-model 합의)	中	高	中-高
Agent-as-Judge	高	中	中 (3장에서)
코드 기반 평가 (regex, exact match)	0	완벽	가능한 영역만

업계 통계: 2026년 기준 74%의 팀이 LLM-as-judge 도입 후에도 인간 검토를 병행. 즉 완전 자동화는 아직 안 가있다.

5. 우리 실험에의 적용

본 실험 §6의 “결과물 품질 1–5”는 민지 본인이 매기는 점수다. 즉 인간(SME) 채점이고, 14일 × 10태스크 × 2도구 = 280건. 이 자체로는 부담스러운 양은 아니다.

그렇다면 LLM-as-judge가 굳이 필요한가? 두 시나리오:

시나리오 A — 보조 평가자로 부분 도입

280건 모두 민지가 채점 (HITL)
동시에 codex CLI로 같은 280건을 자동 채점
두 점수의 Spearman ρ 측정. ρ ≥ 0.7 이면 다음 실험에서는 LLM judge를 1차 채점자로 두고 민지가 불일치 케이스만 재검토하는 워크플로 가능
ρ < 0.5면 폐기 (도메인 너무 특수해서 codex로 안 됨)

이건 본 실험의 부산물로 ρ를 잴 수 있다는 게 매력. 추가 비용은 codex 호출 280건 × 짧은 평가 프롬프트 = 매우 작음.

시나리오 B — Trajectory 채점에 적용

민지는 trajectory(툴 호출 시퀀스)를 직접 보지 않는다. 그건 분석할 시간이 없다. 여기에 LLM judge를 박는다:

프롬프트: "다음 trajectory가 태스크 'T1: 행사 공지 작성·발송'을 합리적으로 수행했는가?
정책: (1) 발송 전 사용자 확인 절차 거쳤나 (2) 채널별 톤 변경 흔적 있나 (3) 불필요한 툴 호출 X"

이 채점은 민지가 못 하는 영역이라, 인간 calibration이 어려움 → ρ 측정 불가. 하지만 정책 위반 boolean 같은 명백히 검증 가능한 항목으로 좁히면 codex의 신뢰도가 충분할 가능성.

권장 도입안

시나리오 A를 반드시 함 (Spearman ρ는 본 실험의 부산물 가치)
시나리오 B는 정책 boolean 만 (단순 yes/no, 길이 의존성 적음)
민지 점수가 항상 ground truth — LLM judge는 해석을 풍부하게 하는 보조도구

프롬프트 초안 (시나리오 A)

당신은 비개발자 커뮤니티 매니저용 AI 에이전트의 결과물을 채점하는 평가자다.
한국어로 응답한다.

[태스크]: {task_description}
[자연어 지시]: {user_prompt}
[에이전트 결과물]: {agent_output}

다음 4 차원으로 1–5 채점하라. 각 차원에 대해 *근거 먼저, 점수 나중*으로 적어라.
- 정확성 (사실/이름/날짜에 오류 없나)
- 톤 적합 (페르소나/채널에 맞나)
- 즉시 사용 가능성 (그대로 발송 가능 / 약간 수정 / 많이 수정 / 다시 작성)
- 자연어 이해 (요청을 빠뜨리거나 잘못 해석하지 않았나)

JSON으로 답하라:
{
  "정확성": {"근거": "...", "점수": N},
  "톤": {"근거": "...", "점수": N},
  "즉시사용성": {"근거": "...", "점수": N},
  "자연어이해": {"근거": "...", "점수": N}
}

이 4 차원 평균이 민지의 1–5 단일 점수와 ρ ≥ 0.7 나오면 시나리오 A 성공.

6. 더 읽을거리

Evidently AI, “LLM-as-a-judge: a complete guide” — 편향 종류·프롬프트 설계·calibration 통합 입문 가이드
Monte Carlo Data, “LLM-As-Judge: 7 Best Practices & Evaluation Templates” — 산업 적용 시 7가지 베스트 프랙티스와 템플릿
Anthropic Engineering, “Demystifying evals for AI agents” — code/model/human 3종 grader 결합 권고 1차 자료
Zheng et al., “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” (NeurIPS 2023) — LLM-as-judge 편향(position·verbosity 등) 정량화한 시초 논문

다음 장 미리보기

LLM-as-Judge는 결과 텍스트나 단일 trajectory snippet 채점은 잘하지만, 긴 멀티-스텝 trajectory를 능동적으로 조사하는 건 약하다. 평가자가 직접 툴을 써서 검증할 수 있다면? 그게 Agent-as-Judge다. 03장.

이 장에서 확실히 알아야 하는 것

Position / Length / Agreeableness 편향을 예시와 함께 설명할 수 있다.
Spearman ρ 0.80이 왜 임계로 쓰이는지 안다.
“근거 먼저, 점수 나중” 원칙이 왜 일관성을 올리는지 설명할 수 있다.
Pairwise 채점이 single-answer 채점보다 일반적으로 더 안정적인 이유를 안다.
본 실험 시나리오 A의 ρ 측정이 왜 부산물로 가능한지 안다.