12. 평가 파이프라인 — Offline · Online · Monitoring
1. 정의
섹션 제목: “1. 정의”평가 파이프라인은 어느 단계에 어떤 평가를 어느 빈도로 굴리느냐 를 정하는 운영 설계다. 단일 평가 한 번이 아니라, 상시 흐르는 시스템 으로 평가를 본다.
3 단계가 표준:
- Offline (배포 전): 큐레이션 데이터셋에 모든 평가자를 100% 적용. 회귀 검증·수용 검증.
- Online (프로덕션): 실 트래픽에 샘플링 으로 평가. 비용 통제 + 진짜 사용 패턴 측정.
- Monitoring (지속): 실시간 또는 준실시간 alarm — drift, 환각률 등.
각 단계는 다른 메트릭 과 다른 빈도 를 가진다. 같은 메트릭을 단계 가로질러 비교하면 드리프트 를 잡을 수 있다.
2. 핵심 메커니즘
섹션 제목: “2. 핵심 메커니즘”flowchart LR
Build[배포 후보] --> Offline[Offline<br/>smoke·회귀·수용·안전·비용]
Offline -->|모든 게이트 통과| Deploy([프로덕션 배포])
Offline -->|실패| Block[배포 차단]
Deploy --> Trace[프로덕션 trace]
Trace --> Sample{샘플링}
Sample -->|실패·thumbs-down 100%| Online[Online 평가<br/>LLM-judge / deterministic]
Sample -->|random 1–5%| Online
Sample -->|신규 기능 10–20%| Online
Online --> Monitor[Monitoring<br/>drift / latency / 환각률]
Monitor -->|임계 위반| Alarm[Alarm → roll-back / 인간 검토]
Online --> Boomerang[흥미로운 케이스<br/>→ Offline 데이터셋 추가]
Boomerang -.다음 배포.-> Build
classDef ok fill:#efe,stroke:#080
classDef warn fill:#fee,stroke:#c00,color:#600
class Deploy ok
class Block,Alarm warn
2.1 Offline — 회귀 + 수용
섹션 제목: “2.1 Offline — 회귀 + 수용”배포 전 단계에서 거치는 게이트.
| 게이트 | 메트릭 | 임계 |
|---|---|---|
| Smoke test | 시스템이 응답하나, 명백 오류 X | 100% pass |
| 회귀 (regression) | 기존 데이터셋 점수가 떨어지지 않았나 | 마지막 배포 대비 ≥ -1% |
| 수용 (acceptance) | 새 기능이 의도대로 동작 | 신규 항목 ≥ 80% |
| 안전 (safety) | 정책 위반 0 | 0 |
| 비용·latency | p95 latency, 평균 토큰 | 임계 이내 |
이 단계의 모든 평가자가 100% 적용. 비용 부담은 빌드 시점에 한 번이라 OK.
2.2 Online — 샘플링 평가
섹션 제목: “2.2 Online — 샘플링 평가”프로덕션의 모든 trace를 평가하면 비용 폭증. 따라서 층화 샘플링 (stratified sampling).
| 층 | 샘플링 비율 | 이유 |
|---|---|---|
| 실패한 trace (HTTP 5xx, timeout) | 100% | 디버깅 |
| 사용자 thumbs-down 받은 trace | 100% | 품질 조사 |
| Random sample | 1–5% | 통계 |
| 신규 기능 사용 trace | 10–20% | 안정화 모니터링 |
| Tail (낮은 사용자/엣지) | 우선순위 加 | 분포 보존 |
각 샘플에 LLM-as-judge 또는 deterministic 평가자 자동 적용. 결과 → dashboard.
2.3 Monitoring — 드리프트 alarm
섹션 제목: “2.3 Monitoring — 드리프트 alarm”Online 평가 결과를 시계열 로 모니터. drift 탐지:
- Concept drift: 사용자 입력 분포가 변함 → 모델이 못 따라감
- Model drift: 모델 자체 (또는 prompt) 가 바뀜 → 점수 변화
- Data drift: RAG 코퍼스가 stale → 답변 품질 ↓
Alarm 임계: 지난 7일 평균 대비 -2σ. P99 latency 1.5x. 환각률 +5%p.
대응: roll-back, alarm → 인간 검토, 자동 재학습 트리거 등.
2.4 Production-edge → 데이터셋 부메랑
섹션 제목: “2.4 Production-edge → 데이터셋 부메랑”Online 평가에서 발견된 흥미로운 케이스 는 익명화 후 offline 데이터셋에 추가. 다음 배포부터 그 케이스 가 회귀 게이트로 들어감.
이 부메랑이 시스템을 학습 하게 만든다. 사람이 일일이 데이터셋을 늘리지 않아도 됨.
2.5 Grader 3종의 단계별 배치
섹션 제목: “2.5 Grader 3종의 단계별 배치”2장에서 본 code/model/human grader가 단계별로 다르게 배치된다:
| 단계 | Code grader | Model grader | Human grader |
|---|---|---|---|
| Offline | 100% trace | 100% trace | 일부 (어려운 케이스) |
| Online | 100% (저비용) | 1–5% sampling | 0.1% (큐 기반) |
| Monitoring | 100% (alarm 자동) | sampling 결과 집계 | alarm 시 |
Code grader는 어디서나 풀로 굴리고, model grader는 점점 줄이고, human은 가장 좁게 적용.
3. 강점과 약점
섹션 제목: “3. 강점과 약점”| 강점 | 약점 |
|---|---|
| 비용 통제 가능 (단계별 비율) | 설계 복잡 — 셋업 부담 |
| Drift 자동 탐지 | 임계 설정이 도메인 지식 필요 |
| 데이터셋 자동 진화 (부메랑) | 부메랑이 편향 강화 가능 (자주 본 패턴만 늘어남) |
| 단계별 책임 분리 (offline 게이트 / online 모니터) | 작은 N 실험엔 과투자 |
4. 대안과의 비교
섹션 제목: “4. 대안과의 비교”비-에이전트 ML 의 MLOps 파이프라인 과 매우 유사. 차이점:
- 에이전트는 상태가 있음 (메모리·세션). MLOps의 stateless 모델 평가와 다름
- 에이전트 평가는 trajectory 단위 — span tree가 풍부
- LLM-as-judge가 사실상 표준 평가자 → MLOps의 deterministic metric (accuracy 등) 과 다름
엄밀한 LLMOps 이름으로 같은 개념을 묶는 것이 2025–26 트렌드.
5. 우리 실험에의 적용
섹션 제목: “5. 우리 실험에의 적용”본 실험은 14일 짜리 오프라인 실험에 가깝다. 프로덕션이 없다. 그래도 3 단계 사고를 축소판으로 적용 가능.
5.1 Offline 단계 = Day 0–3
섹션 제목: “5.1 Offline 단계 = Day 0–3”| Day 0–3 활동 | 본 실험 매핑 |
|---|---|
| Smoke test | codex CLI 로그인, 가짜 워크스페이스 1개 메시지 발송 (이미 함) |
| 회귀 | 양 도구가 가장 단순 태스크 (T1) 를 둘 다 통과하나 |
| 수용 | 4-rubric 차원 점수 평균 ≥ 3.0 |
| 안전 | 페르소나 모드 위반 0 (LLM-as-judge boolean) |
| Latency | TTC 평균 < 5분 |
이 게이트를 통과 못 하면 본 실험 (Day 4~) 시작 X.
5.2 Online 단계 = Day 4–13
섹션 제목: “5.2 Online 단계 = Day 4–13”| Online 활동 | 본 실험 매핑 |
|---|---|
| 100% code grader | 정책 위반 카운트 (페르소나 모드), 함수호출 정확도 (10장) |
| 5–10% model grader | 5장 LLM-as-judge 로 결과물 자동 채점 (민지 채점과 ρ 측정용) |
| 1% human grader | 민지의 결과물 1–5 점수 (사실상 100% 라 비율 의미 X) |
우리는 N이 작아서 비율 의미는 약하지만, 사고 구조 는 동일.
5.3 Monitoring = Day 별 일일 점검
섹션 제목: “5.3 Monitoring = Day 별 일일 점검”매일 끝나면:
- 도구별 평균 점수 plot
- 직전 day 대비 ±1점 이상 변화 시 alarm (rubric drift 의심)
- 정책 위반 발생 시 즉시 기록
이게 사실상 Evo-Memory 식 학습 곡선 (9장) 을 일일 단위로 보는 것.
5.4 부메랑 — 발견 사례를 다음 실험으로
섹션 제목: “5.4 부메랑 — 발견 사례를 다음 실험으로”본 실험 종료 후, 흥미로운 trial (예: “T1 에서 OpenClaw 가 Discord 만 송신하고 Slack 누락” 같은 재현 가능한 실패)을 별도 데이터셋으로 export. 다음 실험 Day 0의 회귀 게이트 데이터.
이게 본 실험의 재현 가능 셋업 가이드 (산출물 #3) 가치를 높이는 길. 후속자에게 단순 가이드 + 데이터셋까지 전달.
5.5 결정
섹션 제목: “5.5 결정”- 3 단계 사고는 적용. 인프라는 추가 X (hook + CSV로 충분)
- Day 0–3을 명시적 게이트 로 운용. Day 4~ 진입 전 통과 체크
- 일일 monitoring plot 한 장 (도구별 평균 rubric 점수 시계열)
- 부메랑 데이터셋 export → 후속 실험 자산
6. 더 읽을거리
섹션 제목: “6. 더 읽을거리”- Adaline, “Complete Guide to LLM & AI Agent Evaluation in 2026” — offline → online → monitoring 3단 파이프라인의 종합 가이드
- Anthropic Engineering, “Demystifying evals for AI agents” — code/model/human grader의 단계별 배치 권고
- Google Cloud, “Agent Factory Recap” 블로그 — Vertex AI 기반 3단 파이프라인 산업 사례
- McKinsey QuantumBlack, “Evaluations for the agentic world” — 비즈니스 outcome 관점에서 본 에이전트 평가 컨설팅 시각
다음 장 미리보기
섹션 제목: “다음 장 미리보기”이제 비판적 시각으로. 모든 벤치는 게임 가능하다. Berkeley RDI 의 “How We Broke Top AI Agent Benchmarks” — 8개 주요 벤치를 태스크를 안 풀고도 만점 받는 익스플로잇. 우리 실험에의 함의. 13장.
이 장에서 확실히 알아야 하는 것
섹션 제목: “이 장에서 확실히 알아야 하는 것”- Offline / Online / Monitoring 3 단계의 책임 차이를 안다.
- 층화 샘플링 (실패 100% / random 1–5% 등)의 이유를 설명할 수 있다.
- Code / Model / Human grader가 단계별로 다르게 배치되는 패턴을 안다.
- 데이터셋 부메랑이 왜 시스템을 학습하게 하는지 설명할 수 있다.
- 본 실험의 Day 0–3 = offline gate 로 운용하는 의미를 안다.