평가 연구 (Deep Study) — 인덱스
이 시리즈는 history/24-eval-research.md 의 사전 리서치를 기반으로, 우리 실험(Hermes vs OpenClaw)에 적용 가능한 모든 평가 개념을 완전히 이해하기 위해 한 주제씩 깊이 파는 학습 노트다. 각 장은 다음 구조를 따른다.
- 정의 — 한 줄 요약과 정확한 용어
- 핵심 메커니즘 — 어떻게 동작하나, 수식·예시
- 강점과 약점 — 무엇을 측정하고 무엇을 못 측정하나
- 대안과의 비교 — 비슷해 보이는 것들과 어디서 갈라지나
- 우리 실험에의 적용 — Hermes vs OpenClaw·민지 페르소나에 어떻게 가져올까
- 더 읽을거리 — 1차 출처
학습 순서는 방법론 → 대표 벤치마크 → 산업 도구 → 적용 으로 쌓도록 배열했다. 1–4장은 평가 언어 의 토대(어떤 어휘로 사고할 것인가), 5–10장은 벤치마크 카탈로그, 11–12장은 현장 운영, 13–14장은 비판적 시각과 적용.
| # | 제목 | 핵심 질문 |
|---|---|---|
| 01 | Trajectory vs Outcome 평가 | ”결과만 볼까, 과정도 볼까?“ |
| 02 | LLM-as-Judge | ”평가를 LLM에게 시켜도 되나? 얼마나 믿을 수 있나?“ |
| 03 | Agent-as-Judge | ”에이전트의 trajectory를 또 다른 에이전트가 채점하면?“ |
| 04 | 다층 Rubric (7-25-130) | “정성 점수를 어떻게 정량화할까?“ |
| 05 | τ-bench와 pass^k | ”정책 준수와 일관성을 어떻게 측정하나?“ |
| 06 | GAIA · AgentBench | ”범용 보조 능력은 어떻게 재나?“ |
| 07 | SWE-bench 계열 | ”실제 코드 수정 능력을 어떻게 측정하나?“ |
| 08 | OSWorld · WebArena · Mind2Web | ”GUI/웹 조작 에이전트를 어떻게 평가하나?“ |
| 09 | Memory Benchmarks | ”에이전트가 학습하는지 어떻게 보나? — H2 핵심” |
| 10 | Tool-use Benchmarks | ”툴 선택·호출이 정확한지 어떻게 잴까?“ |
| 11 | 평가 플랫폼 비교 | ”LangSmith / Braintrust / Langfuse / Phoenix / Galileo, 뭘 써야 하나?“ |
| 12 | 평가 파이프라인 | ”Offline · Online · Monitoring을 어떻게 엮나?“ |
| 13 | 벤치마크 함정 | ”왜 만점이 의심스러운가? Berkeley RDI 익스플로잇” |
| 14 | 우리 실험에 매핑 | ”민지 14일 실험에 어떤 도구를 어디에 박을까” |
각 장 끝에는 “다음 장 미리보기”와 “이 장에서 확실히 알아야 하는 것 N개” 체크리스트가 있다. 14장까지 마치면 우리 실험의 §6(측정 지표)을 재설계할 수 있는 어휘가 모두 손에 들어와 있어야 한다.
시리즈 메타
- 작성: 2026-04-28~
- 사전 리서치:
history/24-eval-research.md - 본 실험 설계:
01-experiment-design.md - 언어: 한국어 (외래어/고유명사는 영문 병기)