평가 연구 (Deep Study) — 인덱스

이 시리즈는 history/24-eval-research.md 의 사전 리서치를 기반으로, 우리 실험(Hermes vs OpenClaw)에 적용 가능한 모든 평가 개념을 완전히 이해하기 위해 한 주제씩 깊이 파는 학습 노트다. 각 장은 다음 구조를 따른다.

학습 순서는 방법론 → 대표 벤치마크 → 산업 도구 → 적용 으로 쌓도록 배열했다. 1–4장은 평가 언어 의 토대(어떤 어휘로 사고할 것인가), 5–10장은 벤치마크 카탈로그, 11–12장은 현장 운영, 13–14장은 비판적 시각과 적용.

#	제목	핵심 질문
01	Trajectory vs Outcome 평가	”결과만 볼까, 과정도 볼까?“
02	LLM-as-Judge	”평가를 LLM에게 시켜도 되나? 얼마나 믿을 수 있나?“
03	Agent-as-Judge	”에이전트의 trajectory를 또 다른 에이전트가 채점하면?“
04	다층 Rubric (7-25-130)	“정성 점수를 어떻게 정량화할까?“
05	τ-bench와 pass^k	”정책 준수와 일관성을 어떻게 측정하나?“
06	GAIA · AgentBench	”범용 보조 능력은 어떻게 재나?“
07	SWE-bench 계열	”실제 코드 수정 능력을 어떻게 측정하나?“
08	OSWorld · WebArena · Mind2Web	”GUI/웹 조작 에이전트를 어떻게 평가하나?“
09	Memory Benchmarks	”에이전트가 학습하는지 어떻게 보나? — H2 핵심”
10	Tool-use Benchmarks	”툴 선택·호출이 정확한지 어떻게 잴까?“
11	평가 플랫폼 비교	”LangSmith / Braintrust / Langfuse / Phoenix / Galileo, 뭘 써야 하나?“
12	평가 파이프라인	”Offline · Online · Monitoring을 어떻게 엮나?“
13	벤치마크 함정	”왜 만점이 의심스러운가? Berkeley RDI 익스플로잇”
14	우리 실험에 매핑	”민지 14일 실험에 어떤 도구를 어디에 박을까”

각 장 끝에는 “다음 장 미리보기”와 “이 장에서 확실히 알아야 하는 것 N개” 체크리스트가 있다. 14장까지 마치면 우리 실험의 §6(측정 지표)을 재설계할 수 있는 어휘가 모두 손에 들어와 있어야 한다.

시리즈 메타