콘텐츠로 이동

평가 연구 (Deep Study) — 인덱스

이 시리즈는 history/24-eval-research.md 의 사전 리서치를 기반으로, 우리 실험(Hermes vs OpenClaw)에 적용 가능한 모든 평가 개념을 완전히 이해하기 위해 한 주제씩 깊이 파는 학습 노트다. 각 장은 다음 구조를 따른다.

  1. 정의 — 한 줄 요약과 정확한 용어
  2. 핵심 메커니즘 — 어떻게 동작하나, 수식·예시
  3. 강점과 약점 — 무엇을 측정하고 무엇을 못 측정하나
  4. 대안과의 비교 — 비슷해 보이는 것들과 어디서 갈라지나
  5. 우리 실험에의 적용 — Hermes vs OpenClaw·민지 페르소나에 어떻게 가져올까
  6. 더 읽을거리 — 1차 출처

학습 순서는 방법론 → 대표 벤치마크 → 산업 도구 → 적용 으로 쌓도록 배열했다. 1–4장은 평가 언어 의 토대(어떤 어휘로 사고할 것인가), 5–10장은 벤치마크 카탈로그, 11–12장은 현장 운영, 13–14장은 비판적 시각과 적용.

#제목핵심 질문
01Trajectory vs Outcome 평가”결과만 볼까, 과정도 볼까?“
02LLM-as-Judge”평가를 LLM에게 시켜도 되나? 얼마나 믿을 수 있나?“
03Agent-as-Judge”에이전트의 trajectory를 또 다른 에이전트가 채점하면?“
04다층 Rubric (7-25-130)“정성 점수를 어떻게 정량화할까?“
05τ-bench와 pass^k”정책 준수와 일관성을 어떻게 측정하나?“
06GAIA · AgentBench”범용 보조 능력은 어떻게 재나?“
07SWE-bench 계열”실제 코드 수정 능력을 어떻게 측정하나?“
08OSWorld · WebArena · Mind2Web”GUI/웹 조작 에이전트를 어떻게 평가하나?“
09Memory Benchmarks”에이전트가 학습하는지 어떻게 보나? — H2 핵심”
10Tool-use Benchmarks”툴 선택·호출이 정확한지 어떻게 잴까?“
11평가 플랫폼 비교”LangSmith / Braintrust / Langfuse / Phoenix / Galileo, 뭘 써야 하나?“
12평가 파이프라인”Offline · Online · Monitoring을 어떻게 엮나?“
13벤치마크 함정”왜 만점이 의심스러운가? Berkeley RDI 익스플로잇”
14우리 실험에 매핑”민지 14일 실험에 어떤 도구를 어디에 박을까”

각 장 끝에는 “다음 장 미리보기”와 “이 장에서 확실히 알아야 하는 것 N개” 체크리스트가 있다. 14장까지 마치면 우리 실험의 §6(측정 지표)을 재설계할 수 있는 어휘가 모두 손에 들어와 있어야 한다.


시리즈 메타