[보관] 24. 에이전트 평가 리서치 — 툴/프레임워크/벤치마크/지표 지형도
시각: 2026-04-28 11:35 KST
무엇이 있었나
섹션 제목: “무엇이 있었나”Phase 2 Day 0 셋업이 끝난 시점에서, 본 실험의 측정 설계(01-experiment-design.md §6)가 산업/학술 표준에 비추어 어디 서 있는지 확인하기 위해 사전 리서치를 수행. 검색 8건, 페이지 fetch 2건. 수집 결과를 네 축으로 정리.
1) 학술 벤치마크 (4 카테고리)
섹션 제목: “1) 학술 벤치마크 (4 카테고리)”| 카테고리 | 대표 벤치마크 | 측정 대상 |
|---|---|---|
| Function Calling / Tool Use | BFCL (Berkeley Function Calling Leaderboard), ToolBench (16k+ REST APIs), ComplexFuncBench, τ-bench / τ²-bench (Sierra) | 툴 선택·인자 정확도, 멀티스텝 호출, 정책 준수 |
| General Assistant / Reasoning | GAIA (165 검증 문항, multi-step 추론), AgentBench (Tsinghua, 8 환경), SimpleQA | 일반 보조 능력, 도메인 폭 |
| Coding / SWE | SWE-bench (2,294 GitHub 이슈), LiveCodeBench, SWE-PolyBench | 실제 코드베이스 패치 능력 |
| Computer / Web Interaction | WebArena, OSWorld / OSWorld-Verified (369 OS 태스크), Mind2Web (137 사이트) | GUI/CLI/브라우저 조작, 멀티앱 워크플로 |
| Memory / Test-time Learning | MemoryAgentBench (ICLR 2026), Evo-Memory (스트리밍, 자기진화), MemoryArena (멀티세션 의존), AMA-Bench (long-horizon) | 반복 상호작용에서 경험 재사용·전이 |
특히 본 실험과 매핑이 강한 두 벤치마크:
- τ-bench: customer-service 시뮬레이션. 정책 준수까지 봄(“올바른 작업이지만 정책 위반”은 실패).
pass^k지표(같은 태스크 k번 반복 시 모두 성공한 비율)로 일관성/신뢰성 을 분리 측정. SOTA 함수호출 에이전트도 retail에서 pass^8 < 25%. - MemoryAgentBench / Evo-Memory: 정확 회상·테스트타임 학습·장거리 이해·충돌 해결의 4 능력으로 분해. 학습 곡선(누적 태스크 vs 정확도)을 명시적으로 그림.
2) 산업 평가 플랫폼 (8개)
섹션 제목: “2) 산업 평가 플랫폼 (8개)”| 플랫폼 | 포지셔닝 | 비고 |
|---|---|---|
| LangSmith | 프레임워크 무관 trace + 평가, 전체 trajectory 캡처 | LangChain 진영의 표준 |
| Braintrust | code/model/human 3종 grader 결합 강조 | 에이전트 전용 가이드 보유 |
| Langfuse | 오픈소스, dev-first tracing + prompt 관리 | 셀프호스팅 가능 |
| Arize Phoenix | ML 모니터링 헤리티지, span-level trace | 오픈소스 라이브러리 |
| Galileo | hallucination 탐지 + 에이전트 trace | 메트릭 폭은 상대적으로 좁음 |
| DeepEval (Confident AI) | LLM eval 프레임워크, 에이전트 가이드 별도 제공 | pytest 스타일 |
| Maxim | 에이전트 평가 종합 플랫폼 비교 다수 발행 | 마켓맵 자료가 풍부 |
| Adaline | 2026 종합 가이드 발행, 단계별 파이프라인 제시 | 레퍼런스성 |
3) 평가 방법론 — 4 갈래
섹션 제목: “3) 평가 방법론 — 4 갈래”-
Trajectory 평가 vs Outcome 평가
- Outcome: 최종 결과만 (저비용, 양산용 모니터링·1차 검증)
- Trajectory: 추론·툴호출·결정 경로 전체 (디버깅·고위험 결정 검증, 비용 高)
- Vertex AI 명명:
trajectory_exact_match,trajectory_precision,trajectory_recall - 권장: outcome으로 상시 모니터, trajectory는 실패 사례 선택 적용
-
LLM-as-Judge (자동 정성 평가)
- 설계: 명시 rubric + few-shot + 구조화 JSON 출력 + 점수 전 근거 요구
- 신뢰도: Cronbach’s α로 내부 일관성, 인간 전문가 대비 Spearman 0.80+ 를 프로덕션 임계로
- 실패 모드: position bias, length bias, agreeableness bias. 복잡 평가에서 50%+ 오차, 전문 도메인 인간 일치율 64–68%
- 현실: 74%가 여전히 HITL을 병행
-
Agent-as-Judge (2025 후반~2026 트렌드)
- 평가용 에이전트가 다른 에이전트의 trajectory를 능동 관찰·툴 사용·추론
- 최종 결과만이 아닌 과정 전체 를 채점
-
다층 Rubric (3-tier taxonomy)
- 7 primary dimensions (예: comprehensiveness, accuracy, coherence)
- 25 sub-dimensions
- 130 fine-grained, 측정 가능한 rubric items
- 인간 calibration 목표: Spearman 0.80+
4) 평가 파이프라인 (Adaline/Anthropic 권고)
섹션 제목: “4) 평가 파이프라인 (Adaline/Anthropic 권고)”| 단계 | 메트릭 | 트래픽 비중 |
|---|---|---|
| Offline (배포 전) | 회귀 스위트, task completion, tool selection 정확도, reasoning chain 일관성, 에러 복구 | 100% (큐레이션 데이터셋) |
| Online (프로덕션 샘플링) | LLM-as-judge 샘플 채점, 휴리스틱 평가자, thumbs up/down | 일부 샘플 |
| Monitoring | drift 탐지, 임계 알림 | 100% 경량 |
Grader 3종(code / model / human)을 transcript 또는 outcome 의 어느 부분에 붙일지 매핑하는 게 설계의 핵심.
5) 함정 — “벤치마크 게임 가능”
섹션 제목: “5) 함정 — “벤치마크 게임 가능””UC Berkeley/RDI 연구가 2026년에 8개 주요 에이전트 벤치마크 모두에서 태스크를 푸는 대신 거의 만점을 받을 수 있는 익스플로잇을 보고. 단일 점수에 의존 금지. 여러 벤치를 횡으로 비교 + 정성 검토 병행 이 표준이 되는 추세.
왜 그렇게 갔나
섹션 제목: “왜 그렇게 갔나”본 실험의 현재 측정 설계(§6)는 7개 지표(TTC, 개입수, 셋업분, 셋업 가능여부, 결과품질 1–5, 반복 가속, 누적 자산)로 구성. 검토하니:
| 본 실험 지표 | 산업/학술 매핑 | 갭 |
|---|---|---|
| TTC | outcome 메트릭, latency | OK |
| 개입 횟수 | trajectory 추적의 거친 근사 | trajectory_precision / tool-use 정확도까지는 못 봄 |
| 셋업 비용·가능여부 | usability/HITL의 일부, 기존 벤치엔 거의 없음 | 본 실험의 차별점 — 그대로 유지가 강점 |
| 결과 품질 1–5 | 인간 채점 (HITL gold standard) | rubric 분해 부재. 7-25-130 식으로 한 단계만 분해해도 신뢰도 ↑ |
| 반복 가속 | MemoryAgentBench/Evo-Memory의 핵심 축 | 단일 metric(% 빨라졌나)뿐 — 정확도 회복/전이까지 본다면 더 풍부 |
| 누적 자산 | 학습 효과의 증거(proxy) | OK, 정성 보강 가능 |
빠진 축:
- Trajectory 레벨 평가: 어떤 툴을 어떤 순서로, 인자 어떻게 줬나. OpenClaw의 “통합 강점” 주장을 검증/반증 할 수 있는 핵심 축.
pass^k류 일관성: 같은 태스크 1회 성공이 다음에도 재현되는지. H2 가설(반복학습)에 직결.- LLM-as-judge 자동 정성 평가: 결과 품질 1–5를 일부라도 자동화 가능 (다만 bias 큼 → 인간과 calibration 필요).
- Agent-as-judge: 아직 실험 단계지만, 우리 실험의 trajectory 비교에 적합 — 두 에이전트의 로그를 제3 에이전트가 비교 채점.
또한 단일 벤치 점수 게임 가능성은 본 실험엔 직접 위협이 아님(우리는 한 페르소나로 양 도구를 비교하는 controlled study). 다만 한 지표만 보지 말라 는 교훈은 적용됨 → 결정 매트릭스(§9)는 이미 다축이라 OK.
무엇이 남았나
섹션 제목: “무엇이 남았나”다음 단계로 직결되는 적용 후보
섹션 제목: “다음 단계로 직결되는 적용 후보”-
pass^k도입 검토: T1·T8 같은 정형 태스크는 같은 자연어 지시를 3회 돌려 “1회 성공률” 과 “3회 모두 성공률(pass^3)” 을 분리 기록. 추가 비용 거의 없음. →02-constraints.mdC5(측정 무결성)에 보강 가능. -
결과 품질 1–5의 rubric 분해: 한 차원을 3–5개 sub-dimension으로 나눠 점수화 (예: T1 공지문 → 정확성·톤 적합·플랫폼별 변형·즉시 발송 가능 여부). 이게 §6의 “1~5 (그대로 발송 가능…)” 의 정량 계승.
-
Trajectory 로그 캡처: 이미 hook으로
logs/history-${EXPERIMENT_TOOL}.jsonl에 PostToolUse/PreToolUse 다 떨어지므로, “어떤 툴을 몇 번 어느 순서로 썼나” 는 공짜로 얻어지는 trajectory 데이터. 분석 스크립트 한 장이면 trajectory_precision 근사치 산출 가능. -
LLM-as-judge 시범: 결과 품질 채점을 codex CLI로 한 번 돌려, 민지(인간) 점수와 Spearman 상관 측정. 0.7+ 나오면 보조 평가자로 채택, 0.5 이하면 폐기.
-
MemoryAgentBench 4축으로 H2 재정의: 현재 H2(“반복 업무를 알아서 패턴화”)를 (a) 정확 회상 (b) 테스트타임 학습 (c) 장거리 이해 (d) 충돌 해결 로 분해. Hermes의 학습이 어디에 강하고 어디에 약한지 분리 가능.
다음 turn에 user가 결정해야 할 것
섹션 제목: “다음 turn에 user가 결정해야 할 것”- 위 5개 적용 후보 중 어느 것을 §6에 정식 편입할 것인가? 전부 다 쓰면 측정 부담↑(민지 모드 위반 우려). 1–3은 거의 공짜, 4–5는 별도 셋업.
- 정식 적용은 새 history 엔트리(23 …)에서 결정 commit으로 분리 기록.
미수집 / 후속 리서치 후보
섹션 제목: “미수집 / 후속 리서치 후보”- Anthropic “Demystifying evals for AI agents” 페이지 풀 fetch 안 함 — 에이전트 specific guidance가 있을 가능성. 다음 turn에 필요시.
- McKinsey QuantumBlack “Evaluations for the agentic world” — 비즈니스 outcome 측면, 본 실험엔 우선순위 낮음.
- Berkeley HAL 리더보드 (2026-04 기준 Claude Sonnet 4.5 GAIA 1위 74.6%) — 모델 차원 지형도, 본 실험은 모델을 Codex로 통일했으므로 직접 영향 X.
- 학술 벤치마크 컴펜디엄: https://github.com/philschmid/ai-agent-benchmark-compendium
- τ-bench 논문: https://arxiv.org/abs/2406.12045 · 코드: https://github.com/sierra-research/tau-bench
- τ²-bench (dual-control 확장): https://arxiv.org/pdf/2506.07982
- MemoryAgentBench (ICLR 2026): https://github.com/HUST-AI-HYZ/MemoryAgentBench
- Evo-Memory: https://arxiv.org/abs/2511.20857
- MemoryArena: https://arxiv.org/abs/2602.16313
- Galileo Agent Eval Framework: https://galileo.ai/blog/agent-evaluation-framework-metrics-rubrics-benchmarks
- Adaline 종합 가이드: https://www.adaline.ai/blog/complete-guide-llm-ai-agent-evaluation-2026
- Anthropic Demystifying evals: https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
- LLM-as-judge 가이드 (Evidently): https://www.evidentlyai.com/llm-guide/llm-as-a-judge
- Agent-as-Judge 서베이: https://arxiv.org/html/2508.02994v1
- Berkeley RDI “How We Broke Top AI Agent Benchmarks”: https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
- Braintrust agent eval: https://www.braintrust.dev/blog/evaluating-agents
- LangSmith eval 페이지: https://www.langchain.com/langsmith/evaluation