[보관] 24. 에이전트 평가 리서치 — 툴/프레임워크/벤치마크/지표 지형도

시각: 2026-04-28 11:35 KST

무엇이 있었나

Phase 2 Day 0 셋업이 끝난 시점에서, 본 실험의 측정 설계(01-experiment-design.md §6)가 산업/학술 표준에 비추어 어디 서 있는지 확인하기 위해 사전 리서치를 수행. 검색 8건, 페이지 fetch 2건. 수집 결과를 네 축으로 정리.

1) 학술 벤치마크 (4 카테고리)

카테고리	대표 벤치마크	측정 대상
Function Calling / Tool Use	BFCL (Berkeley Function Calling Leaderboard), ToolBench (16k+ REST APIs), ComplexFuncBench, τ-bench / τ²-bench (Sierra)	툴 선택·인자 정확도, 멀티스텝 호출, 정책 준수
General Assistant / Reasoning	GAIA (165 검증 문항, multi-step 추론), AgentBench (Tsinghua, 8 환경), SimpleQA	일반 보조 능력, 도메인 폭
Coding / SWE	SWE-bench (2,294 GitHub 이슈), LiveCodeBench, SWE-PolyBench	실제 코드베이스 패치 능력
Computer / Web Interaction	WebArena, OSWorld / OSWorld-Verified (369 OS 태스크), Mind2Web (137 사이트)	GUI/CLI/브라우저 조작, 멀티앱 워크플로
Memory / Test-time Learning	MemoryAgentBench (ICLR 2026), Evo-Memory (스트리밍, 자기진화), MemoryArena (멀티세션 의존), AMA-Bench (long-horizon)	반복 상호작용에서 경험 재사용·전이

특히 본 실험과 매핑이 강한 두 벤치마크:

τ-bench: customer-service 시뮬레이션. 정책 준수까지 봄(“올바른 작업이지만 정책 위반”은 실패). pass^k 지표(같은 태스크 k번 반복 시 모두 성공한 비율)로 일관성/신뢰성 을 분리 측정. SOTA 함수호출 에이전트도 retail에서 pass^8 < 25%.
MemoryAgentBench / Evo-Memory: 정확 회상·테스트타임 학습·장거리 이해·충돌 해결의 4 능력으로 분해. 학습 곡선(누적 태스크 vs 정확도)을 명시적으로 그림.

2) 산업 평가 플랫폼 (8개)

플랫폼	포지셔닝	비고
LangSmith	프레임워크 무관 trace + 평가, 전체 trajectory 캡처	LangChain 진영의 표준
Braintrust	code/model/human 3종 grader 결합 강조	에이전트 전용 가이드 보유
Langfuse	오픈소스, dev-first tracing + prompt 관리	셀프호스팅 가능
Arize Phoenix	ML 모니터링 헤리티지, span-level trace	오픈소스 라이브러리
Galileo	hallucination 탐지 + 에이전트 trace	메트릭 폭은 상대적으로 좁음
DeepEval (Confident AI)	LLM eval 프레임워크, 에이전트 가이드 별도 제공	pytest 스타일
Maxim	에이전트 평가 종합 플랫폼 비교 다수 발행	마켓맵 자료가 풍부
Adaline	2026 종합 가이드 발행, 단계별 파이프라인 제시	레퍼런스성

3) 평가 방법론 — 4 갈래

Trajectory 평가 vs Outcome 평가
- Outcome: 최종 결과만 (저비용, 양산용 모니터링·1차 검증)
- Trajectory: 추론·툴호출·결정 경로 전체 (디버깅·고위험 결정 검증, 비용 高)
- Vertex AI 명명: trajectory_exact_match, trajectory_precision, trajectory_recall
- 권장: outcome으로 상시 모니터, trajectory는 실패 사례 선택 적용
LLM-as-Judge (자동 정성 평가)
- 설계: 명시 rubric + few-shot + 구조화 JSON 출력 + 점수 전 근거 요구
- 신뢰도: Cronbach’s α로 내부 일관성, 인간 전문가 대비 Spearman 0.80+ 를 프로덕션 임계로
- 실패 모드: position bias, length bias, agreeableness bias. 복잡 평가에서 50%+ 오차, 전문 도메인 인간 일치율 64–68%
- 현실: 74%가 여전히 HITL을 병행
Agent-as-Judge (2025 후반~2026 트렌드)
- 평가용 에이전트가 다른 에이전트의 trajectory를 능동 관찰·툴 사용·추론
- 최종 결과만이 아닌 과정 전체 를 채점
다층 Rubric (3-tier taxonomy)
- 7 primary dimensions (예: comprehensiveness, accuracy, coherence)
- 25 sub-dimensions
- 130 fine-grained, 측정 가능한 rubric items
- 인간 calibration 목표: Spearman 0.80+

4) 평가 파이프라인 (Adaline/Anthropic 권고)

단계	메트릭	트래픽 비중
Offline (배포 전)	회귀 스위트, task completion, tool selection 정확도, reasoning chain 일관성, 에러 복구	100% (큐레이션 데이터셋)
Online (프로덕션 샘플링)	LLM-as-judge 샘플 채점, 휴리스틱 평가자, thumbs up/down	일부 샘플
Monitoring	drift 탐지, 임계 알림	100% 경량

Grader 3종(code / model / human)을 transcript 또는 outcome 의 어느 부분에 붙일지 매핑하는 게 설계의 핵심.

5) 함정 — “벤치마크 게임 가능”

UC Berkeley/RDI 연구가 2026년에 8개 주요 에이전트 벤치마크 모두에서 태스크를 푸는 대신 거의 만점을 받을 수 있는 익스플로잇을 보고. 단일 점수에 의존 금지. 여러 벤치를 횡으로 비교 + 정성 검토 병행 이 표준이 되는 추세.

왜 그렇게 갔나

본 실험의 현재 측정 설계(§6)는 7개 지표(TTC, 개입수, 셋업분, 셋업 가능여부, 결과품질 1–5, 반복 가속, 누적 자산)로 구성. 검토하니:

본 실험 지표	산업/학술 매핑	갭
TTC	outcome 메트릭, latency	OK
개입 횟수	trajectory 추적의 거친 근사	trajectory_precision / tool-use 정확도까지는 못 봄
셋업 비용·가능여부	usability/HITL의 일부, 기존 벤치엔 거의 없음	본 실험의 차별점 — 그대로 유지가 강점
결과 품질 1–5	인간 채점 (HITL gold standard)	rubric 분해 부재. 7-25-130 식으로 한 단계만 분해해도 신뢰도 ↑
반복 가속	MemoryAgentBench/Evo-Memory의 핵심 축	단일 metric(% 빨라졌나)뿐 — 정확도 회복/전이까지 본다면 더 풍부
누적 자산	학습 효과의 증거(proxy)	OK, 정성 보강 가능

빠진 축:

Trajectory 레벨 평가: 어떤 툴을 어떤 순서로, 인자 어떻게 줬나. OpenClaw의 “통합 강점” 주장을 검증/반증 할 수 있는 핵심 축.
pass^k 류 일관성: 같은 태스크 1회 성공이 다음에도 재현되는지. H2 가설(반복학습)에 직결.
LLM-as-judge 자동 정성 평가: 결과 품질 1–5를 일부라도 자동화 가능 (다만 bias 큼 → 인간과 calibration 필요).
Agent-as-judge: 아직 실험 단계지만, 우리 실험의 trajectory 비교에 적합 — 두 에이전트의 로그를 제3 에이전트가 비교 채점.

또한 단일 벤치 점수 게임 가능성은 본 실험엔 직접 위협이 아님(우리는 한 페르소나로 양 도구를 비교하는 controlled study). 다만 한 지표만 보지 말라 는 교훈은 적용됨 → 결정 매트릭스(§9)는 이미 다축이라 OK.

무엇이 남았나

다음 단계로 직결되는 적용 후보

pass^k 도입 검토: T1·T8 같은 정형 태스크는 같은 자연어 지시를 3회 돌려 “1회 성공률” 과 “3회 모두 성공률(pass^3)” 을 분리 기록. 추가 비용 거의 없음. → 02-constraints.md C5(측정 무결성)에 보강 가능.
결과 품질 1–5의 rubric 분해: 한 차원을 3–5개 sub-dimension으로 나눠 점수화 (예: T1 공지문 → 정확성·톤 적합·플랫폼별 변형·즉시 발송 가능 여부). 이게 §6의 “1~5 (그대로 발송 가능…)” 의 정량 계승.
Trajectory 로그 캡처: 이미 hook으로 logs/history-${EXPERIMENT_TOOL}.jsonl 에 PostToolUse/PreToolUse 다 떨어지므로, “어떤 툴을 몇 번 어느 순서로 썼나” 는 공짜로 얻어지는 trajectory 데이터. 분석 스크립트 한 장이면 trajectory_precision 근사치 산출 가능.
LLM-as-judge 시범: 결과 품질 채점을 codex CLI로 한 번 돌려, 민지(인간) 점수와 Spearman 상관 측정. 0.7+ 나오면 보조 평가자로 채택, 0.5 이하면 폐기.
MemoryAgentBench 4축으로 H2 재정의: 현재 H2(“반복 업무를 알아서 패턴화”)를 (a) 정확 회상 (b) 테스트타임 학습 (c) 장거리 이해 (d) 충돌 해결 로 분해. Hermes의 학습이 어디에 강하고 어디에 약한지 분리 가능.

다음 turn에 user가 결정해야 할 것

위 5개 적용 후보 중 어느 것을 §6에 정식 편입할 것인가? 전부 다 쓰면 측정 부담↑(민지 모드 위반 우려). 1–3은 거의 공짜, 4–5는 별도 셋업.
정식 적용은 새 history 엔트리(23 …)에서 결정 commit으로 분리 기록.

미수집 / 후속 리서치 후보

Anthropic “Demystifying evals for AI agents” 페이지 풀 fetch 안 함 — 에이전트 specific guidance가 있을 가능성. 다음 turn에 필요시.
McKinsey QuantumBlack “Evaluations for the agentic world” — 비즈니스 outcome 측면, 본 실험엔 우선순위 낮음.
Berkeley HAL 리더보드 (2026-04 기준 Claude Sonnet 4.5 GAIA 1위 74.6%) — 모델 차원 지형도, 본 실험은 모델을 Codex로 통일했으므로 직접 영향 X.

출처

학술 벤치마크 컴펜디엄: https://github.com/philschmid/ai-agent-benchmark-compendium
τ-bench 논문: https://arxiv.org/abs/2406.12045 · 코드: https://github.com/sierra-research/tau-bench
τ²-bench (dual-control 확장): https://arxiv.org/pdf/2506.07982
MemoryAgentBench (ICLR 2026): https://github.com/HUST-AI-HYZ/MemoryAgentBench
Evo-Memory: https://arxiv.org/abs/2511.20857
MemoryArena: https://arxiv.org/abs/2602.16313
Galileo Agent Eval Framework: https://galileo.ai/blog/agent-evaluation-framework-metrics-rubrics-benchmarks
Adaline 종합 가이드: https://www.adaline.ai/blog/complete-guide-llm-ai-agent-evaluation-2026
Anthropic Demystifying evals: https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
LLM-as-judge 가이드 (Evidently): https://www.evidentlyai.com/llm-guide/llm-as-a-judge
Agent-as-Judge 서베이: https://arxiv.org/html/2508.02994v1
Berkeley RDI “How We Broke Top AI Agent Benchmarks”: https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
Braintrust agent eval: https://www.braintrust.dev/blog/evaluating-agents
LangSmith eval 페이지: https://www.langchain.com/langsmith/evaluation