콘텐츠로 이동

[보관] 24. 에이전트 평가 리서치 — 툴/프레임워크/벤치마크/지표 지형도

시각: 2026-04-28 11:35 KST

Phase 2 Day 0 셋업이 끝난 시점에서, 본 실험의 측정 설계(01-experiment-design.md §6)가 산업/학술 표준에 비추어 어디 서 있는지 확인하기 위해 사전 리서치를 수행. 검색 8건, 페이지 fetch 2건. 수집 결과를 네 축으로 정리.

카테고리대표 벤치마크측정 대상
Function Calling / Tool UseBFCL (Berkeley Function Calling Leaderboard), ToolBench (16k+ REST APIs), ComplexFuncBench, τ-bench / τ²-bench (Sierra)툴 선택·인자 정확도, 멀티스텝 호출, 정책 준수
General Assistant / ReasoningGAIA (165 검증 문항, multi-step 추론), AgentBench (Tsinghua, 8 환경), SimpleQA일반 보조 능력, 도메인 폭
Coding / SWESWE-bench (2,294 GitHub 이슈), LiveCodeBench, SWE-PolyBench실제 코드베이스 패치 능력
Computer / Web InteractionWebArena, OSWorld / OSWorld-Verified (369 OS 태스크), Mind2Web (137 사이트)GUI/CLI/브라우저 조작, 멀티앱 워크플로
Memory / Test-time LearningMemoryAgentBench (ICLR 2026), Evo-Memory (스트리밍, 자기진화), MemoryArena (멀티세션 의존), AMA-Bench (long-horizon)반복 상호작용에서 경험 재사용·전이

특히 본 실험과 매핑이 강한 두 벤치마크:

  • τ-bench: customer-service 시뮬레이션. 정책 준수까지 봄(“올바른 작업이지만 정책 위반”은 실패). pass^k 지표(같은 태스크 k번 반복 시 모두 성공한 비율)로 일관성/신뢰성 을 분리 측정. SOTA 함수호출 에이전트도 retail에서 pass^8 < 25%.
  • MemoryAgentBench / Evo-Memory: 정확 회상·테스트타임 학습·장거리 이해·충돌 해결의 4 능력으로 분해. 학습 곡선(누적 태스크 vs 정확도)을 명시적으로 그림.
플랫폼포지셔닝비고
LangSmith프레임워크 무관 trace + 평가, 전체 trajectory 캡처LangChain 진영의 표준
Braintrustcode/model/human 3종 grader 결합 강조에이전트 전용 가이드 보유
Langfuse오픈소스, dev-first tracing + prompt 관리셀프호스팅 가능
Arize PhoenixML 모니터링 헤리티지, span-level trace오픈소스 라이브러리
Galileohallucination 탐지 + 에이전트 trace메트릭 폭은 상대적으로 좁음
DeepEval (Confident AI)LLM eval 프레임워크, 에이전트 가이드 별도 제공pytest 스타일
Maxim에이전트 평가 종합 플랫폼 비교 다수 발행마켓맵 자료가 풍부
Adaline2026 종합 가이드 발행, 단계별 파이프라인 제시레퍼런스성
  1. Trajectory 평가 vs Outcome 평가

    • Outcome: 최종 결과만 (저비용, 양산용 모니터링·1차 검증)
    • Trajectory: 추론·툴호출·결정 경로 전체 (디버깅·고위험 결정 검증, 비용 高)
    • Vertex AI 명명: trajectory_exact_match, trajectory_precision, trajectory_recall
    • 권장: outcome으로 상시 모니터, trajectory는 실패 사례 선택 적용
  2. LLM-as-Judge (자동 정성 평가)

    • 설계: 명시 rubric + few-shot + 구조화 JSON 출력 + 점수 전 근거 요구
    • 신뢰도: Cronbach’s α로 내부 일관성, 인간 전문가 대비 Spearman 0.80+ 를 프로덕션 임계로
    • 실패 모드: position bias, length bias, agreeableness bias. 복잡 평가에서 50%+ 오차, 전문 도메인 인간 일치율 64–68%
    • 현실: 74%가 여전히 HITL을 병행
  3. Agent-as-Judge (2025 후반~2026 트렌드)

    • 평가용 에이전트가 다른 에이전트의 trajectory를 능동 관찰·툴 사용·추론
    • 최종 결과만이 아닌 과정 전체 를 채점
  4. 다층 Rubric (3-tier taxonomy)

    • 7 primary dimensions (예: comprehensiveness, accuracy, coherence)
    • 25 sub-dimensions
    • 130 fine-grained, 측정 가능한 rubric items
    • 인간 calibration 목표: Spearman 0.80+

4) 평가 파이프라인 (Adaline/Anthropic 권고)

섹션 제목: “4) 평가 파이프라인 (Adaline/Anthropic 권고)”
단계메트릭트래픽 비중
Offline (배포 전)회귀 스위트, task completion, tool selection 정확도, reasoning chain 일관성, 에러 복구100% (큐레이션 데이터셋)
Online (프로덕션 샘플링)LLM-as-judge 샘플 채점, 휴리스틱 평가자, thumbs up/down일부 샘플
Monitoringdrift 탐지, 임계 알림100% 경량

Grader 3종(code / model / human)을 transcript 또는 outcome 의 어느 부분에 붙일지 매핑하는 게 설계의 핵심.

5) 함정 — “벤치마크 게임 가능”

섹션 제목: “5) 함정 — “벤치마크 게임 가능””

UC Berkeley/RDI 연구가 2026년에 8개 주요 에이전트 벤치마크 모두에서 태스크를 푸는 대신 거의 만점을 받을 수 있는 익스플로잇을 보고. 단일 점수에 의존 금지. 여러 벤치를 횡으로 비교 + 정성 검토 병행 이 표준이 되는 추세.

본 실험의 현재 측정 설계(§6)는 7개 지표(TTC, 개입수, 셋업분, 셋업 가능여부, 결과품질 1–5, 반복 가속, 누적 자산)로 구성. 검토하니:

본 실험 지표산업/학술 매핑
TTCoutcome 메트릭, latencyOK
개입 횟수trajectory 추적의 거친 근사trajectory_precision / tool-use 정확도까지는 못 봄
셋업 비용·가능여부usability/HITL의 일부, 기존 벤치엔 거의 없음본 실험의 차별점 — 그대로 유지가 강점
결과 품질 1–5인간 채점 (HITL gold standard)rubric 분해 부재. 7-25-130 식으로 한 단계만 분해해도 신뢰도 ↑
반복 가속MemoryAgentBench/Evo-Memory의 핵심 축단일 metric(% 빨라졌나)뿐 — 정확도 회복/전이까지 본다면 더 풍부
누적 자산학습 효과의 증거(proxy)OK, 정성 보강 가능

빠진 축:

  • Trajectory 레벨 평가: 어떤 툴을 어떤 순서로, 인자 어떻게 줬나. OpenClaw의 “통합 강점” 주장을 검증/반증 할 수 있는 핵심 축.
  • pass^k 류 일관성: 같은 태스크 1회 성공이 다음에도 재현되는지. H2 가설(반복학습)에 직결.
  • LLM-as-judge 자동 정성 평가: 결과 품질 1–5를 일부라도 자동화 가능 (다만 bias 큼 → 인간과 calibration 필요).
  • Agent-as-judge: 아직 실험 단계지만, 우리 실험의 trajectory 비교에 적합 — 두 에이전트의 로그를 제3 에이전트가 비교 채점.

또한 단일 벤치 점수 게임 가능성은 본 실험엔 직접 위협이 아님(우리는 한 페르소나로 양 도구를 비교하는 controlled study). 다만 한 지표만 보지 말라 는 교훈은 적용됨 → 결정 매트릭스(§9)는 이미 다축이라 OK.

다음 단계로 직결되는 적용 후보

섹션 제목: “다음 단계로 직결되는 적용 후보”
  1. pass^k 도입 검토: T1·T8 같은 정형 태스크는 같은 자연어 지시를 3회 돌려 “1회 성공률” 과 “3회 모두 성공률(pass^3)” 을 분리 기록. 추가 비용 거의 없음. → 02-constraints.md C5(측정 무결성)에 보강 가능.

  2. 결과 품질 1–5의 rubric 분해: 한 차원을 3–5개 sub-dimension으로 나눠 점수화 (예: T1 공지문 → 정확성·톤 적합·플랫폼별 변형·즉시 발송 가능 여부). 이게 §6의 “1~5 (그대로 발송 가능…)” 의 정량 계승.

  3. Trajectory 로그 캡처: 이미 hook으로 logs/history-${EXPERIMENT_TOOL}.jsonl 에 PostToolUse/PreToolUse 다 떨어지므로, “어떤 툴을 몇 번 어느 순서로 썼나” 는 공짜로 얻어지는 trajectory 데이터. 분석 스크립트 한 장이면 trajectory_precision 근사치 산출 가능.

  4. LLM-as-judge 시범: 결과 품질 채점을 codex CLI로 한 번 돌려, 민지(인간) 점수와 Spearman 상관 측정. 0.7+ 나오면 보조 평가자로 채택, 0.5 이하면 폐기.

  5. MemoryAgentBench 4축으로 H2 재정의: 현재 H2(“반복 업무를 알아서 패턴화”)를 (a) 정확 회상 (b) 테스트타임 학습 (c) 장거리 이해 (d) 충돌 해결 로 분해. Hermes의 학습이 어디에 강하고 어디에 약한지 분리 가능.

다음 turn에 user가 결정해야 할 것

섹션 제목: “다음 turn에 user가 결정해야 할 것”
  • 위 5개 적용 후보 중 어느 것을 §6에 정식 편입할 것인가? 전부 다 쓰면 측정 부담↑(민지 모드 위반 우려). 1–3은 거의 공짜, 4–5는 별도 셋업.
  • 정식 적용은 새 history 엔트리(23 …)에서 결정 commit으로 분리 기록.
  • Anthropic “Demystifying evals for AI agents” 페이지 풀 fetch 안 함 — 에이전트 specific guidance가 있을 가능성. 다음 turn에 필요시.
  • McKinsey QuantumBlack “Evaluations for the agentic world” — 비즈니스 outcome 측면, 본 실험엔 우선순위 낮음.
  • Berkeley HAL 리더보드 (2026-04 기준 Claude Sonnet 4.5 GAIA 1위 74.6%) — 모델 차원 지형도, 본 실험은 모델을 Codex로 통일했으므로 직접 영향 X.