06. GAIA · AgentBench

한 줄: “범용 AI 비서가 얼마나 잘 하는가”를 묻는 두 종합 평가지 — GAIA는 어려운 한 문제에 답하는지, AgentBench는 여러 환경(쉘/DB/웹)에서 분야별 강약을 측정.

비유: GAIA는 “수능형 종합 시험”(한 문제에 추론·도구·멀티모달 다 필요), AgentBench는 “8개 과목 시험”(과목별 점수표).

이 문서에서 챙길 3가지

1. 정의

이번 장은 두 범용 보조 (general assistant) 벤치마크를 같이 본다. 둘 다 “모든 걸 시켜본다” 류지만 철학이 다르다.

GAIA (Mialon et al., Meta 2023) — 165개 검증 문항. 인간에게 쉽지만 AI에 어려운 멀티-스텝 추론 + 도구 사용 + 멀티모달을 묶은 종합 평가.
AgentBench (Liu et al., Tsinghua 2023) — 8개 분리된 환경에서 에이전트의 결정 능력 측정. OS shell, DB SQL, KG, card game, 가상 가사, 웹 쇼핑, 웹 브라우징, 측면사고 퍼즐.

GAIA는 “한 에이전트가 모든 종류의 질문에 답하나”를 보고, AgentBench는 “여러 환경에서 분야별 강약이 어떻게 나뉘나”를 본다.

GAIA 검증셋은 3 레벨로 나뉜다:

각 문항은 단일 정답을 갖고, 자동 채점 (exact match 또는 numeric tolerance). 답안만 leaderboard에 제출 — 코드/trajectory 비공개. 즉 외부 도구 호출은 채점되지 않고 결과만 본다.

예시 (paraphrase):

당시 (2023) 충격적이었던 점: 인간 92% vs GPT-4 + 플러그인 15%. 평소 코드 생성·번역에서 탁월한 모델이 사람에겐 단순한 절차적 multi-step 에서 폭락. 에이전트 시대가 시작된 자극원 중 하나.

2026-04 기준 (Princeton HAL 리더보드): Claude Sonnet 4.5 가 74.6% 로 1위. 인간 92%까진 멀지만 격차는 좁혀짐.

GAIA 문항은 시간이 지나며 답이 바뀐다 (Wikipedia 편집·웹 정보 변동). 또 검색엔진 결과 자체가 모델별로 다르게 나오기도. 따라서:

각 환경에서 별도 점수 → 합산 또는 차원별. 한 모델이 OS는 강한데 KG는 약하다 같은 프로파일을 그릴 수 있음.

의의: 에이전트의 분야별 비대칭을 드러냄. 단일 점수로 “어느 에이전트가 더 좋다”가 답이 아닐 수 있음을 보여준 첫 종합 벤치.

강점	약점
분야별 프로파일링	환경 8개의 깊이가 얕음
다양한 능력 한 번에	환경별 채점 비균질
첫 종합 시도	더 깊은 전문 벤치(OSWorld, SWE-bench)에 자리 내줌

GAIA는 Level 3에서 agent-like 가 됨. Level 1은 사실 LLM 단일 호출만으로도 가능. AgentBench는 좀 더 환경 상호작용 위주.

GAIA·AgentBench는 학술적 표준 어휘로서 알아둘 가치는 크지만, 본 실험에 직접 적용은 거의 무다. 이유:

유일한 적용 자리: 우리가 사용하는 백엔드 모델(Codex CLI = ChatGPT 구독 GPT-X) 의 기본 능력 수준을 GAIA leaderboard로 컨텍스트화. “우리는 X% 베이스라인 모델로 실험했다” 로 외부 신뢰성 확보.

또한 — AgentBench의 프로파일링 사고방식 은 가져올 가치. 우리도 단일 종합 점수가 아니라 태스크 카테고리별 (이벤트 / 사람관리 / 일상관리) 점수를 분리해 보고. 이건 §6에 이미 어느 정도 반영됨 (T1–T10 분리 기록).

Mialon et al., “GAIA: a benchmark for General AI Assistants” (2023) — GAIA 원 논문, 165 검증 문항과 3 Level 구조
Liu et al., “AgentBench: Evaluating LLMs as Agents” (ICLR 2024) — 8 환경 종합 벤치의 원 논문
Princeton HAL 리더보드 — GAIA·SWE-bench 등 통합 leaderboard (Claude Sonnet 4.5 GAIA 1위 74.6% 출처)
Berkeley RDI, “How We Broke Top AI Agent Benchmarks” — GAIA·AgentBench 점수 익스플로잇 사례 (본 시리즈 13장에서 상세)

GAIA·AgentBench는 일반론이고, 코딩 만큼 실측 가능한 영역도 없다. SWE-bench 계열 (2,294 GitHub 이슈 → 패치 → 테스트 통과?) 의 메커니즘과 의의. 07장.