06. GAIA · AgentBench
1. 정의
섹션 제목: “1. 정의”이번 장은 두 범용 보조 (general assistant) 벤치마크를 같이 본다. 둘 다 “모든 걸 시켜본다” 류지만 철학이 다르다.
- GAIA (Mialon et al., Meta 2023) — 165개 검증 문항. 인간에게 쉽지만 AI에 어려운 멀티-스텝 추론 + 도구 사용 + 멀티모달을 묶은 종합 평가.
- AgentBench (Liu et al., Tsinghua 2023) — 8개 분리된 환경에서 에이전트의 결정 능력 측정. OS shell, DB SQL, KG, card game, 가상 가사, 웹 쇼핑, 웹 브라우징, 측면사고 퍼즐.
GAIA는 “한 에이전트가 모든 종류의 질문에 답하나”를 보고, AgentBench는 “여러 환경에서 분야별 강약이 어떻게 나뉘나”를 본다.
2. 핵심 메커니즘
섹션 제목: “2. 핵심 메커니즘”2.1 GAIA — 165 문항의 구조
섹션 제목: “2.1 GAIA — 165 문항의 구조”GAIA 검증셋은 3 레벨로 나뉜다:
- Level 1: ≤ 5 step, 단일 도구. 사람 ~10초.
- Level 2: 5–10 step, 다도구. 사람 ~1분.
- Level 3: 10+ step, 멀티모달, 외부 검색·코드·이미지 인식 등. 사람 수 분.
각 문항은 단일 정답을 갖고, 자동 채점 (exact match 또는 numeric tolerance). 답안만 leaderboard에 제출 — 코드/trajectory 비공개. 즉 외부 도구 호출은 채점되지 않고 결과만 본다.
예시 (paraphrase):
- L1: “이 사진의 새 종을 알려줘”
- L2: “Wikipedia에서 X 영화 감독을 찾고, 그 감독의 첫 번째 장편 영화의 개봉년도를 답해라”
- L3: 첨부된 PDF를 읽고, 표를 분석하고, 외부에서 통계를 끌어와 비교 — 같은 식
2.2 GAIA의 의의
섹션 제목: “2.2 GAIA의 의의”당시 (2023) 충격적이었던 점: 인간 92% vs GPT-4 + 플러그인 15%. 평소 코드 생성·번역에서 탁월한 모델이 사람에겐 단순한 절차적 multi-step 에서 폭락. 에이전트 시대가 시작된 자극원 중 하나.
2026-04 기준 (Princeton HAL 리더보드): Claude Sonnet 4.5 가 74.6% 로 1위. 인간 92%까진 멀지만 격차는 좁혀짐.
2.3 GAIA 비판과 재현성
섹션 제목: “2.3 GAIA 비판과 재현성”GAIA 문항은 시간이 지나며 답이 바뀐다 (Wikipedia 편집·웹 정보 변동). 또 검색엔진 결과 자체가 모델별로 다르게 나오기도. 따라서:
- 문항 품질이 시간에 따라 잠식 됨 (GAIA-2 같은 후속작 제안 多)
- 정답 라벨이 stale 가능
- 답만 제출하므로 어떻게 풀었는지 검증 불가 → 답 캐싱·웹 룩업으로 우회 가능 (13장)
2.4 AgentBench — 8 환경
섹션 제목: “2.4 AgentBench — 8 환경”| 환경 | 능력 | 측정 |
|---|---|---|
| OS (bash) | 셸 명령 사용 | exit code, 파일 결과 |
| DB | SQL 작성 | 쿼리 결과 |
| Knowledge Graph | KG query (Wikidata) | 엔티티 정확도 |
| Digital Card Game | 의사결정 | 승률 |
| Lateral Thinking | 측면 사고 퍼즐 | 정답 |
| House-holding | 가상 환경 행동 (ALFWorld 류) | 목표 달성 step |
| Web Shopping | 검색·필터·구매 (WebShop) | 매치 점수 |
| Web Browsing | 정보 수집 | 정답 |
각 환경에서 별도 점수 → 합산 또는 차원별. 한 모델이 OS는 강한데 KG는 약하다 같은 프로파일을 그릴 수 있음.
의의: 에이전트의 분야별 비대칭을 드러냄. 단일 점수로 “어느 에이전트가 더 좋다”가 답이 아닐 수 있음을 보여준 첫 종합 벤치.
2.5 AgentBench 비판
섹션 제목: “2.5 AgentBench 비판”- 환경 8개라지만 대부분이 텍스트 기반. 진짜 멀티모달·GUI·OS 작업의 깊이가 얕음 → OSWorld 같은 후속이 등장 (08장).
- 환경별 평가 방법이 제각각 → 점수 합산이 공정한가 의문.
- Card game 같은 건 “에이전트 능력”이라기보다 “특정 게임 룰 학습”. 일반화 여부 불분명.
3. 강점과 약점
섹션 제목: “3. 강점과 약점”GAIA
섹션 제목: “GAIA”| 강점 | 약점 |
|---|---|
| 단일 정답 → 자동 채점 | 답 캐싱·웹 룩업 우회 가능 |
| 멀티-스텝·멀티모달 강점 | 답안만 제출 — trajectory 검증 X |
| 인간 baseline이 명확(92%) | 시간에 따라 답 stale |
| 165개로 적은 N — 빠른 반복 가능 | 적은 N 때문에 통계 신뢰도 약 |
AgentBench
섹션 제목: “AgentBench”| 강점 | 약점 |
|---|---|
| 분야별 프로파일링 | 환경 8개의 깊이가 얕음 |
| 다양한 능력 한 번에 | 환경별 채점 비균질 |
| 첫 종합 시도 | 더 깊은 전문 벤치(OSWorld, SWE-bench)에 자리 내줌 |
4. 대안과의 비교
섹션 제목: “4. 대안과의 비교”| 벤치 | 측정하는 것 | 적합 케이스 |
|---|---|---|
| GAIA | 멀티-스텝 추론 + 도구 + 멀티모달 종합 | ”범용 보조 능력 한 줄” 비교 |
| AgentBench | 환경별 프로파일 | 분야 강약 분석 |
| τ-bench (5장) | 정책 준수 + 일관성 | 고객 응대 |
| OSWorld (8장) | 진짜 OS GUI 작업 | desktop 자동화 |
| SWE-bench (7장) | 코드 패치 | 개발자 도구 |
| Helm / MMLU | 지식·추론 (non-agent) | LLM 자체 능력 (에이전트 X) |
GAIA는 Level 3에서 agent-like 가 됨. Level 1은 사실 LLM 단일 호출만으로도 가능. AgentBench는 좀 더 환경 상호작용 위주.
5. 우리 실험에의 적용
섹션 제목: “5. 우리 실험에의 적용”GAIA·AgentBench는 학술적 표준 어휘로서 알아둘 가치는 크지만, 본 실험에 직접 적용은 거의 무다. 이유:
- GAIA는 단일 정답 문항 — 우리는 자유형 산출물 (공지, 메일, 회고)
- AgentBench는 추상 환경 — 우리는 실제 (시뮬레이션) 커뮤니티 운영
- 두 벤치 모두 모델 능력 비교용 — 우리는 에이전트 설계 (학습 vs 셋업) 비교
유일한 적용 자리: 우리가 사용하는 백엔드 모델(Codex CLI = ChatGPT 구독 GPT-X) 의 기본 능력 수준을 GAIA leaderboard로 컨텍스트화. “우리는 X% 베이스라인 모델로 실험했다” 로 외부 신뢰성 확보.
또한 — AgentBench의 프로파일링 사고방식 은 가져올 가치. 우리도 단일 종합 점수가 아니라 태스크 카테고리별 (이벤트 / 사람관리 / 일상관리) 점수를 분리해 보고. 이건 §6에 이미 어느 정도 반영됨 (T1–T10 분리 기록).
결정 — 채택 안 함, 어휘만 활용
섹션 제목: “결정 — 채택 안 함, 어휘만 활용”- 본 실험에 GAIA/AgentBench 직접 도입 X
- 보고서 작성 시 “본 실험은 GAIA·AgentBench 류의 능력 평가가 아닌 워크플로 적합성 평가임” 명시 (오해 방지)
- AgentBench-style 카테고리 프로파일링은 이미 우리 설계에 내포
6. 더 읽을거리
섹션 제목: “6. 더 읽을거리”- Mialon et al., “GAIA: a benchmark for General AI Assistants” (2023) — GAIA 원 논문, 165 검증 문항과 3 Level 구조
- Liu et al., “AgentBench: Evaluating LLMs as Agents” (ICLR 2024) — 8 환경 종합 벤치의 원 논문
- Princeton HAL 리더보드 — GAIA·SWE-bench 등 통합 leaderboard (Claude Sonnet 4.5 GAIA 1위 74.6% 출처)
- Berkeley RDI, “How We Broke Top AI Agent Benchmarks” — GAIA·AgentBench 점수 익스플로잇 사례 (본 시리즈 13장에서 상세)
다음 장 미리보기
섹션 제목: “다음 장 미리보기”GAIA·AgentBench는 일반론이고, 코딩 만큼 실측 가능한 영역도 없다. SWE-bench 계열 (2,294 GitHub 이슈 → 패치 → 테스트 통과?) 의 메커니즘과 의의. 07장.
이 장에서 확실히 알아야 하는 것
섹션 제목: “이 장에서 확실히 알아야 하는 것”- GAIA의 3 Level 정의를 안다.
- GAIA가 답안만 제출 → trajectory 검증 불가의 한계를 안다.
- AgentBench의 8 환경을 적어도 5개 외울 수 있다.
- 두 벤치 모두 모델 능력 평가지 에이전트 설계 평가가 아니라는 점을 안다.
- 우리 실험에 두 벤치를 직접 도입하지 않는 이유를 한 줄로 설명할 수 있다.