콘텐츠로 이동

06. GAIA · AgentBench

이번 장은 두 범용 보조 (general assistant) 벤치마크를 같이 본다. 둘 다 “모든 걸 시켜본다” 류지만 철학이 다르다.

  • GAIA (Mialon et al., Meta 2023) — 165개 검증 문항. 인간에게 쉽지만 AI에 어려운 멀티-스텝 추론 + 도구 사용 + 멀티모달을 묶은 종합 평가.
  • AgentBench (Liu et al., Tsinghua 2023) — 8개 분리된 환경에서 에이전트의 결정 능력 측정. OS shell, DB SQL, KG, card game, 가상 가사, 웹 쇼핑, 웹 브라우징, 측면사고 퍼즐.

GAIA는 “한 에이전트가 모든 종류의 질문에 답하나”를 보고, AgentBench는 “여러 환경에서 분야별 강약이 어떻게 나뉘나”를 본다.

GAIA 검증셋은 3 레벨로 나뉜다:

  • Level 1: ≤ 5 step, 단일 도구. 사람 ~10초.
  • Level 2: 5–10 step, 다도구. 사람 ~1분.
  • Level 3: 10+ step, 멀티모달, 외부 검색·코드·이미지 인식 등. 사람 수 분.

각 문항은 단일 정답을 갖고, 자동 채점 (exact match 또는 numeric tolerance). 답안만 leaderboard에 제출 — 코드/trajectory 비공개. 즉 외부 도구 호출은 채점되지 않고 결과만 본다.

예시 (paraphrase):

  • L1: “이 사진의 새 종을 알려줘”
  • L2: “Wikipedia에서 X 영화 감독을 찾고, 그 감독의 첫 번째 장편 영화의 개봉년도를 답해라”
  • L3: 첨부된 PDF를 읽고, 표를 분석하고, 외부에서 통계를 끌어와 비교 — 같은 식

당시 (2023) 충격적이었던 점: 인간 92% vs GPT-4 + 플러그인 15%. 평소 코드 생성·번역에서 탁월한 모델이 사람에겐 단순한 절차적 multi-step 에서 폭락. 에이전트 시대가 시작된 자극원 중 하나.

2026-04 기준 (Princeton HAL 리더보드): Claude Sonnet 4.5 가 74.6% 로 1위. 인간 92%까진 멀지만 격차는 좁혀짐.

GAIA 문항은 시간이 지나며 답이 바뀐다 (Wikipedia 편집·웹 정보 변동). 또 검색엔진 결과 자체가 모델별로 다르게 나오기도. 따라서:

  • 문항 품질이 시간에 따라 잠식 됨 (GAIA-2 같은 후속작 제안 多)
  • 정답 라벨이 stale 가능
  • 답만 제출하므로 어떻게 풀었는지 검증 불가 → 답 캐싱·웹 룩업으로 우회 가능 (13장)
환경능력측정
OS (bash)셸 명령 사용exit code, 파일 결과
DBSQL 작성쿼리 결과
Knowledge GraphKG query (Wikidata)엔티티 정확도
Digital Card Game의사결정승률
Lateral Thinking측면 사고 퍼즐정답
House-holding가상 환경 행동 (ALFWorld 류)목표 달성 step
Web Shopping검색·필터·구매 (WebShop)매치 점수
Web Browsing정보 수집정답

각 환경에서 별도 점수 → 합산 또는 차원별. 한 모델이 OS는 강한데 KG는 약하다 같은 프로파일을 그릴 수 있음.

의의: 에이전트의 분야별 비대칭을 드러냄. 단일 점수로 “어느 에이전트가 더 좋다”가 답이 아닐 수 있음을 보여준 첫 종합 벤치.

  • 환경 8개라지만 대부분이 텍스트 기반. 진짜 멀티모달·GUI·OS 작업의 깊이가 얕음 → OSWorld 같은 후속이 등장 (08장).
  • 환경별 평가 방법이 제각각 → 점수 합산이 공정한가 의문.
  • Card game 같은 건 “에이전트 능력”이라기보다 “특정 게임 룰 학습”. 일반화 여부 불분명.
강점약점
단일 정답 → 자동 채점답 캐싱·웹 룩업 우회 가능
멀티-스텝·멀티모달 강점답안만 제출 — trajectory 검증 X
인간 baseline이 명확(92%)시간에 따라 답 stale
165개로 적은 N — 빠른 반복 가능적은 N 때문에 통계 신뢰도 약
강점약점
분야별 프로파일링환경 8개의 깊이가 얕음
다양한 능력 한 번에환경별 채점 비균질
첫 종합 시도더 깊은 전문 벤치(OSWorld, SWE-bench)에 자리 내줌
벤치측정하는 것적합 케이스
GAIA멀티-스텝 추론 + 도구 + 멀티모달 종합”범용 보조 능력 한 줄” 비교
AgentBench환경별 프로파일분야 강약 분석
τ-bench (5장)정책 준수 + 일관성고객 응대
OSWorld (8장)진짜 OS GUI 작업desktop 자동화
SWE-bench (7장)코드 패치개발자 도구
Helm / MMLU지식·추론 (non-agent)LLM 자체 능력 (에이전트 X)

GAIA는 Level 3에서 agent-like 가 됨. Level 1은 사실 LLM 단일 호출만으로도 가능. AgentBench는 좀 더 환경 상호작용 위주.

GAIA·AgentBench는 학술적 표준 어휘로서 알아둘 가치는 크지만, 본 실험에 직접 적용은 거의 무다. 이유:

  • GAIA는 단일 정답 문항 — 우리는 자유형 산출물 (공지, 메일, 회고)
  • AgentBench는 추상 환경 — 우리는 실제 (시뮬레이션) 커뮤니티 운영
  • 두 벤치 모두 모델 능력 비교용 — 우리는 에이전트 설계 (학습 vs 셋업) 비교

유일한 적용 자리: 우리가 사용하는 백엔드 모델(Codex CLI = ChatGPT 구독 GPT-X) 의 기본 능력 수준을 GAIA leaderboard로 컨텍스트화. “우리는 X% 베이스라인 모델로 실험했다” 로 외부 신뢰성 확보.

또한 — AgentBench의 프로파일링 사고방식 은 가져올 가치. 우리도 단일 종합 점수가 아니라 태스크 카테고리별 (이벤트 / 사람관리 / 일상관리) 점수를 분리해 보고. 이건 §6에 이미 어느 정도 반영됨 (T1–T10 분리 기록).

결정 — 채택 안 함, 어휘만 활용

섹션 제목: “결정 — 채택 안 함, 어휘만 활용”
  • 본 실험에 GAIA/AgentBench 직접 도입 X
  • 보고서 작성 시 “본 실험은 GAIA·AgentBench 류의 능력 평가가 아닌 워크플로 적합성 평가임” 명시 (오해 방지)
  • AgentBench-style 카테고리 프로파일링은 이미 우리 설계에 내포

GAIA·AgentBench는 일반론이고, 코딩 만큼 실측 가능한 영역도 없다. SWE-bench 계열 (2,294 GitHub 이슈 → 패치 → 테스트 통과?) 의 메커니즘과 의의. 07장.

이 장에서 확실히 알아야 하는 것

섹션 제목: “이 장에서 확실히 알아야 하는 것”
  • GAIA의 3 Level 정의를 안다.
  • GAIA가 답안만 제출 → trajectory 검증 불가의 한계를 안다.
  • AgentBench의 8 환경을 적어도 5개 외울 수 있다.
  • 두 벤치 모두 모델 능력 평가지 에이전트 설계 평가가 아니라는 점을 안다.
  • 우리 실험에 두 벤치를 직접 도입하지 않는 이유를 한 줄로 설명할 수 있다.