콘텐츠로 이동

08. OSWorld · WebArena · Mind2Web

세 벤치마크 모두 에이전트가 GUI/웹/OS를 진짜 조작하는 능력을 평가한다.

  • OSWorld (Xie et al., 2024): 369개 컴퓨터 태스크 — 웹·데스크톱·OS 파일 I/O·크로스앱 워크플로 — Ubuntu·Windows·macOS 환경. 2025년에 OSWorld-Verified 로 큐레이션·재정비.
  • WebArena (Zhou et al., 2023): 4 카테고리(쇼핑·CMS·소셜포럼·코드협업) 의 재현 가능한 오픈소스 웹앱에서 실제 클릭·폼·검색 태스크 평가.
  • Mind2Web (Deng et al., 2023): 137개 진짜 사이트 (Amazon, Twitter, Github, …)에서 2,000+ 태스크. 정적 trace로 평가 (live X).

세 벤치는 서로 다른 트레이드오프 의 GUI 평가를 보여준다. 단순 비교 가능한 게 아니라 목적이 다르다.

2.1 OSWorld — 진짜 OS, 라이브 환경

섹션 제목: “2.1 OSWorld — 진짜 OS, 라이브 환경”
[VM (Ubuntu/Windows/macOS) + 앱들 사전 설치]
⇅ 스크린샷 + 마우스/키보드 액션
[에이전트 (multimodal LLM)]
⇅ 자연어 태스크
[평가 시스템 — 스크립트로 *최종 상태* 검증]

태스크 예시:

  • “엑셀에서 이 두 파일을 비교하고 차이를 새 시트에 정리”
  • “Chrome에서 X 검색해서 첫 결과를 다운받아 ~/Downloads 에 저장 후 압축”
  • “Calc에서 셀에 함수 작성 → 결과 → Slides에 그래프”

평가: VM 종료 시 파일·DB·앱 상태가 정답 상태와 일치? 자동 스크립트로 검증. 즉 outcome 평가지만 진짜 OS의 상태 라는 점에서 강력.

OSWorld-Verified (2025): 300+ 이슈 수정. 웹 환경 변화·플래키 검증 스크립트·태스크 모호성 해결.

2.2 WebArena — 재현 가능한 가짜 웹

섹션 제목: “2.2 WebArena — 재현 가능한 가짜 웹”

진짜 사이트는 시간에 따라 바뀐다. Amazon은 어제와 오늘의 카테고리가 다르고, 평가가 재현 불가. WebArena의 해법: 자체 호스팅 오픈소스 웹앱들의 클론.

  • E-commerce: OneStopShop (Magento 변형)
  • Social forum: Reddit 클론 (Postmill)
  • Software dev: GitLab 자체호스팅
  • Content management: Adobe Magento Admin

이 환경 안에서 800+ 태스크. 완전히 deterministic. 같은 태스크를 1년 후 돌려도 같은 정답.

태스크 예: “포럼에서 X 주제 글을 찾아 답글 달기”, “쇼핑몰에서 Y 카테고리에서 가장 싼 상품 위시리스트 추가”.

평가: 최종 URL/DB/응답 비교.

2.3 Mind2Web — 진짜 사이트, 정적 trace

섹션 제목: “2.3 Mind2Web — 진짜 사이트, 정적 trace”

WebArena 와 정반대. 진짜 137 사이트에서 사람이 만든 trace를 모음. 평가는 live 실행 X — 정해진 trace의 각 step에서 에이전트가 어떤 element를 클릭/입력해야 하나 를 맞히는 방식.

장점: 진짜 사이트 다양성. 단점: 정적 (실시간 상태 변화 미반영, 진짜 클릭 안 함).

벤치환경평가 방식강점약점
OSWorld진짜 OS VM라이브 + 상태 검증가장 현실적비용 高, flaky
WebArena자체호스팅 웹 클론라이브 + 결과 비교재현 가능진짜 사이트 다양성 X
Mind2Web진짜 사이트 trace정적 step prediction다양성 高진짜 실행 X
강점약점
진짜 사용자 일 에 가까운 평가평가 비용 매우 큼 (VM, 스크린샷, OCR)
멀티모달 (스크린샷 + 액션) 자연스러움모델 multimodal 능력에 의존
멀티앱 워크플로 측정flaky (UI 변경, 네트워크)
정성 평가 안 해도 됨 (상태 비교)평가 스크립트 자체 버그 多

GUI/웹 에이전트 영역의 다른 벤치:

  • WebShop (구식, Amazon-like 단일 사이트)
  • AndroidEnv / MobileEnv (모바일 GUI)
  • VisualWebArena (멀티모달 강화)
  • AgentBench-WB (AgentBench 안의 web shopping/browsing)
  • BrowserGym, WorkArena — 더 현실적 web 자동화

본 시리즈에서 OSWorld·WebArena·Mind2Web 셋만 다루는 이유: 대표성. 이 셋이 GUI 평가의 세 철학(라이브 OS / 재현 가능 웹 / 진짜 사이트 정적) 을 깔끔히 보여준다.

이 카테고리는 본 실험에 가장 간접 영향이 크다. 왜냐하면 우리 페르소나(민지)가 하는 일이 실제로 GUI/웹 조작이기 때문이다 — Discord에서 채널 만들기, Gmail에서 메일 발송, Calendar에서 일정 만들기.

5.1 직접 도입은 부적절 — 우리 환경의 특수성

섹션 제목: “5.1 직접 도입은 부적절 — 우리 환경의 특수성”

OSWorld·WebArena 자체를 도입하면 안 되는 이유:

  • 우리는 MCP 서버 또는 플러그인 으로 외부 통합 (Discord MCP, Gmail tool 등). 진짜 GUI 조작이 아님 (백엔드 API).
  • 우리 페르소나는 “에이전트가 알아서 해줘” 형 — 사람이 GUI 조작하면 페르소나 모드 위반. 즉 실패 데이터.
  • 본 실험은 2 도구 비교 — 절대 점수 X 상대 비교.

5.2 간접 적용 — 외부 통합 정확성 검증 사고방식

섹션 제목: “5.2 간접 적용 — 외부 통합 정확성 검증 사고방식”

OSWorld가 “최종 OS 상태가 정답인가” 를 보듯, 우리도 “Discord 채널에 진짜 공지가 갔나” 를 검증해야 한다. 단순 “공지를 보냈다고 에이전트가 주장” 만으론 부족.

이건 4장 fine-grained 체크리스트의 한 항목으로 들어감:

[Y/N] Discord MCP/플러그인 호출 흔적이 trajectory 로그에 있나
[Y/N] 호출 결과 (channel_id, message_id 등) 가 정상 응답인가
[Y/N] 가짜 Discord 워크스페이스의 해당 채널에 진짜 메시지가 게시되었나 (수동 확인 또는 API 재조회)

OSWorld 식 상태 비교 를 작은 스케일로 가져온 것.

OSWorld의 크로스앱 태스크 (“엑셀 → 슬라이드”, “브라우저 → 다운로드 → 압축”)가 보여주는 것: 한 도구만 쓰는 게 아니라 여러 도구를 잇는 능력 도 능력이다.

우리 T2(신청자 명단 정리), T9(주간 활동 리포트) 가 이런 멀티앱 워크플로다 (Google Form → Sheet → 통계 → 메시지). 도구별로 몇 개 외부 시스템을 횡단했는지 trajectory 분석으로 카운트 가능.

→ 4장의 unique_tools_used 메트릭이 사실 OSWorld 정신의 작은 버전.

5.4 결정 — 직접 도입 X, 검증 사고방식 차용

섹션 제목: “5.4 결정 — 직접 도입 X, 검증 사고방식 차용”
  • 본 실험에 OSWorld/WebArena/Mind2Web 직접 도입 X
  • “외부 통합 정확성” 차원에 상태 비교 사고방식 적용 (실제 채널/메일에 도달했나 검증)
  • 멀티앱 워크플로 측정에 unique tools used 활용

이제 학습 측정으로 간다. 9장은 본 실험의 H2 가설(반복 학습) 에 가장 직결되는 장이다 — MemoryAgentBench, Evo-Memory, MemoryArena의 4축 분해.

이 장에서 확실히 알아야 하는 것

섹션 제목: “이 장에서 확실히 알아야 하는 것”
  • OSWorld·WebArena·Mind2Web의 세 철학 차이를 표 없이 말할 수 있다.
  • OSWorld-Verified 가 왜 만들어졌는지 안다 (큐레이션·플래키 해결).
  • WebArena가 재현성 을 위해 진짜 사이트를 포기했음을 안다.
  • 본 실험의 외부 통합 검증을 OSWorld 식 상태 비교 사고방식으로 설계할 줄 안다.