08. OSWorld · WebArena · Mind2Web

한 줄: AI 에이전트가 실제 컴퓨터·웹·앱을 사람처럼 클릭·타이핑하며 작업할 수 있는지 측정하는 GUI 벤치마크 3종 — 같은 영역인데 트레이드오프가 다 다름.

비유: 자율주행 평가에 비유하면 OSWorld는 “진짜 도로 주행”(라이브 OS), WebArena는 “재현 가능한 통제 코스”(오픈소스 웹앱), Mind2Web은 “녹화된 영상으로 코스 외운 거 채점”(정적 trace).

이 문서에서 챙길 3가지

OSWorld: 진짜 VM에서 진짜 앱 — 가장 현실적, 가장 비싸고 환경 잡음 큼
WebArena: 오픈소스 웹앱 4종을 docker로 띄우고 평가 — 재현성 강점
Mind2Web: 진짜 사이트 trace를 오프라인으로 평가 — 라이브 사이트 변경 영향 차단 (대신 새 사이트는 못 봄)

본 실험은 GUI 자동화가 아니지만, 재현 가능한 환경 vs 진짜 환경 트레이드오프를 이해하는 데 유용.

1. 정의

세 벤치마크 모두 에이전트가 GUI/웹/OS를 진짜 조작하는 능력을 평가한다.

OSWorld (Xie et al., 2024): 369개 컴퓨터 태스크 — 웹·데스크톱·OS 파일 I/O·크로스앱 워크플로 — Ubuntu·Windows·macOS 환경. 2025년에 OSWorld-Verified 로 큐레이션·재정비.
WebArena (Zhou et al., 2023): 4 카테고리(쇼핑·CMS·소셜포럼·코드협업) 의 재현 가능한 오픈소스 웹앱에서 실제 클릭·폼·검색 태스크 평가.
Mind2Web (Deng et al., 2023): 137개 진짜 사이트 (Amazon, Twitter, Github, …)에서 2,000+ 태스크. 정적 trace로 평가 (live X).

세 벤치는 서로 다른 트레이드오프 의 GUI 평가를 보여준다. 단순 비교 가능한 게 아니라 목적이 다르다.

2. 핵심 메커니즘

2.1 OSWorld — 진짜 OS, 라이브 환경

[VM (Ubuntu/Windows/macOS) + 앱들 사전 설치]
        ⇅ 스크린샷 + 마우스/키보드 액션
[에이전트 (multimodal LLM)]
        ⇅ 자연어 태스크
[평가 시스템 — 스크립트로 *최종 상태* 검증]

태스크 예시:

“엑셀에서 이 두 파일을 비교하고 차이를 새 시트에 정리”
“Chrome에서 X 검색해서 첫 결과를 다운받아 ~/Downloads 에 저장 후 압축”
“Calc에서 셀에 함수 작성 → 결과 → Slides에 그래프”

평가: VM 종료 시 파일·DB·앱 상태가 정답 상태와 일치? 자동 스크립트로 검증. 즉 outcome 평가지만 진짜 OS의 상태 라는 점에서 강력.

OSWorld-Verified (2025): 300+ 이슈 수정. 웹 환경 변화·플래키 검증 스크립트·태스크 모호성 해결.

2.2 WebArena — 재현 가능한 가짜 웹

진짜 사이트는 시간에 따라 바뀐다. Amazon은 어제와 오늘의 카테고리가 다르고, 평가가 재현 불가. WebArena의 해법: 자체 호스팅 오픈소스 웹앱들의 클론.

E-commerce: OneStopShop (Magento 변형)
Social forum: Reddit 클론 (Postmill)
Software dev: GitLab 자체호스팅
Content management: Adobe Magento Admin

이 환경 안에서 800+ 태스크. 완전히 deterministic. 같은 태스크를 1년 후 돌려도 같은 정답.

태스크 예: “포럼에서 X 주제 글을 찾아 답글 달기”, “쇼핑몰에서 Y 카테고리에서 가장 싼 상품 위시리스트 추가”.

평가: 최종 URL/DB/응답 비교.

2.3 Mind2Web — 진짜 사이트, 정적 trace

WebArena 와 정반대. 진짜 137 사이트에서 사람이 만든 trace를 모음. 평가는 live 실행 X — 정해진 trace의 각 step에서 에이전트가 어떤 element를 클릭/입력해야 하나 를 맞히는 방식.

장점: 진짜 사이트 다양성. 단점: 정적 (실시간 상태 변화 미반영, 진짜 클릭 안 함).

2.4 세 벤치 비교

벤치	환경	평가 방식	강점	약점
OSWorld	진짜 OS VM	라이브 + 상태 검증	가장 현실적	비용 高, flaky
WebArena	자체호스팅 웹 클론	라이브 + 결과 비교	재현 가능	진짜 사이트 다양성 X
Mind2Web	진짜 사이트 trace	정적 step prediction	다양성 高	진짜 실행 X

3. 강점과 약점 (공통)

강점	약점
진짜 사용자 일 에 가까운 평가	평가 비용 매우 큼 (VM, 스크린샷, OCR)
멀티모달 (스크린샷 + 액션) 자연스러움	모델 multimodal 능력에 의존
멀티앱 워크플로 측정	flaky (UI 변경, 네트워크)
정성 평가 안 해도 됨 (상태 비교)	평가 스크립트 자체 버그 多

4. 대안과의 비교

GUI/웹 에이전트 영역의 다른 벤치:

WebShop (구식, Amazon-like 단일 사이트)
AndroidEnv / MobileEnv (모바일 GUI)
VisualWebArena (멀티모달 강화)
AgentBench-WB (AgentBench 안의 web shopping/browsing)
BrowserGym, WorkArena — 더 현실적 web 자동화

본 시리즈에서 OSWorld·WebArena·Mind2Web 셋만 다루는 이유: 대표성. 이 셋이 GUI 평가의 세 철학(라이브 OS / 재현 가능 웹 / 진짜 사이트 정적) 을 깔끔히 보여준다.

5. 우리 실험에의 적용

이 카테고리는 본 실험에 가장 간접 영향이 크다. 왜냐하면 우리 페르소나(민지)가 하는 일이 실제로 GUI/웹 조작이기 때문이다 — Discord에서 채널 만들기, Gmail에서 메일 발송, Calendar에서 일정 만들기.

5.1 직접 도입은 부적절 — 우리 환경의 특수성

OSWorld·WebArena 자체를 도입하면 안 되는 이유:

우리는 MCP 서버 또는 플러그인 으로 외부 통합 (Discord MCP, Gmail tool 등). 진짜 GUI 조작이 아님 (백엔드 API).
우리 페르소나는 “에이전트가 알아서 해줘” 형 — 사람이 GUI 조작하면 페르소나 모드 위반. 즉 실패 데이터.
본 실험은 2 도구 비교 — 절대 점수 X 상대 비교.

5.2 간접 적용 — 외부 통합 정확성 검증 사고방식

OSWorld가 “최종 OS 상태가 정답인가” 를 보듯, 우리도 “Discord 채널에 진짜 공지가 갔나” 를 검증해야 한다. 단순 “공지를 보냈다고 에이전트가 주장” 만으론 부족.

이건 4장 fine-grained 체크리스트의 한 항목으로 들어감:

[Y/N] Discord MCP/플러그인 호출 흔적이 trajectory 로그에 있나
[Y/N] 호출 결과 (channel_id, message_id 등) 가 정상 응답인가
[Y/N] 가짜 Discord 워크스페이스의 해당 채널에 진짜 메시지가 게시되었나 (수동 확인 또는 API 재조회)

OSWorld 식 상태 비교 를 작은 스케일로 가져온 것.

5.3 멀티앱 워크플로 사고방식

OSWorld의 크로스앱 태스크 (“엑셀 → 슬라이드”, “브라우저 → 다운로드 → 압축”)가 보여주는 것: 한 도구만 쓰는 게 아니라 여러 도구를 잇는 능력 도 능력이다.

우리 T2(신청자 명단 정리), T9(주간 활동 리포트) 가 이런 멀티앱 워크플로다 (Google Form → Sheet → 통계 → 메시지). 도구별로 몇 개 외부 시스템을 횡단했는지 trajectory 분석으로 카운트 가능.

→ 4장의 unique_tools_used 메트릭이 사실 OSWorld 정신의 작은 버전.

5.4 결정 — 직접 도입 X, 검증 사고방식 차용

본 실험에 OSWorld/WebArena/Mind2Web 직접 도입 X
“외부 통합 정확성” 차원에 상태 비교 사고방식 적용 (실제 채널/메일에 도달했나 검증)
멀티앱 워크플로 측정에 unique tools used 활용

6. 더 읽을거리

Xie et al., “OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments” (NeurIPS 2024) — OSWorld 원 논문, 369 태스크 + Ubuntu/Windows/macOS VM 환경
OSWorld 공식 사이트 — leaderboard·OSWorld-Verified 큐레이션 발표·실행 가이드
Zhou et al., “WebArena: A Realistic Web Environment for Building Autonomous Agents” (ICLR 2024) — 자체호스팅 웹 클론 4종으로 재현 가능한 평가 환경 구축
Deng et al., “Mind2Web: Towards a Generalist Agent for the Web” (NeurIPS 2023) — 137개 진짜 사이트 정적 trace 평가
ServiceNow, BrowserGym — 다양한 웹 벤치를 단일 환경으로 묶은 후속 프레임
VisualWebArena — WebArena를 멀티모달(스크린샷) 강화한 후속작

다음 장 미리보기

이제 학습 측정으로 간다. 9장은 본 실험의 H2 가설(반복 학습) 에 가장 직결되는 장이다 — MemoryAgentBench, Evo-Memory, MemoryArena의 4축 분해.

이 장에서 확실히 알아야 하는 것

OSWorld·WebArena·Mind2Web의 세 철학 차이를 표 없이 말할 수 있다.
OSWorld-Verified 가 왜 만들어졌는지 안다 (큐레이션·플래키 해결).
WebArena가 재현성 을 위해 진짜 사이트를 포기했음을 안다.
본 실험의 외부 통합 검증을 OSWorld 식 상태 비교 사고방식으로 설계할 줄 안다.