콘텐츠로 이동

[보관] [샘플·상세] AI 에이전트 도입 평가 리포트

Hermes vs OpenClaw — Probe 시리즈로 검증된 측정 프레임 + L1 통합 결과

섹션 제목: “Hermes vs OpenClaw — Probe 시리즈로 검증된 측정 프레임 + L1 통합 결과”

본 문서는 샘플(템플릿)입니다. [[브라켓 표시]] 부분이 실제 실험 후 채워질 자리입니다. 합의 목적: “최종 산출물이 이렇게 생긴다”를 결정권자와 먼저 합의하기 위함.

본 리포트는 3층 산출물을 모두 담는다:

  • Part I (§0~§4) — L1: 도구 비교 결과 (의사결정자용 핵심)
  • Part II (§5) — L2: 평가 프레임워크 v1 (방법론자용 — Probe 9개 결과로 구성)
  • Part III (§6) — L3: Probe 시퀀스 접근 자체에 대한 평가 (연구자용) Part I만 보고 결정 가능, Part II/III는 재현·반박 가능성을 위한 부록 성격.

상세 버전 — 청중: 방법론자·평가 엔지니어·R&D·구매 심사. 비개발자 의사결정자에겐 easy.md를 권장.


비개발자 커뮤니티 매니저 페르소나 기준, [[도구명]]을 추천합니다. 핵심 근거: [[지표 1줄]]. 단, [[조건]] 환경에서는 [[다른 도구]]가 우세했습니다.

이 결론은 Probe 시퀀스 P1~P9에서 채택된 측정 프레임으로 도출됨. 채택 [[N]]개 / 폐기 [[N]]개 / 보류 [[N]]개. v2 본 운용 진입: [[GO/NO-GO/조건부]].

의사결정에 필요한 한 표 (P9 통합 분석 결과)

항목HermesOpenClaw차이출처 Probe
평균 태스크 완료 시간 (초)[[xxx]][[xxx]][[+/- xx%]]P9 (TTC 기본)
평균 개입 횟수 (회/태스크)[[x.x]][[x.x]][[+/- xx%]]P9
결과물 품질 — 정확성[[x.x]][[x.x]][[+/- x.x]]P5 (분해 채택 시)
결과물 품질 — 즉시 사용성[[x.x]][[x.x]][[+/- x.x]]P5
셋업 비용 (분, 셋업 윈도우)[[xx]][[xx]][[xx배]]P9
비개발자 단독 셋업 가능[[Y/도움/N]][[Y/도움/N]]P9
pass^3 일관성[[표현 — boolean·std]][[]][[]]P3 (재정의 채택 시)
메모리 자발 반영[[Y/N]][[Y/N]]P8 (채택 시)
Trajectory tool_calls/태스크[[N]][[N]][[]]P1 (채택 시)
컨컬런시 견고성 (C1~C4)[[Cx]][[Cx]]P9
누적 토큰/구독 비용[[$xx]][[$xx]][[+/- xx%]]P9

1. 왜 이 리포트가 필요한가 (Problem)

섹션 제목: “1. 왜 이 리포트가 필요한가 (Problem)”

업계는 현재 “X 도구 좋더라” 수준으로 에이전트를 평가합니다. 개인 사용자에게는 충분하지만, 조직 도입 의사결정에는 다음 세 가지 질문에 답할 수 없습니다:

  1. 누구에게 좋은가 — 개발자 후기는 비개발자에게 적용되지 않음
  2. 얼마나 좋은가 — “빠르다”가 30% 빠른 건지 3배 빠른 건지 불명
  3. 재현되는가 — 같은 도구를 다른 사람이 써도 같은 결론이 나오는지 검증 불가

1.2 정성 후기가 충돌하는 실제 사례

섹션 제목: “1.2 정성 후기가 충돌하는 실제 사례”

[[수집: 같은 도구에 대해 정반대로 평가한 후기 3~5건]]

1.3 본 리포트의 기여 — 측정 프레임을 먼저 검증한 정량 비교

섹션 제목: “1.3 본 리포트의 기여 — 측정 프레임을 먼저 검증한 정량 비교”

본 리포트의 핵심 차별점은 “측정 도구를 먼저 검증하고 그 다음 도구를 비교했다”:

  • 9개의 미니 실험(Probe P1~P9)으로 측정 프레임 자체를 흔들어봄
  • 채택된 패치만 본 비교(P9)에 사용
  • → “측정 자체가 의심스러우면 결론도 의심스럽다”라는 메타-비판 사전 차단

비개발자 커뮤니티 운영자. 4~5개 AI 커뮤니티 통합 운영. 코딩 불가, 자연어 지시만 가능.

상세: 01-experiment-design.md §2

2.2 Probe 시퀀스 (P1~P9) — 측정 프레임 검증

섹션 제목: “2.2 Probe 시퀀스 (P1~P9) — 측정 프레임 검증”

핵심 설계 결정: 하루 1 패치 + 다른 변수 고정. 한 번에 다 박으면 어느 패치가 효과인지 분리 불가 → 순차 ablation.

Probe패치의존결정History commit
P1Trajectory 자동 추출채택 (외부 통합 검증 메트릭으로 재정의)history/42
P2함수호출 0회 자동 failP1[[]][[]]
P3pass^3 boolean 재정의[[]][[]]
P4fork 트리거 임계 완화P3[[]][[]]
P5I5 2-차원 분해P1 권장[[]][[]]
P6TTC × 품질 페어 산점도P5[[]][[]]
P7LLM-as-judge ρ 시범P5[[]][[]]
P8Memory 1축P3[[]][[]]
P9L1 통합 분석 (Hermes vs OpenClaw)P1~P8[[]][[]]

상세: experiments/00-plan.md, 각 probe 문서 experiments/P{1..9}-*.md

2.3 Probe 채택·폐기 룰 (사전 약속)

섹션 제목: “2.3 Probe 채택·폐기 룰 (사전 약속)”

각 probe 시작 직전에 §2(반증 조건) 작성. 종료 시 §6(결정) 채움. 결정은 셋 중 하나:

라벨조건v2 반영
채택반증 조건 미도달, 효과 입증v1 측정 프레임에 포함
폐기반증 조건 도달, 효과 없음/역효과v1 제외, 사망 사유 기록
보류측정 불가·노이즈로 결정 불가v2에서 재시도

2.4 측정 지표 (probe 결과로 확정)

섹션 제목: “2.4 측정 지표 (probe 결과로 확정)”

P9에서 사용한 최종 지표 셋 — Probe 결과에 따라 동적으로 결정됨:

지표정의단위출처 Probe (채택된 것만)
TTC태스크 시작 → 완료 시간(기본)
개입 횟수추가 지시·수정 횟수(기본)
셋업 비용셋업 윈도우 동안 소요 분(기본)
셋업 가능 여부비개발자 단독 가능했나Y/도움/N(기본)
결과물 품질[[1~5 단일 / 정확성+사용성 2축]][[1~5 / 1~5×2]][[P5 결과에 따라]]
반복 학습 징후[[pass^3 boolean / std / 폐기]][[]][[P3 결과에 따라]]
누적 자산자동 생성/수동 추가된 스킬 수(기본)
컨컬런시 견고성 (I8)C1~C4 라벨label(기본)
Trajectorytool_calls/unique_tools/sequence카운트·순서[[P1 채택 시]]
함수호출 fail 룰0 호출 시 자동 fail 적용bool[[P2 채택 시]]
TTC × 품질 페어”빠른데 품질 낮은” 별도 카운트n[[P6 채택 시]]
LLM judge ρ자동 채점 vs 인간 채점 Spearmanρ[[P7 채택 시]]
Memory 자발 반영1회차 교정이 2회차에 반영됐나bool[[P8 채택 시]]

2.5 결과물 품질 채점 루브릭 (P5 결과에 따라 분기)

섹션 제목: “2.5 결과물 품질 채점 루브릭 (P5 결과에 따라 분기)”

Case A — P5 폐기 (단일 척도 1~5 유지)

점수정의
5그대로 발송 가능 / 4

Case B — P5 채택 (2축 분해)

차원1~5 정의
정확성 (사실 오류 빈도)5: 0건 / … / 1: 다수
즉시 사용성 (편집 부담)5: 그대로 / … / 1: 폐기

채점 무결성 보장

  • 결과물에서 도구 식별 정보 제거(블라인드)
  • 평가자 1명, 시간 분리(즉시 정량 → 30분 텀 → 정성)
  • 각 probe 종료 시 자가 재채점 → ICC 산출
  • ICC ≥ 0.7 미만이면 루브릭 재정의 후 재채점
  • v2 본 운용 시 평가자 2인 + Cohen’s κ로 격상 예정
위협통제 방법
모델 차이두-트랙 백엔드 (Track A: Claude Code, Track B: Codex)
학습 누수한 도구 결과를 다른 도구에 보여주지 않음
순서 효과매일 코인 토스로 도구 사용 순서 결정
페르소나 일탈모든 지시는 자연어 (T_burst만 예외)
셋업 무한 확장OpenClaw 셋업 윈도우 제한 후 동결
평가자 편향1명 운영, 시간 분리, 자가 재측정 ICC, anonymous tool ID
Rate-limit 오염T_burst는 main 측정 완료 후 마지막 1회만
변수 혼동Probe 단위로 1 패치만 검증, 다른 변수 고정
사후 짜맞춤Probe 문서 §1~§4를 시작 직전 작성, §5·§6은 실시간

상세: 02-constraints.md C1~C9, experiments/00-plan.md §4

일자Probe / 활동결과 commit
Day XP1 Trajectory 자동 추출 (4~6h)[[]]
Day X+1P2 함수호출 0회 fail (1~2h)[[]]
Day X+2P3 pass^3 boolean 재정의 (5~7h)[[]]
Day X+3P4 fork 임계 완화 (0.5h)[[]]
Day X+4P5 I5 2-차원 분해 (3~4h)[[]]
Day X+5P6 TTC×품질 페어 산점도 (1h)[[]]
Day X+6P7 LLM-as-judge ρ 시범 (4~5h)[[]]
Day X+7P8 Memory 1축 (4~5h)[[]]
Day X+8~X+10P9 L1 통합 — Hermes vs OpenClaw 본 비교 (Track A·B, 2~3h)[[]]

총 ≈ 9~11일 (probe 사이 휴식·기록·결정 commit 포함). 하루 1 probe 원칙(experiments/00-plan.md §3, 변수 분리). P9가 본 비교 단계 — 앞 8개 probe 결과로 확정된 측정 프레임 사용.


각 probe의 1줄 결과 + 채택 여부.

Probe핵심 질문결과결정
P1 Trajectoryhook 자동 추출 trajectory가 정량/정성과 다른 결론?T1 1 trial: 양쪽 도구 tool_calls=0·has_external=N — 변별 X. 변별 못 한 사실 자체가 정량/정성에선 못 잡는 “외부 통합 강조 OpenClaw도 실제론 안 씀” 명시 → 결이 다른 결론채택 (외부 통합 검증 메트릭으로 재정의) — history/42
P2 함수호출 0회 fail외부 호출 0회면 결과 좋아도 fail — reward-hacking 차단 가치?[[]][[]]
P3 pass^3 재정의3회 모두 ≥ 4 boolean이 std보다 학습 징후에 강한가?[[]][[]]
P4 fork 임계 완화5+ → 3+ (또는 정성↔정량 정반대 1건)으로 트리거 의미 발동?[[]][[]]
P5 I5 2축 분해정확성 + 즉시 사용성 분해가 변별력 올림?[[]][[]]
P6 TTC×품질”빠른데 품질 낮은” Goodhart 가드가 신호?[[]][[]]
P7 LLM judge ρcodex 자동 채점 vs 민지 채점 ρ ≥ 0.7?[[ρ=x.xx]][[]]
P8 Memory 1축1회차 교정이 2회차 자발 반영 — H2′ 직접 증거?[[]][[]]

3.2 P9 — L1 통합 분석 (Hermes vs OpenClaw)

섹션 제목: “3.2 P9 — L1 통합 분석 (Hermes vs OpenClaw)”

P1~P8에서 채택된 측정 프레임으로 본 비교 실행.

[[종합 표 — §0 표를 더 세분화. 채택된 probe 메트릭 반영]]

3.2.2 학습 징후 (P3·P8 결과 통합)

섹션 제목: “3.2.2 학습 징후 (P3·P8 결과 통합)”

[[그래프: 핵심 5태스크의 1회차 vs 3회차. P3 채택 시 boolean 비율, 폐기 시 std]]

카테고리우세 도구격차
이벤트 운영[[도구]][[xx%]]
사람 관리[[도구]][[xx%]]
일상 관리[[도구]][[xx%]]
컨컬런시 (T_concurrent)[[도구]][[Cx vs Cx]]

3.2.4 LLM 변량 영향 — Track A vs Track B

섹션 제목: “3.2.4 LLM 변량 영향 — Track A vs Track B”
지표Track ATrack B같은 도구 가리킴?
TTC[[]][[]][[Y/N]]
품질[[]][[]][[Y/N]]

[[Track A vs B 분기 시 해석]]

3.3 의외의 발견 (Qualitative Findings)

섹션 제목: “3.3 의외의 발견 (Qualitative Findings)”

[[2~4개 슬롯 — 정성 메모·일기에서 추출]]

항목HermesOpenClaw
누적 토큰/구독 비용[[$xx]][[$xx]]
셋업 인건비 환산[[$xx]][[$xx]]
시리즈 총 비용[[$xx]][[$xx]]
태스크당 비용[[$x.xx]][[$x.xx]]

조직 형태추천 도구근거
비개발자 단독 운영팀[[]][[]]
개발자 1인 + 비개발자 다수[[]][[]]
외부 통합 비중 높은 팀[[]][[]]
반복 업무 비중 높은 팀[[]][[]]
컨컬런시 비중 높은 팀 (멀티 채널)[[]][[]]

[[3~5개 항목]]

4.3 본 리포트가 답하지 않는 것 (Limitations)

섹션 제목: “4.3 본 리포트가 답하지 않는 것 (Limitations)”
  • N=1 페르소나, N=1 평가자 — 일반화 한계
  • 시리즈 9~11일 — 장기 학습(2주+)은 미관측. P3·P8가 징후만 잡음
  • 한국어 환경 한정
  • 본 결과는 [[실험 일자]] 시점 도구 버전 기준
  • v2(본 운용)에서 답할 것 — §6.7 참조

5. 평가 프레임워크 v1 (Part II — L2 산출물)

섹션 제목: “5. 평가 프레임워크 v1 (Part II — L2 산출물)”

이 섹션은 Probe 시리즈에서 채택된 패치만 모아 다른 조직이 그대로 쓸 수 있게 한 부분이다.

5.1 채택·폐기·보류 사망/생존 표 (probe 단위)

섹션 제목: “5.1 채택·폐기·보류 사망/생존 표 (probe 단위)”
패치 (Probe)채택?사유 (1줄)v2 영향
Trajectory 자동 추출 (P1)채택trajectory가 정량/정성과 결이 다른 결론(외부 통합 0 명시)을 가리킴, R1~R3 미도달v1에 tool_calls_count·unique_tools_used·has_external_call 컬럼 유지, 외부 통합 검증 메트릭으로 재정의
함수호출 0회 fail (P2)[[]][[]][[]]
pass^3 boolean (P3)[[]][[]][[]]
fork 임계 완화 (P4)[[]][[]][[]]
I5 2축 분해 (P5)[[]][[]][[]]
TTC × 품질 페어 (P6)[[]][[]][[]]
LLM judge (P7)[[]][[]][[]]
Memory 1축 (P8)[[]][[]][[]]

5.2 신뢰성 검증 결과 (probe 단위 ICC)

섹션 제목: “5.2 신뢰성 검증 결과 (probe 단위 ICC)”
지표1차 측정자가 재측정ICC통과?
TTC[[]][[]][[x.xx]][[Y/N]]
개입 횟수[[]][[]][[x.xx]][[Y/N]]
셋업 비용[[]][[]][[x.xx]][[Y/N]]
셋업 가능 여부[[]][[]][[x.xx]][[Y/N]]
결과물 품질[[]][[]][[x.xx]][[Y/N]]
반복 학습 징후[[]][[]][[x.xx]][[Y/N]]
누적 자산[[]][[]][[x.xx]][[Y/N]]
컨컬런시 견고성[[]][[]][[x.xx]][[Y/N]]
(채택된 신규 지표)[[]][[]][[]][[]]

5.3 v1 측정 프로토콜 (살아남은 지표만)

섹션 제목: “5.3 v1 측정 프로토콜 (살아남은 지표만)”

[[채택된 패치를 모두 반영한 통합 측정 프로토콜 — 시작/종료 시점 정의, 평가자 운영 룰, ICC 검증 절차]]

5.4 신규 후보 지표 (실험 중 발견)

섹션 제목: “5.4 신규 후보 지표 (실험 중 발견)”

[[probe 진행 중 정성 메모·raw에서 등장한 신호 — 다음 버전(v2 또는 v1.x)에 후보]]

다른 조직이 자기 페르소나로 같은 비교를 돌릴 수 있는 산출물:

산출물용도위치
페르소나 카드 템플릿자기 조직 페르소나로 치환[[]]
태스크 카탈로그자기 업무에서 10개 + T_concurrent·T_burst 가이드[[]]
지표 스펙 v1채택된 probe 결과 반영, 6칸 정의[[]]
Probe 시퀀스 가이드자기 조직에서 probe를 어떻게 실행할지[[]]
채점 루브릭 + 예시집평가자 교육용 (P5 결과 반영)[[]]
로그 CSV·메모 JSONL·일기 양식3단 채집 (C7)[[]]
시뮬레이션 데이터 생성 스크립트진짜 데이터 안 써도 됨[[]]
셋업 가이드Day 0 환경 구축[[]]
평가자 1인 운영 가이드시간 분리·anonymous tool ID 룰[[]]

6. 접근에 대한 평가 (Part III — L3 산출물)

섹션 제목: “6. 접근에 대한 평가 (Part III — L3 산출물)”

본 시리즈는 두 가지 접근을 동시에 검증했다:

  • A. 지표 사전정의 후 측정 (기존 가설)
  • A′. Probe 시퀀스로 측정 프레임 자체를 먼저 검증 (이번 시리즈가 채택한 새 메타-접근)

이 두 접근이 다른 4종 대안 대비 우월했는가? 같은 raw로 5종 프레이밍 재해석. 상세는 08-meta-eval.md.

6.1 5종 프레이밍 사후 비교 (A·B·D 채택, C·E 보류)

섹션 제목: “6.1 5종 프레이밍 사후 비교 (A·B·D 채택, C·E 보류)”
프레이밍정의본 시리즈 결론A와 일치?
A. 지표 사전정의본 실험이 채택[[L1 결론]]
B. 사후 코딩raw 로그에서 패턴 사후 추출[[B 결론]][[Y/N + 어디서 갈렸나]]
C. 결과 도달률”그 태스크를 결국 했냐” Y/Nv2 후보 — 미수행
D. 사용자 일기매일 자유 서술 사후 코딩[[D 결론]][[Y/N]]
E. 행동 추적재사용·이탈 passive metricv2 후보 — 미수행
Probe진입 조건 충족?종료 조건 충족?결정 합리성 (사후)
P1[[Y/N]][[Y/N]][[]]
P2[[]][[]][[]]
P3[[]][[]][[]]
P4[[]][[]][[]]
P5[[]][[]][[]]
P6[[]][[]][[]]
P7[[]][[]][[]]
P8[[]][[]][[]]

6.3 반증 조건 도달 여부 (probe 단위 + 시리즈 단위)

섹션 제목: “6.3 반증 조건 도달 여부 (probe 단위 + 시리즈 단위)”

6.3.1 Probe 단위 (각 probe §2의 반증 조건)

섹션 제목: “6.3.1 Probe 단위 (각 probe §2의 반증 조건)”
Probe반증 조건 1반증 조건 2반증 조건 3결과
P1[[]][[]][[]][[]]

6.3.2 시리즈 단위 (Probe 시퀀스 자체에 대한 반증)

섹션 제목: “6.3.2 시리즈 단위 (Probe 시퀀스 자체에 대한 반증)”
조건도달?결과 해석
채택 probe ≤ 2개[[Y/N]]A′ 접근 (probe 시퀀스) 자체가 약함
채택 probe 끼리 충돌 (예: P5 분해 vs P7 LLM judge)[[Y/N]]v2 진입 보류
B 또는 D 재해석이 P9 결론과 정반대[[Y/N]]A·A′ 모두 의문
자가 재측정 ICC < 0.5 (어떤 지표든)[[Y/N]]그 지표 즉시 v1 제외
Track A vs B 결과 대분기 (지표 3+개)[[Y/N]]도구×LLM 조합 비교로 재포장
가설내용검증 결과출처 Probe
H1첫 운용 시 OpenClaw 우세[[지지/기각/보류]]P9
H2′학습 징후가 도구별 갈림[[]]P3·P8
H3셋업 진입장벽 자체가 데이터[[]]P9
H-L2-17개 지표 중 3~5개만 도구 차이 드러냄[[N개]]시리즈 통합
H-L2-2I5 ICC 가장 낮음[[]]P5 + ICC
H-L3-1정성↔정량 정반대 케이스 ≥ 1건[[N건]]시리즈
H-L3-2Track A vs B 갈리면 도구×LLM 조합 비교[[]]P9
H-Meta-1 (신규)Probe 시퀀스가 batch 적용보다 통찰 ↑[[지지/기각]]P8 회고

6.5 접근 A·A′에 대한 한 줄 결론

섹션 제목: “6.5 접근 A·A′에 대한 한 줄 결론”

A: [[A는 (조건)에서 유효, (조건)에서 무효]] A′: [[Probe 시퀀스 접근은 (조건)에서 유효, (조건)에서 비효율]]

GO 조건 (experiments/00-plan.md §6과 정합):

  • 채택 probe ≥ 5개
  • P4(fork 트리거 임계) 결정 통과 (보류 아님)
  • 채택 patch 끼리 충돌 없음
  • B 또는 D가 P9와 70%+ 일치

NO-GO 조건:

  • 채택 probe ≤ 2개
  • P4 보류 (트리거 자체 의미 없음)
  • 채택 patch 충돌
  • B/D가 P9와 정반대

판정: [[GO/NO-GO/조건부 GO]][[근거]]

GO 시 v2 변경 사항:

  • 채택된 probe N개의 패치를 모두 v1 측정 프레임에 통합
  • C·E 프레이밍 도입 (행동 추적 hook 보강)
  • 평가자 2명 도입 → ICC를 Cohen’s κ로 격상
  • 기간 21일, 페르소나 추가/유지 결정

6.7 v0 → v1 변경 이력 (실험 중 사전 약속 수정)

섹션 제목: “6.7 v0 → v1 변경 이력 (실험 중 사전 약속 수정)”
일시문서항목변경 사유History commit
[[YYYY-MM-DD HH:MM]][[07/08]][[]][[]][[]]

이 표가 비어있을수록 사전 약속 충실도 ↑. 변경이 많아도 사전 약속의 의도된 진화임을 history/ 항목으로 증명.

6.8 메타-회고 — Probe 시리즈 자체에 대한 평가

섹션 제목: “6.8 메타-회고 — Probe 시리즈 자체에 대한 평가”
질문
순차 진행이 batch 대비 더 나은 통찰을 만들었나?[[]]
Probe 단위 분할이 결정 피로를 만들지 않았나?[[]]
5건 채택 GO 조건이 합리적이었나?[[]]
사전 작성 vs 적시 작성 분리가 사후 짜맞춤을 막았나?[[]]
다음 시리즈에서 추가/제거할 probe?[[]]

  • A.1 runs/runs.csv 전체
  • A.2 runs/notes.jsonl (anonymous tool ID 그대로)
  • A.3 runs/diary.md
  • A.4 runs/checkpoints.md
  • A.5 logs/snapshot-track-{A,B}-*.tar.gz 인덱스
  • A.6 experiments/P{1..9}-*.md 모든 probe 페이지 동결본

태스크별 1~2건씩, 도구 식별 제거 상태로 첨부.

지표별 1차 vs 재측정 표 + ICC 계산식. v2에서 Cohen’s κ로 격상.

토큰·구독·셋업 인건비 환산.

  • E.1 B 프레이밍: raw 코딩 코드북 + 절차 + 일치도
  • E.2 D 프레이밍: 일기 코드북 + 절차
  • E.3 작성 순서 증명 — A 결과 보지 않고 작성했음을 보이는 운영 로그
  • E.4 C·E 보류 사유 + v2 도입 계획

runs/burst.csv — 도구별 동시 요청 시 성공률·429 도달 시점·p50/p95 latency. L1 결정 외 부록.

  • G.1 시간 분리 룰 어긋난 사례
  • G.2 anonymous tool ID 누설 사례
  • G.3 평가자 자기 학습 효과 (대조군 부재 한계)
  • H.1 진입·종료 조건 위반 사례 (있었다면 기록)
  • H.2 의존 그래프 따라간 실제 경로 vs 계획
  • H.3 시퀀스 중단·재개 사례
  • H.4 Probe 단위 시간 추정 vs 실측 표