[보관] [샘플·상세] AI 에이전트 도입 평가 리포트

Hermes vs OpenClaw — Probe 시리즈로 검증된 측정 프레임 + L1 통합 결과

본 문서는 샘플(템플릿)입니다. [[브라켓 표시]] 부분이 실제 실험 후 채워질 자리입니다. 합의 목적: “최종 산출물이 이렇게 생긴다”를 결정권자와 먼저 합의하기 위함.

본 리포트는 3층 산출물을 모두 담는다:

Part I (§0~§4) — L1: 도구 비교 결과 (의사결정자용 핵심)

Part II (§5) — L2: 평가 프레임워크 v1 (방법론자용 — Probe 9개 결과로 구성)

Part III (§6) — L3: Probe 시퀀스 접근 자체에 대한 평가 (연구자용) Part I만 보고 결정 가능, Part II/III는 재현·반박 가능성을 위한 부록 성격.

상세 버전 — 청중: 방법론자·평가 엔지니어·R&D·구매 심사. 비개발자 의사결정자에겐 easy.md를 권장.

0. 한 줄 결론 (Executive Summary)

비개발자 커뮤니티 매니저 페르소나 기준, [[도구명]]을 추천합니다. 핵심 근거: [[지표 1줄]]. 단, [[조건]] 환경에서는 [[다른 도구]]가 우세했습니다.

이 결론은 Probe 시퀀스 P1~P9에서 채택된 측정 프레임으로 도출됨. 채택 [[N]]개 / 폐기 [[N]]개 / 보류 [[N]]개. v2 본 운용 진입: [[GO/NO-GO/조건부]].

의사결정에 필요한 한 표 (P9 통합 분석 결과)

항목	Hermes	OpenClaw	차이	출처 Probe
평균 태스크 완료 시간 (초)	`[[xxx]]`	`[[xxx]]`	`[[+/- xx%]]`	P9 (TTC 기본)
평균 개입 횟수 (회/태스크)	`[[x.x]]`	`[[x.x]]`	`[[+/- xx%]]`	P9
결과물 품질 — 정확성	`[[x.x]]`	`[[x.x]]`	`[[+/- x.x]]`	P5 (분해 채택 시)
결과물 품질 — 즉시 사용성	`[[x.x]]`	`[[x.x]]`	`[[+/- x.x]]`	P5
셋업 비용 (분, 셋업 윈도우)	`[[xx]]`	`[[xx]]`	`[[xx배]]`	P9
비개발자 단독 셋업 가능	`[[Y/도움/N]]`	`[[Y/도움/N]]`	—	P9
pass^3 일관성	`[[표현 — boolean·std]]`	`[[]]`	`[[]]`	P3 (재정의 채택 시)
메모리 자발 반영	`[[Y/N]]`	`[[Y/N]]`	—	P8 (채택 시)
Trajectory tool_calls/태스크	`[[N]]`	`[[N]]`	`[[]]`	P1 (채택 시)
컨컬런시 견고성 (C1~C4)	`[[Cx]]`	`[[Cx]]`	—	P9
누적 토큰/구독 비용	`[[$xx]]`	`[[$xx]]`	`[[+/- xx%]]`	P9

1. 왜 이 리포트가 필요한가 (Problem)

1.1 정성 평가의 한계

업계는 현재 “X 도구 좋더라” 수준으로 에이전트를 평가합니다. 개인 사용자에게는 충분하지만, 조직 도입 의사결정에는 다음 세 가지 질문에 답할 수 없습니다:

누구에게 좋은가 — 개발자 후기는 비개발자에게 적용되지 않음
얼마나 좋은가 — “빠르다”가 30% 빠른 건지 3배 빠른 건지 불명
재현되는가 — 같은 도구를 다른 사람이 써도 같은 결론이 나오는지 검증 불가

1.2 정성 후기가 충돌하는 실제 사례

[[수집: 같은 도구에 대해 정반대로 평가한 후기 3~5건]]

1.3 본 리포트의 기여 — 측정 프레임을 먼저 검증한 정량 비교

본 리포트의 핵심 차별점은 “측정 도구를 먼저 검증하고 그 다음 도구를 비교했다”:

9개의 미니 실험(Probe P1~P9)으로 측정 프레임 자체를 흔들어봄
채택된 패치만 본 비교(P9)에 사용
→ “측정 자체가 의심스러우면 결론도 의심스럽다”라는 메타-비판 사전 차단

2. 평가 프레임 (Methodology)

2.1 페르소나 — “민지”

비개발자 커뮤니티 운영자. 4~5개 AI 커뮤니티 통합 운영. 코딩 불가, 자연어 지시만 가능.

상세: 01-experiment-design.md §2

2.2 Probe 시퀀스 (P1~P9) — 측정 프레임 검증

핵심 설계 결정: 하루 1 패치 + 다른 변수 고정. 한 번에 다 박으면 어느 패치가 효과인지 분리 불가 → 순차 ablation.

Probe	패치	의존	결정	History commit
P1	Trajectory 자동 추출	—	채택 (외부 통합 검증 메트릭으로 재정의)	history/42
P2	함수호출 0회 자동 fail	P1	`[[]]`	`[[]]`
P3	pass^3 boolean 재정의	—	`[[]]`	`[[]]`
P4	fork 트리거 임계 완화	P3	`[[]]`	`[[]]`
P5	I5 2-차원 분해	P1 권장	`[[]]`	`[[]]`
P6	TTC × 품질 페어 산점도	P5	`[[]]`	`[[]]`
P7	LLM-as-judge ρ 시범	P5	`[[]]`	`[[]]`
P8	Memory 1축	P3	`[[]]`	`[[]]`
P9	L1 통합 분석 (Hermes vs OpenClaw)	P1~P8	`[[]]`	`[[]]`

상세: experiments/00-plan.md, 각 probe 문서 experiments/P{1..9}-*.md

2.3 Probe 채택·폐기 룰 (사전 약속)

각 probe 시작 직전에 §2(반증 조건) 작성. 종료 시 §6(결정) 채움. 결정은 셋 중 하나:

라벨	조건	v2 반영
채택	반증 조건 미도달, 효과 입증	v1 측정 프레임에 포함
폐기	반증 조건 도달, 효과 없음/역효과	v1 제외, 사망 사유 기록
보류	측정 불가·노이즈로 결정 불가	v2에서 재시도

2.4 측정 지표 (probe 결과로 확정)

P9에서 사용한 최종 지표 셋 — Probe 결과에 따라 동적으로 결정됨:

지표	정의	단위	출처 Probe (채택된 것만)
TTC	태스크 시작 → 완료 시간	초	(기본)
개입 횟수	추가 지시·수정 횟수	회	(기본)
셋업 비용	셋업 윈도우 동안 소요 분	분	(기본)
셋업 가능 여부	비개발자 단독 가능했나	Y/도움/N	(기본)
결과물 품질	`[[1~5 단일 / 정확성+사용성 2축]]`	`[[1~5 / 1~5×2]]`	`[[P5 결과에 따라]]`
반복 학습 징후	`[[pass^3 boolean / std / 폐기]]`	`[[]]`	`[[P3 결과에 따라]]`
누적 자산	자동 생성/수동 추가된 스킬 수	개	(기본)
컨컬런시 견고성 (I8)	C1~C4 라벨	label	(기본)
Trajectory	tool_calls/unique_tools/sequence	카운트·순서	`[[P1 채택 시]]`
함수호출 fail 룰	0 호출 시 자동 fail 적용	bool	`[[P2 채택 시]]`
TTC × 품질 페어	”빠른데 품질 낮은” 별도 카운트	n	`[[P6 채택 시]]`
LLM judge ρ	자동 채점 vs 인간 채점 Spearman	ρ	`[[P7 채택 시]]`
Memory 자발 반영	1회차 교정이 2회차에 반영됐나	bool	`[[P8 채택 시]]`

2.5 결과물 품질 채점 루브릭 (P5 결과에 따라 분기)

Case A — P5 폐기 (단일 척도 1~5 유지)

점수	정의
5	그대로 발송 가능 / 4

Case B — P5 채택 (2축 분해)

차원	1~5 정의
정확성 (사실 오류 빈도)	5: 0건 / … / 1: 다수
즉시 사용성 (편집 부담)	5: 그대로 / … / 1: 폐기

채점 무결성 보장

결과물에서 도구 식별 정보 제거(블라인드)
평가자 1명, 시간 분리(즉시 정량 → 30분 텀 → 정성)
각 probe 종료 시 자가 재채점 → ICC 산출
ICC ≥ 0.7 미만이면 루브릭 재정의 후 재채점
v2 본 운용 시 평가자 2인 + Cohen’s κ로 격상 예정

2.6 편향 제거 (Threats to Validity)

위협	통제 방법
모델 차이	두-트랙 백엔드 (Track A: Claude Code, Track B: Codex)
학습 누수	한 도구 결과를 다른 도구에 보여주지 않음
순서 효과	매일 코인 토스로 도구 사용 순서 결정
페르소나 일탈	모든 지시는 자연어 (T_burst만 예외)
셋업 무한 확장	OpenClaw 셋업 윈도우 제한 후 동결
평가자 편향	1명 운영, 시간 분리, 자가 재측정 ICC, anonymous tool ID
Rate-limit 오염	T_burst는 main 측정 완료 후 마지막 1회만
변수 혼동	Probe 단위로 1 패치만 검증, 다른 변수 고정
사후 짜맞춤	Probe 문서 §1~§4를 시작 직전 작성, §5·§6은 실시간

상세: 02-constraints.md C1~C9, experiments/00-plan.md §4

2.7 일정 (Probe 시리즈 + L1 통합)

일자	Probe / 활동	결과 commit
Day X	P1 Trajectory 자동 추출 (4~6h)	`[[]]`
Day X+1	P2 함수호출 0회 fail (1~2h)	`[[]]`
Day X+2	P3 pass^3 boolean 재정의 (5~7h)	`[[]]`
Day X+3	P4 fork 임계 완화 (0.5h)	`[[]]`
Day X+4	P5 I5 2-차원 분해 (3~4h)	`[[]]`
Day X+5	P6 TTC×품질 페어 산점도 (1h)	`[[]]`
Day X+6	P7 LLM-as-judge ρ 시범 (4~5h)	`[[]]`
Day X+7	P8 Memory 1축 (4~5h)	`[[]]`
Day X+8~X+10	P9 L1 통합 — Hermes vs OpenClaw 본 비교 (Track A·B, 2~3h)	`[[]]`

총 ≈ 9~11일 (probe 사이 휴식·기록·결정 commit 포함). 하루 1 probe 원칙(experiments/00-plan.md §3, 변수 분리). P9가 본 비교 단계 — 앞 8개 probe 결과로 확정된 측정 프레임 사용.

3. 결과 (Results)

3.1 Probe별 결과 카드 (P1~P8)

각 probe의 1줄 결과 + 채택 여부.

Probe	핵심 질문	결과	결정
P1 Trajectory	hook 자동 추출 trajectory가 정량/정성과 다른 결론?	T1 1 trial: 양쪽 도구 tool_calls=0·has_external=N — 변별 X. 변별 못 한 사실 자체가 정량/정성에선 못 잡는 “외부 통합 강조 OpenClaw도 실제론 안 씀” 명시 → 결이 다른 결론	채택 (외부 통합 검증 메트릭으로 재정의) — history/42
P2 함수호출 0회 fail	외부 호출 0회면 결과 좋아도 fail — reward-hacking 차단 가치?	`[[]]`	`[[]]`
P3 pass^3 재정의	3회 모두 ≥ 4 boolean이 std보다 학습 징후에 강한가?	`[[]]`	`[[]]`
P4 fork 임계 완화	5+ → 3+ (또는 정성↔정량 정반대 1건)으로 트리거 의미 발동?	`[[]]`	`[[]]`
P5 I5 2축 분해	정확성 + 즉시 사용성 분해가 변별력 올림?	`[[]]`	`[[]]`
P6 TTC×품질	”빠른데 품질 낮은” Goodhart 가드가 신호?	`[[]]`	`[[]]`
P7 LLM judge ρ	codex 자동 채점 vs 민지 채점 ρ ≥ 0.7?	`[[ρ=x.xx]]`	`[[]]`
P8 Memory 1축	1회차 교정이 2회차 자발 반영 — H2′ 직접 증거?	`[[]]`	`[[]]`

3.2 P9 — L1 통합 분석 (Hermes vs OpenClaw)

P1~P8에서 채택된 측정 프레임으로 본 비교 실행.

3.2.1 도구별 종합 점수

[[종합 표 — §0 표를 더 세분화. 채택된 probe 메트릭 반영]]

3.2.2 학습 징후 (P3·P8 결과 통합)

[[그래프: 핵심 5태스크의 1회차 vs 3회차. P3 채택 시 boolean 비율, 폐기 시 std]]

3.2.3 카테고리별 강점

카테고리	우세 도구	격차
이벤트 운영	`[[도구]]`	`[[xx%]]`
사람 관리	`[[도구]]`	`[[xx%]]`
일상 관리	`[[도구]]`	`[[xx%]]`
컨컬런시 (T_concurrent)	`[[도구]]`	`[[Cx vs Cx]]`

3.2.4 LLM 변량 영향 — Track A vs Track B

지표	Track A	Track B	같은 도구 가리킴?
TTC	`[[]]`	`[[]]`	`[[Y/N]]`
품질	`[[]]`	`[[]]`	`[[Y/N]]`
…

[[Track A vs B 분기 시 해석]]

3.3 의외의 발견 (Qualitative Findings)

[[2~4개 슬롯 — 정성 메모·일기에서 추출]]

3.4 비용 분석

항목	Hermes	OpenClaw
누적 토큰/구독 비용	`[[$xx]]`	`[[$xx]]`
셋업 인건비 환산	`[[$xx]]`	`[[$xx]]`
시리즈 총 비용	`[[$xx]]`	`[[$xx]]`
태스크당 비용	`[[$x.xx]]`	`[[$x.xx]]`

4. 권고 (Recommendation)

4.1 페르소나별 권고

조직 형태	추천 도구	근거
비개발자 단독 운영팀	`[[]]`	`[[]]`
개발자 1인 + 비개발자 다수	`[[]]`	`[[]]`
외부 통합 비중 높은 팀	`[[]]`	`[[]]`
반복 업무 비중 높은 팀	`[[]]`	`[[]]`
컨컬런시 비중 높은 팀 (멀티 채널)	`[[]]`	`[[]]`

4.2 도입 시 주의사항

[[3~5개 항목]]

4.3 본 리포트가 답하지 않는 것 (Limitations)

N=1 페르소나, N=1 평가자 — 일반화 한계
시리즈 9~11일 — 장기 학습(2주+)은 미관측. P3·P8가 징후만 잡음
한국어 환경 한정
본 결과는 [[실험 일자]] 시점 도구 버전 기준
v2(본 운용)에서 답할 것 — §6.7 참조

5. 평가 프레임워크 v1 (Part II — L2 산출물)

이 섹션은 Probe 시리즈에서 채택된 패치만 모아 다른 조직이 그대로 쓸 수 있게 한 부분이다.

5.1 채택·폐기·보류 사망/생존 표 (probe 단위)

패치 (Probe)	채택?	사유 (1줄)	v2 영향
Trajectory 자동 추출 (P1)	채택	trajectory가 정량/정성과 결이 다른 결론(외부 통합 0 명시)을 가리킴, R1~R3 미도달	v1에 `tool_calls_count`·`unique_tools_used`·`has_external_call` 컬럼 유지, 외부 통합 검증 메트릭으로 재정의
함수호출 0회 fail (P2)	`[[]]`	`[[]]`	`[[]]`
pass^3 boolean (P3)	`[[]]`	`[[]]`	`[[]]`
fork 임계 완화 (P4)	`[[]]`	`[[]]`	`[[]]`
I5 2축 분해 (P5)	`[[]]`	`[[]]`	`[[]]`
TTC × 품질 페어 (P6)	`[[]]`	`[[]]`	`[[]]`
LLM judge (P7)	`[[]]`	`[[]]`	`[[]]`
Memory 1축 (P8)	`[[]]`	`[[]]`	`[[]]`

5.2 신뢰성 검증 결과 (probe 단위 ICC)

지표	1차 측정	자가 재측정	ICC	통과?
TTC	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
개입 횟수	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
셋업 비용	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
셋업 가능 여부	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
결과물 품질	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
반복 학습 징후	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
누적 자산	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
컨컬런시 견고성	`[[]]`	`[[]]`	`[[x.xx]]`	`[[Y/N]]`
(채택된 신규 지표)	`[[]]`	`[[]]`	`[[]]`	`[[]]`

5.3 v1 측정 프로토콜 (살아남은 지표만)

[[채택된 패치를 모두 반영한 통합 측정 프로토콜 — 시작/종료 시점 정의, 평가자 운영 룰, ICC 검증 절차]]

5.4 신규 후보 지표 (실험 중 발견)

[[probe 진행 중 정성 메모·raw에서 등장한 신호 — 다음 버전(v2 또는 v1.x)에 후보]]

5.5 재현 키트

다른 조직이 자기 페르소나로 같은 비교를 돌릴 수 있는 산출물:

산출물	용도	위치
페르소나 카드 템플릿	자기 조직 페르소나로 치환	`[[]]`
태스크 카탈로그	자기 업무에서 10개 + T_concurrent·T_burst 가이드	`[[]]`
지표 스펙 v1	채택된 probe 결과 반영, 6칸 정의	`[[]]`
Probe 시퀀스 가이드	자기 조직에서 probe를 어떻게 실행할지	`[[]]`
채점 루브릭 + 예시집	평가자 교육용 (P5 결과 반영)	`[[]]`
로그 CSV·메모 JSONL·일기 양식	3단 채집 (C7)	`[[]]`
시뮬레이션 데이터 생성 스크립트	진짜 데이터 안 써도 됨	`[[]]`
셋업 가이드	Day 0 환경 구축	`[[]]`
평가자 1인 운영 가이드	시간 분리·anonymous tool ID 룰	`[[]]`

6. 접근에 대한 평가 (Part III — L3 산출물)

본 시리즈는 두 가지 접근을 동시에 검증했다:

A. 지표 사전정의 후 측정 (기존 가설)

A′. Probe 시퀀스로 측정 프레임 자체를 먼저 검증 (이번 시리즈가 채택한 새 메타-접근)

이 두 접근이 다른 4종 대안 대비 우월했는가? 같은 raw로 5종 프레이밍 재해석. 상세는 08-meta-eval.md.

6.1 5종 프레이밍 사후 비교 (A·B·D 채택, C·E 보류)

프레이밍	정의	본 시리즈 결론	A와 일치?
A. 지표 사전정의	본 실험이 채택	`[[L1 결론]]`	—
B. 사후 코딩	raw 로그에서 패턴 사후 추출	`[[B 결론]]`	`[[Y/N + 어디서 갈렸나]]`
C. 결과 도달률	”그 태스크를 결국 했냐” Y/N	v2 후보 — 미수행	—
D. 사용자 일기	매일 자유 서술 사후 코딩	`[[D 결론]]`	`[[Y/N]]`
E. 행동 추적	재사용·이탈 passive metric	v2 후보 — 미수행	—

6.2 Probe 단위 체크포인트 결과

Probe	진입 조건 충족?	종료 조건 충족?	결정 합리성 (사후)
P1	`[[Y/N]]`	`[[Y/N]]`	`[[]]`
P2	`[[]]`	`[[]]`	`[[]]`
P3	`[[]]`	`[[]]`	`[[]]`
P4	`[[]]`	`[[]]`	`[[]]`
P5	`[[]]`	`[[]]`	`[[]]`
P6	`[[]]`	`[[]]`	`[[]]`
P7	`[[]]`	`[[]]`	`[[]]`
P8	`[[]]`	`[[]]`	`[[]]`

6.3 반증 조건 도달 여부 (probe 단위 + 시리즈 단위)

6.3.1 Probe 단위 (각 probe §2의 반증 조건)

Probe	반증 조건 1	반증 조건 2	반증 조건 3	결과
P1	`[[]]`	`[[]]`	`[[]]`	`[[]]`
…

6.3.2 시리즈 단위 (Probe 시퀀스 자체에 대한 반증)

조건	도달?	결과 해석
채택 probe ≤ 2개	`[[Y/N]]`	A′ 접근 (probe 시퀀스) 자체가 약함
채택 probe 끼리 충돌 (예: P5 분해 vs P7 LLM judge)	`[[Y/N]]`	v2 진입 보류
B 또는 D 재해석이 P9 결론과 정반대	`[[Y/N]]`	A·A′ 모두 의문
자가 재측정 ICC < 0.5 (어떤 지표든)	`[[Y/N]]`	그 지표 즉시 v1 제외
Track A vs B 결과 대분기 (지표 3+개)	`[[Y/N]]`	도구×LLM 조합 비교로 재포장

6.4 가설 검증 결과

가설	내용	검증 결과	출처 Probe
H1	첫 운용 시 OpenClaw 우세	`[[지지/기각/보류]]`	P9
H2′	학습 징후가 도구별 갈림	`[[]]`	P3·P8
H3	셋업 진입장벽 자체가 데이터	`[[]]`	P9
H-L2-1	7개 지표 중 3~5개만 도구 차이 드러냄	`[[N개]]`	시리즈 통합
H-L2-2	I5 ICC 가장 낮음	`[[]]`	P5 + ICC
H-L3-1	정성↔정량 정반대 케이스 ≥ 1건	`[[N건]]`	시리즈
H-L3-2	Track A vs B 갈리면 도구×LLM 조합 비교	`[[]]`	P9
H-Meta-1 (신규)	Probe 시퀀스가 batch 적용보다 통찰 ↑	`[[지지/기각]]`	P8 회고

6.5 접근 A·A′에 대한 한 줄 결론

A: [[A는 (조건)에서 유효, (조건)에서 무효]] A′: [[Probe 시퀀스 접근은 (조건)에서 유효, (조건)에서 비효율]]

6.6 본 운용(v2) 진입 여부 판단

GO 조건 (experiments/00-plan.md §6과 정합):

채택 probe ≥ 5개
P4(fork 트리거 임계) 결정 통과 (보류 아님)
채택 patch 끼리 충돌 없음
B 또는 D가 P9와 70%+ 일치

NO-GO 조건:

채택 probe ≤ 2개
P4 보류 (트리거 자체 의미 없음)
채택 patch 충돌
B/D가 P9와 정반대

판정: [[GO/NO-GO/조건부 GO]] — [[근거]]

GO 시 v2 변경 사항:

채택된 probe N개의 패치를 모두 v1 측정 프레임에 통합
C·E 프레이밍 도입 (행동 추적 hook 보강)
평가자 2명 도입 → ICC를 Cohen’s κ로 격상
기간 21일, 페르소나 추가/유지 결정

6.7 v0 → v1 변경 이력 (실험 중 사전 약속 수정)

일시	문서	항목	변경 사유	History commit
`[[YYYY-MM-DD HH:MM]]`	`[[07/08]]`	`[[]]`	`[[]]`	`[[]]`
…

이 표가 비어있을수록 사전 약속 충실도 ↑. 변경이 많아도 사전 약속의 의도된 진화임을 history/ 항목으로 증명.

6.8 메타-회고 — Probe 시리즈 자체에 대한 평가

질문	답
순차 진행이 batch 대비 더 나은 통찰을 만들었나?	`[[]]`
Probe 단위 분할이 결정 피로를 만들지 않았나?	`[[]]`
5건 채택 GO 조건이 합리적이었나?	`[[]]`
사전 작성 vs 적시 작성 분리가 사후 짜맞춤을 막았나?	`[[]]`
다음 시리즈에서 추가/제거할 probe?	`[[]]`

7. 부록

A. Raw 데이터 동결본

A.1 runs/runs.csv 전체
A.2 runs/notes.jsonl (anonymous tool ID 그대로)
A.3 runs/diary.md
A.4 runs/checkpoints.md
A.5 logs/snapshot-track-{A,B}-*.tar.gz 인덱스
A.6 experiments/P{1..9}-*.md 모든 probe 페이지 동결본

B. 결과물 샘플 (블라인드)

태스크별 1~2건씩, 도구 식별 제거 상태로 첨부.

C. 자가 재측정 ICC 산출 상세

지표별 1차 vs 재측정 표 + ICC 계산식. v2에서 Cohen’s κ로 격상.

D. 비용 산출 상세

토큰·구독·셋업 인건비 환산.

E. framing 재해석 작업 노트

E.1 B 프레이밍: raw 코딩 코드북 + 절차 + 일치도
E.2 D 프레이밍: 일기 코드북 + 절차
E.3 작성 순서 증명 — A 결과 보지 않고 작성했음을 보이는 운영 로그
E.4 C·E 보류 사유 + v2 도입 계획

F. T_burst rate-limit 인프라 데이터

runs/burst.csv — 도구별 동시 요청 시 성공률·429 도달 시점·p50/p95 latency. L1 결정 외 부록.

G. 평가자 운영 노트

G.1 시간 분리 룰 어긋난 사례
G.2 anonymous tool ID 누설 사례
G.3 평가자 자기 학습 효과 (대조군 부재 한계)

H. Probe 시리즈 운영 노트 (신규)

H.1 진입·종료 조건 위반 사례 (있었다면 기록)
H.2 의존 그래프 따라간 실제 경로 vs 계획
H.3 시퀀스 중단·재개 사례
H.4 Probe 단위 시간 추정 vs 실측 표