[보관] [샘플·상세] AI 에이전트 도입 평가 리포트
Hermes vs OpenClaw — Probe 시리즈로 검증된 측정 프레임 + L1 통합 결과
섹션 제목: “Hermes vs OpenClaw — Probe 시리즈로 검증된 측정 프레임 + L1 통합 결과”본 문서는 샘플(템플릿)입니다.
[[브라켓 표시]]부분이 실제 실험 후 채워질 자리입니다. 합의 목적: “최종 산출물이 이렇게 생긴다”를 결정권자와 먼저 합의하기 위함.본 리포트는 3층 산출물을 모두 담는다:
- Part I (§0~§4) — L1: 도구 비교 결과 (의사결정자용 핵심)
- Part II (§5) — L2: 평가 프레임워크 v1 (방법론자용 — Probe 9개 결과로 구성)
- Part III (§6) — L3: Probe 시퀀스 접근 자체에 대한 평가 (연구자용) Part I만 보고 결정 가능, Part II/III는 재현·반박 가능성을 위한 부록 성격.
상세 버전 — 청중: 방법론자·평가 엔지니어·R&D·구매 심사. 비개발자 의사결정자에겐
easy.md를 권장.
0. 한 줄 결론 (Executive Summary)
섹션 제목: “0. 한 줄 결론 (Executive Summary)”비개발자 커뮤니티 매니저 페르소나 기준,
[[도구명]]을 추천합니다. 핵심 근거:[[지표 1줄]]. 단,[[조건]]환경에서는[[다른 도구]]가 우세했습니다.이 결론은 Probe 시퀀스 P1~P9에서 채택된 측정 프레임으로 도출됨. 채택
[[N]]개 / 폐기[[N]]개 / 보류[[N]]개. v2 본 운용 진입:[[GO/NO-GO/조건부]].
의사결정에 필요한 한 표 (P9 통합 분석 결과)
| 항목 | Hermes | OpenClaw | 차이 | 출처 Probe |
|---|---|---|---|---|
| 평균 태스크 완료 시간 (초) | [[xxx]] | [[xxx]] | [[+/- xx%]] | P9 (TTC 기본) |
| 평균 개입 횟수 (회/태스크) | [[x.x]] | [[x.x]] | [[+/- xx%]] | P9 |
| 결과물 품질 — 정확성 | [[x.x]] | [[x.x]] | [[+/- x.x]] | P5 (분해 채택 시) |
| 결과물 품질 — 즉시 사용성 | [[x.x]] | [[x.x]] | [[+/- x.x]] | P5 |
| 셋업 비용 (분, 셋업 윈도우) | [[xx]] | [[xx]] | [[xx배]] | P9 |
| 비개발자 단독 셋업 가능 | [[Y/도움/N]] | [[Y/도움/N]] | — | P9 |
| pass^3 일관성 | [[표현 — boolean·std]] | [[]] | [[]] | P3 (재정의 채택 시) |
| 메모리 자발 반영 | [[Y/N]] | [[Y/N]] | — | P8 (채택 시) |
| Trajectory tool_calls/태스크 | [[N]] | [[N]] | [[]] | P1 (채택 시) |
| 컨컬런시 견고성 (C1~C4) | [[Cx]] | [[Cx]] | — | P9 |
| 누적 토큰/구독 비용 | [[$xx]] | [[$xx]] | [[+/- xx%]] | P9 |
1. 왜 이 리포트가 필요한가 (Problem)
섹션 제목: “1. 왜 이 리포트가 필요한가 (Problem)”1.1 정성 평가의 한계
섹션 제목: “1.1 정성 평가의 한계”업계는 현재 “X 도구 좋더라” 수준으로 에이전트를 평가합니다. 개인 사용자에게는 충분하지만, 조직 도입 의사결정에는 다음 세 가지 질문에 답할 수 없습니다:
- 누구에게 좋은가 — 개발자 후기는 비개발자에게 적용되지 않음
- 얼마나 좋은가 — “빠르다”가 30% 빠른 건지 3배 빠른 건지 불명
- 재현되는가 — 같은 도구를 다른 사람이 써도 같은 결론이 나오는지 검증 불가
1.2 정성 후기가 충돌하는 실제 사례
섹션 제목: “1.2 정성 후기가 충돌하는 실제 사례”[[수집: 같은 도구에 대해 정반대로 평가한 후기 3~5건]]
1.3 본 리포트의 기여 — 측정 프레임을 먼저 검증한 정량 비교
섹션 제목: “1.3 본 리포트의 기여 — 측정 프레임을 먼저 검증한 정량 비교”본 리포트의 핵심 차별점은 “측정 도구를 먼저 검증하고 그 다음 도구를 비교했다”:
- 9개의 미니 실험(Probe P1~P9)으로 측정 프레임 자체를 흔들어봄
- 채택된 패치만 본 비교(P9)에 사용
- → “측정 자체가 의심스러우면 결론도 의심스럽다”라는 메타-비판 사전 차단
2. 평가 프레임 (Methodology)
섹션 제목: “2. 평가 프레임 (Methodology)”2.1 페르소나 — “민지”
섹션 제목: “2.1 페르소나 — “민지””비개발자 커뮤니티 운영자. 4~5개 AI 커뮤니티 통합 운영. 코딩 불가, 자연어 지시만 가능.
상세:
01-experiment-design.md§2
2.2 Probe 시퀀스 (P1~P9) — 측정 프레임 검증
섹션 제목: “2.2 Probe 시퀀스 (P1~P9) — 측정 프레임 검증”핵심 설계 결정: 하루 1 패치 + 다른 변수 고정. 한 번에 다 박으면 어느 패치가 효과인지 분리 불가 → 순차 ablation.
| Probe | 패치 | 의존 | 결정 | History commit |
|---|---|---|---|---|
| P1 | Trajectory 자동 추출 | — | 채택 (외부 통합 검증 메트릭으로 재정의) | history/42 |
| P2 | 함수호출 0회 자동 fail | P1 | [[]] | [[]] |
| P3 | pass^3 boolean 재정의 | — | [[]] | [[]] |
| P4 | fork 트리거 임계 완화 | P3 | [[]] | [[]] |
| P5 | I5 2-차원 분해 | P1 권장 | [[]] | [[]] |
| P6 | TTC × 품질 페어 산점도 | P5 | [[]] | [[]] |
| P7 | LLM-as-judge ρ 시범 | P5 | [[]] | [[]] |
| P8 | Memory 1축 | P3 | [[]] | [[]] |
| P9 | L1 통합 분석 (Hermes vs OpenClaw) | P1~P8 | [[]] | [[]] |
상세:
experiments/00-plan.md, 각 probe 문서experiments/P{1..9}-*.md
2.3 Probe 채택·폐기 룰 (사전 약속)
섹션 제목: “2.3 Probe 채택·폐기 룰 (사전 약속)”각 probe 시작 직전에 §2(반증 조건) 작성. 종료 시 §6(결정) 채움. 결정은 셋 중 하나:
| 라벨 | 조건 | v2 반영 |
|---|---|---|
| 채택 | 반증 조건 미도달, 효과 입증 | v1 측정 프레임에 포함 |
| 폐기 | 반증 조건 도달, 효과 없음/역효과 | v1 제외, 사망 사유 기록 |
| 보류 | 측정 불가·노이즈로 결정 불가 | v2에서 재시도 |
2.4 측정 지표 (probe 결과로 확정)
섹션 제목: “2.4 측정 지표 (probe 결과로 확정)”P9에서 사용한 최종 지표 셋 — Probe 결과에 따라 동적으로 결정됨:
| 지표 | 정의 | 단위 | 출처 Probe (채택된 것만) |
|---|---|---|---|
| TTC | 태스크 시작 → 완료 시간 | 초 | (기본) |
| 개입 횟수 | 추가 지시·수정 횟수 | 회 | (기본) |
| 셋업 비용 | 셋업 윈도우 동안 소요 분 | 분 | (기본) |
| 셋업 가능 여부 | 비개발자 단독 가능했나 | Y/도움/N | (기본) |
| 결과물 품질 | [[1~5 단일 / 정확성+사용성 2축]] | [[1~5 / 1~5×2]] | [[P5 결과에 따라]] |
| 반복 학습 징후 | [[pass^3 boolean / std / 폐기]] | [[]] | [[P3 결과에 따라]] |
| 누적 자산 | 자동 생성/수동 추가된 스킬 수 | 개 | (기본) |
| 컨컬런시 견고성 (I8) | C1~C4 라벨 | label | (기본) |
| Trajectory | tool_calls/unique_tools/sequence | 카운트·순서 | [[P1 채택 시]] |
| 함수호출 fail 룰 | 0 호출 시 자동 fail 적용 | bool | [[P2 채택 시]] |
| TTC × 품질 페어 | ”빠른데 품질 낮은” 별도 카운트 | n | [[P6 채택 시]] |
| LLM judge ρ | 자동 채점 vs 인간 채점 Spearman | ρ | [[P7 채택 시]] |
| Memory 자발 반영 | 1회차 교정이 2회차에 반영됐나 | bool | [[P8 채택 시]] |
2.5 결과물 품질 채점 루브릭 (P5 결과에 따라 분기)
섹션 제목: “2.5 결과물 품질 채점 루브릭 (P5 결과에 따라 분기)”Case A — P5 폐기 (단일 척도 1~5 유지)
| 점수 | 정의 |
|---|---|
| 5 | 그대로 발송 가능 / 4 |
Case B — P5 채택 (2축 분해)
| 차원 | 1~5 정의 |
|---|---|
| 정확성 (사실 오류 빈도) | 5: 0건 / … / 1: 다수 |
| 즉시 사용성 (편집 부담) | 5: 그대로 / … / 1: 폐기 |
채점 무결성 보장
- 결과물에서 도구 식별 정보 제거(블라인드)
- 평가자 1명, 시간 분리(즉시 정량 → 30분 텀 → 정성)
- 각 probe 종료 시 자가 재채점 → ICC 산출
- ICC ≥ 0.7 미만이면 루브릭 재정의 후 재채점
- v2 본 운용 시 평가자 2인 + Cohen’s κ로 격상 예정
2.6 편향 제거 (Threats to Validity)
섹션 제목: “2.6 편향 제거 (Threats to Validity)”| 위협 | 통제 방법 |
|---|---|
| 모델 차이 | 두-트랙 백엔드 (Track A: Claude Code, Track B: Codex) |
| 학습 누수 | 한 도구 결과를 다른 도구에 보여주지 않음 |
| 순서 효과 | 매일 코인 토스로 도구 사용 순서 결정 |
| 페르소나 일탈 | 모든 지시는 자연어 (T_burst만 예외) |
| 셋업 무한 확장 | OpenClaw 셋업 윈도우 제한 후 동결 |
| 평가자 편향 | 1명 운영, 시간 분리, 자가 재측정 ICC, anonymous tool ID |
| Rate-limit 오염 | T_burst는 main 측정 완료 후 마지막 1회만 |
| 변수 혼동 | Probe 단위로 1 패치만 검증, 다른 변수 고정 |
| 사후 짜맞춤 | Probe 문서 §1~§4를 시작 직전 작성, §5·§6은 실시간 |
상세:
02-constraints.mdC1~C9,experiments/00-plan.md§4
2.7 일정 (Probe 시리즈 + L1 통합)
섹션 제목: “2.7 일정 (Probe 시리즈 + L1 통합)”| 일자 | Probe / 활동 | 결과 commit |
|---|---|---|
| Day X | P1 Trajectory 자동 추출 (4~6h) | [[]] |
| Day X+1 | P2 함수호출 0회 fail (1~2h) | [[]] |
| Day X+2 | P3 pass^3 boolean 재정의 (5~7h) | [[]] |
| Day X+3 | P4 fork 임계 완화 (0.5h) | [[]] |
| Day X+4 | P5 I5 2-차원 분해 (3~4h) | [[]] |
| Day X+5 | P6 TTC×품질 페어 산점도 (1h) | [[]] |
| Day X+6 | P7 LLM-as-judge ρ 시범 (4~5h) | [[]] |
| Day X+7 | P8 Memory 1축 (4~5h) | [[]] |
| Day X+8~X+10 | P9 L1 통합 — Hermes vs OpenClaw 본 비교 (Track A·B, 2~3h) | [[]] |
총 ≈ 9~11일 (probe 사이 휴식·기록·결정 commit 포함). 하루 1 probe 원칙(experiments/00-plan.md §3, 변수 분리). P9가 본 비교 단계 — 앞 8개 probe 결과로 확정된 측정 프레임 사용.
3. 결과 (Results)
섹션 제목: “3. 결과 (Results)”3.1 Probe별 결과 카드 (P1~P8)
섹션 제목: “3.1 Probe별 결과 카드 (P1~P8)”각 probe의 1줄 결과 + 채택 여부.
| Probe | 핵심 질문 | 결과 | 결정 |
|---|---|---|---|
| P1 Trajectory | hook 자동 추출 trajectory가 정량/정성과 다른 결론? | T1 1 trial: 양쪽 도구 tool_calls=0·has_external=N — 변별 X. 변별 못 한 사실 자체가 정량/정성에선 못 잡는 “외부 통합 강조 OpenClaw도 실제론 안 씀” 명시 → 결이 다른 결론 | 채택 (외부 통합 검증 메트릭으로 재정의) — history/42 |
| P2 함수호출 0회 fail | 외부 호출 0회면 결과 좋아도 fail — reward-hacking 차단 가치? | [[]] | [[]] |
| P3 pass^3 재정의 | 3회 모두 ≥ 4 boolean이 std보다 학습 징후에 강한가? | [[]] | [[]] |
| P4 fork 임계 완화 | 5+ → 3+ (또는 정성↔정량 정반대 1건)으로 트리거 의미 발동? | [[]] | [[]] |
| P5 I5 2축 분해 | 정확성 + 즉시 사용성 분해가 변별력 올림? | [[]] | [[]] |
| P6 TTC×품질 | ”빠른데 품질 낮은” Goodhart 가드가 신호? | [[]] | [[]] |
| P7 LLM judge ρ | codex 자동 채점 vs 민지 채점 ρ ≥ 0.7? | [[ρ=x.xx]] | [[]] |
| P8 Memory 1축 | 1회차 교정이 2회차 자발 반영 — H2′ 직접 증거? | [[]] | [[]] |
3.2 P9 — L1 통합 분석 (Hermes vs OpenClaw)
섹션 제목: “3.2 P9 — L1 통합 분석 (Hermes vs OpenClaw)”P1~P8에서 채택된 측정 프레임으로 본 비교 실행.
3.2.1 도구별 종합 점수
섹션 제목: “3.2.1 도구별 종합 점수”[[종합 표 — §0 표를 더 세분화. 채택된 probe 메트릭 반영]]
3.2.2 학습 징후 (P3·P8 결과 통합)
섹션 제목: “3.2.2 학습 징후 (P3·P8 결과 통합)”[[그래프: 핵심 5태스크의 1회차 vs 3회차. P3 채택 시 boolean 비율, 폐기 시 std]]
3.2.3 카테고리별 강점
섹션 제목: “3.2.3 카테고리별 강점”| 카테고리 | 우세 도구 | 격차 |
|---|---|---|
| 이벤트 운영 | [[도구]] | [[xx%]] |
| 사람 관리 | [[도구]] | [[xx%]] |
| 일상 관리 | [[도구]] | [[xx%]] |
| 컨컬런시 (T_concurrent) | [[도구]] | [[Cx vs Cx]] |
3.2.4 LLM 변량 영향 — Track A vs Track B
섹션 제목: “3.2.4 LLM 변량 영향 — Track A vs Track B”| 지표 | Track A | Track B | 같은 도구 가리킴? |
|---|---|---|---|
| TTC | [[]] | [[]] | [[Y/N]] |
| 품질 | [[]] | [[]] | [[Y/N]] |
| … |
[[Track A vs B 분기 시 해석]]
3.3 의외의 발견 (Qualitative Findings)
섹션 제목: “3.3 의외의 발견 (Qualitative Findings)”[[2~4개 슬롯 — 정성 메모·일기에서 추출]]
3.4 비용 분석
섹션 제목: “3.4 비용 분석”| 항목 | Hermes | OpenClaw |
|---|---|---|
| 누적 토큰/구독 비용 | [[$xx]] | [[$xx]] |
| 셋업 인건비 환산 | [[$xx]] | [[$xx]] |
| 시리즈 총 비용 | [[$xx]] | [[$xx]] |
| 태스크당 비용 | [[$x.xx]] | [[$x.xx]] |
4. 권고 (Recommendation)
섹션 제목: “4. 권고 (Recommendation)”4.1 페르소나별 권고
섹션 제목: “4.1 페르소나별 권고”| 조직 형태 | 추천 도구 | 근거 |
|---|---|---|
| 비개발자 단독 운영팀 | [[]] | [[]] |
| 개발자 1인 + 비개발자 다수 | [[]] | [[]] |
| 외부 통합 비중 높은 팀 | [[]] | [[]] |
| 반복 업무 비중 높은 팀 | [[]] | [[]] |
| 컨컬런시 비중 높은 팀 (멀티 채널) | [[]] | [[]] |
4.2 도입 시 주의사항
섹션 제목: “4.2 도입 시 주의사항”[[3~5개 항목]]
4.3 본 리포트가 답하지 않는 것 (Limitations)
섹션 제목: “4.3 본 리포트가 답하지 않는 것 (Limitations)”- N=1 페르소나, N=1 평가자 — 일반화 한계
- 시리즈 9~11일 — 장기 학습(2주+)은 미관측. P3·P8가 징후만 잡음
- 한국어 환경 한정
- 본 결과는
[[실험 일자]]시점 도구 버전 기준 - v2(본 운용)에서 답할 것 — §6.7 참조
5. 평가 프레임워크 v1 (Part II — L2 산출물)
섹션 제목: “5. 평가 프레임워크 v1 (Part II — L2 산출물)”이 섹션은 Probe 시리즈에서 채택된 패치만 모아 다른 조직이 그대로 쓸 수 있게 한 부분이다.
5.1 채택·폐기·보류 사망/생존 표 (probe 단위)
섹션 제목: “5.1 채택·폐기·보류 사망/생존 표 (probe 단위)”| 패치 (Probe) | 채택? | 사유 (1줄) | v2 영향 |
|---|---|---|---|
| Trajectory 자동 추출 (P1) | 채택 | trajectory가 정량/정성과 결이 다른 결론(외부 통합 0 명시)을 가리킴, R1~R3 미도달 | v1에 tool_calls_count·unique_tools_used·has_external_call 컬럼 유지, 외부 통합 검증 메트릭으로 재정의 |
| 함수호출 0회 fail (P2) | [[]] | [[]] | [[]] |
| pass^3 boolean (P3) | [[]] | [[]] | [[]] |
| fork 임계 완화 (P4) | [[]] | [[]] | [[]] |
| I5 2축 분해 (P5) | [[]] | [[]] | [[]] |
| TTC × 품질 페어 (P6) | [[]] | [[]] | [[]] |
| LLM judge (P7) | [[]] | [[]] | [[]] |
| Memory 1축 (P8) | [[]] | [[]] | [[]] |
5.2 신뢰성 검증 결과 (probe 단위 ICC)
섹션 제목: “5.2 신뢰성 검증 결과 (probe 단위 ICC)”| 지표 | 1차 측정 | 자가 재측정 | ICC | 통과? |
|---|---|---|---|---|
| TTC | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 개입 횟수 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 셋업 비용 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 셋업 가능 여부 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 결과물 품질 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 반복 학습 징후 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 누적 자산 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| 컨컬런시 견고성 | [[]] | [[]] | [[x.xx]] | [[Y/N]] |
| (채택된 신규 지표) | [[]] | [[]] | [[]] | [[]] |
5.3 v1 측정 프로토콜 (살아남은 지표만)
섹션 제목: “5.3 v1 측정 프로토콜 (살아남은 지표만)”[[채택된 패치를 모두 반영한 통합 측정 프로토콜 — 시작/종료 시점 정의, 평가자 운영 룰, ICC 검증 절차]]
5.4 신규 후보 지표 (실험 중 발견)
섹션 제목: “5.4 신규 후보 지표 (실험 중 발견)”[[probe 진행 중 정성 메모·raw에서 등장한 신호 — 다음 버전(v2 또는 v1.x)에 후보]]
5.5 재현 키트
섹션 제목: “5.5 재현 키트”다른 조직이 자기 페르소나로 같은 비교를 돌릴 수 있는 산출물:
| 산출물 | 용도 | 위치 |
|---|---|---|
| 페르소나 카드 템플릿 | 자기 조직 페르소나로 치환 | [[]] |
| 태스크 카탈로그 | 자기 업무에서 10개 + T_concurrent·T_burst 가이드 | [[]] |
| 지표 스펙 v1 | 채택된 probe 결과 반영, 6칸 정의 | [[]] |
| Probe 시퀀스 가이드 | 자기 조직에서 probe를 어떻게 실행할지 | [[]] |
| 채점 루브릭 + 예시집 | 평가자 교육용 (P5 결과 반영) | [[]] |
| 로그 CSV·메모 JSONL·일기 양식 | 3단 채집 (C7) | [[]] |
| 시뮬레이션 데이터 생성 스크립트 | 진짜 데이터 안 써도 됨 | [[]] |
| 셋업 가이드 | Day 0 환경 구축 | [[]] |
| 평가자 1인 운영 가이드 | 시간 분리·anonymous tool ID 룰 | [[]] |
6. 접근에 대한 평가 (Part III — L3 산출물)
섹션 제목: “6. 접근에 대한 평가 (Part III — L3 산출물)”본 시리즈는 두 가지 접근을 동시에 검증했다:
- A. 지표 사전정의 후 측정 (기존 가설)
- A′. Probe 시퀀스로 측정 프레임 자체를 먼저 검증 (이번 시리즈가 채택한 새 메타-접근)
이 두 접근이 다른 4종 대안 대비 우월했는가? 같은 raw로 5종 프레이밍 재해석. 상세는
08-meta-eval.md.
6.1 5종 프레이밍 사후 비교 (A·B·D 채택, C·E 보류)
섹션 제목: “6.1 5종 프레이밍 사후 비교 (A·B·D 채택, C·E 보류)”| 프레이밍 | 정의 | 본 시리즈 결론 | A와 일치? |
|---|---|---|---|
| A. 지표 사전정의 | 본 실험이 채택 | [[L1 결론]] | — |
| B. 사후 코딩 | raw 로그에서 패턴 사후 추출 | [[B 결론]] | [[Y/N + 어디서 갈렸나]] |
| C. 결과 도달률 | ”그 태스크를 결국 했냐” Y/N | v2 후보 — 미수행 | — |
| D. 사용자 일기 | 매일 자유 서술 사후 코딩 | [[D 결론]] | [[Y/N]] |
| E. 행동 추적 | 재사용·이탈 passive metric | v2 후보 — 미수행 | — |
6.2 Probe 단위 체크포인트 결과
섹션 제목: “6.2 Probe 단위 체크포인트 결과”| Probe | 진입 조건 충족? | 종료 조건 충족? | 결정 합리성 (사후) |
|---|---|---|---|
| P1 | [[Y/N]] | [[Y/N]] | [[]] |
| P2 | [[]] | [[]] | [[]] |
| P3 | [[]] | [[]] | [[]] |
| P4 | [[]] | [[]] | [[]] |
| P5 | [[]] | [[]] | [[]] |
| P6 | [[]] | [[]] | [[]] |
| P7 | [[]] | [[]] | [[]] |
| P8 | [[]] | [[]] | [[]] |
6.3 반증 조건 도달 여부 (probe 단위 + 시리즈 단위)
섹션 제목: “6.3 반증 조건 도달 여부 (probe 단위 + 시리즈 단위)”6.3.1 Probe 단위 (각 probe §2의 반증 조건)
섹션 제목: “6.3.1 Probe 단위 (각 probe §2의 반증 조건)”| Probe | 반증 조건 1 | 반증 조건 2 | 반증 조건 3 | 결과 |
|---|---|---|---|---|
| P1 | [[]] | [[]] | [[]] | [[]] |
| … |
6.3.2 시리즈 단위 (Probe 시퀀스 자체에 대한 반증)
섹션 제목: “6.3.2 시리즈 단위 (Probe 시퀀스 자체에 대한 반증)”| 조건 | 도달? | 결과 해석 |
|---|---|---|
| 채택 probe ≤ 2개 | [[Y/N]] | A′ 접근 (probe 시퀀스) 자체가 약함 |
| 채택 probe 끼리 충돌 (예: P5 분해 vs P7 LLM judge) | [[Y/N]] | v2 진입 보류 |
| B 또는 D 재해석이 P9 결론과 정반대 | [[Y/N]] | A·A′ 모두 의문 |
| 자가 재측정 ICC < 0.5 (어떤 지표든) | [[Y/N]] | 그 지표 즉시 v1 제외 |
| Track A vs B 결과 대분기 (지표 3+개) | [[Y/N]] | 도구×LLM 조합 비교로 재포장 |
6.4 가설 검증 결과
섹션 제목: “6.4 가설 검증 결과”| 가설 | 내용 | 검증 결과 | 출처 Probe |
|---|---|---|---|
| H1 | 첫 운용 시 OpenClaw 우세 | [[지지/기각/보류]] | P9 |
| H2′ | 학습 징후가 도구별 갈림 | [[]] | P3·P8 |
| H3 | 셋업 진입장벽 자체가 데이터 | [[]] | P9 |
| H-L2-1 | 7개 지표 중 3~5개만 도구 차이 드러냄 | [[N개]] | 시리즈 통합 |
| H-L2-2 | I5 ICC 가장 낮음 | [[]] | P5 + ICC |
| H-L3-1 | 정성↔정량 정반대 케이스 ≥ 1건 | [[N건]] | 시리즈 |
| H-L3-2 | Track A vs B 갈리면 도구×LLM 조합 비교 | [[]] | P9 |
| H-Meta-1 (신규) | Probe 시퀀스가 batch 적용보다 통찰 ↑ | [[지지/기각]] | P8 회고 |
6.5 접근 A·A′에 대한 한 줄 결론
섹션 제목: “6.5 접근 A·A′에 대한 한 줄 결론”A:
[[A는 (조건)에서 유효, (조건)에서 무효]]A′:[[Probe 시퀀스 접근은 (조건)에서 유효, (조건)에서 비효율]]
6.6 본 운용(v2) 진입 여부 판단
섹션 제목: “6.6 본 운용(v2) 진입 여부 판단”GO 조건 (experiments/00-plan.md §6과 정합):
- 채택 probe ≥ 5개
- P4(fork 트리거 임계) 결정 통과 (보류 아님)
- 채택 patch 끼리 충돌 없음
- B 또는 D가 P9와 70%+ 일치
NO-GO 조건:
- 채택 probe ≤ 2개
- P4 보류 (트리거 자체 의미 없음)
- 채택 patch 충돌
- B/D가 P9와 정반대
판정: [[GO/NO-GO/조건부 GO]] — [[근거]]
GO 시 v2 변경 사항:
- 채택된 probe N개의 패치를 모두 v1 측정 프레임에 통합
- C·E 프레이밍 도입 (행동 추적 hook 보강)
- 평가자 2명 도입 → ICC를 Cohen’s κ로 격상
- 기간 21일, 페르소나 추가/유지 결정
6.7 v0 → v1 변경 이력 (실험 중 사전 약속 수정)
섹션 제목: “6.7 v0 → v1 변경 이력 (실험 중 사전 약속 수정)”| 일시 | 문서 | 항목 | 변경 사유 | History commit |
|---|---|---|---|---|
[[YYYY-MM-DD HH:MM]] | [[07/08]] | [[]] | [[]] | [[]] |
| … |
이 표가 비어있을수록 사전 약속 충실도 ↑. 변경이 많아도 사전 약속의 의도된 진화임을 history/ 항목으로 증명.
6.8 메타-회고 — Probe 시리즈 자체에 대한 평가
섹션 제목: “6.8 메타-회고 — Probe 시리즈 자체에 대한 평가”| 질문 | 답 |
|---|---|
| 순차 진행이 batch 대비 더 나은 통찰을 만들었나? | [[]] |
| Probe 단위 분할이 결정 피로를 만들지 않았나? | [[]] |
| 5건 채택 GO 조건이 합리적이었나? | [[]] |
| 사전 작성 vs 적시 작성 분리가 사후 짜맞춤을 막았나? | [[]] |
| 다음 시리즈에서 추가/제거할 probe? | [[]] |
7. 부록
섹션 제목: “7. 부록”A. Raw 데이터 동결본
섹션 제목: “A. Raw 데이터 동결본”- A.1
runs/runs.csv전체 - A.2
runs/notes.jsonl(anonymous tool ID 그대로) - A.3
runs/diary.md - A.4
runs/checkpoints.md - A.5
logs/snapshot-track-{A,B}-*.tar.gz인덱스 - A.6
experiments/P{1..9}-*.md모든 probe 페이지 동결본
B. 결과물 샘플 (블라인드)
섹션 제목: “B. 결과물 샘플 (블라인드)”태스크별 1~2건씩, 도구 식별 제거 상태로 첨부.
C. 자가 재측정 ICC 산출 상세
섹션 제목: “C. 자가 재측정 ICC 산출 상세”지표별 1차 vs 재측정 표 + ICC 계산식. v2에서 Cohen’s κ로 격상.
D. 비용 산출 상세
섹션 제목: “D. 비용 산출 상세”토큰·구독·셋업 인건비 환산.
E. framing 재해석 작업 노트
섹션 제목: “E. framing 재해석 작업 노트”- E.1 B 프레이밍: raw 코딩 코드북 + 절차 + 일치도
- E.2 D 프레이밍: 일기 코드북 + 절차
- E.3 작성 순서 증명 — A 결과 보지 않고 작성했음을 보이는 운영 로그
- E.4 C·E 보류 사유 + v2 도입 계획
F. T_burst rate-limit 인프라 데이터
섹션 제목: “F. T_burst rate-limit 인프라 데이터”runs/burst.csv — 도구별 동시 요청 시 성공률·429 도달 시점·p50/p95 latency. L1 결정 외 부록.
G. 평가자 운영 노트
섹션 제목: “G. 평가자 운영 노트”- G.1 시간 분리 룰 어긋난 사례
- G.2 anonymous tool ID 누설 사례
- G.3 평가자 자기 학습 효과 (대조군 부재 한계)
H. Probe 시리즈 운영 노트 (신규)
섹션 제목: “H. Probe 시리즈 운영 노트 (신규)”- H.1 진입·종료 조건 위반 사례 (있었다면 기록)
- H.2 의존 그래프 따라간 실제 경로 vs 계획
- H.3 시퀀스 중단·재개 사례
- H.4 Probe 단위 시간 추정 vs 실측 표