[보관] 42. P1 결정 — Trajectory 자동 추출 채택 (외부 통합 검증 메트릭으로 재정의)

시각: 2026-04-28 14:00~~15:30 KST 선행: history/40·41 (Track A compat PASS), experiments/P1/00-plan.md §1~~§4 산출: experiments/P1/00-plan.md §5·§6 채움, runs/runs.csv 2 행, runs/compat_check.csv 1 행, logs/history-{openclaw,hermes}.session.{jsonl,json} raw 4건

무엇이 있었나

P1 본 가설 = “hook 로그(또는 OpenClaw .trajectory.jsonl / Hermes ~/.hermes/sessions/)에서 자동 산출되는 trajectory 메트릭이 정량 7-지표·정성 메모와 다른 결론을 만드는가” 검증.

실측 데이터 (P1)

항목	OpenClaw	Hermes
Trial 시각	14:47~14:49 (정식, 폐기 후 재진입)	15:25:59~15:26:19 (정식, 폐기 후 재진입)
Quality (전체·정확성·즉시사용성)	4 / 4 / 3	5 / 4 / 4
TTC	N/A (TUI 24분 lag로 무효, post-Slack probe 이월)	20.6초 (참고치)
`tool_calls_count`	0	0
`unique_tools_used`	0	0
`has_external_call`	N	N
Intervention	0	0

폐기 trial (보존)

OpenClaw 폐기: 14:04~14:34, 세션 리플레이로 스모크 컨텍스트 누적 (C5 위반). raw=logs/discarded-openclaw-2026-04-28-1404.session.jsonl. TUI 24분 lag·prompt 3회 캡처·startup 배너 흡수 = H3(비개발자 진입장벽) 직접 데이터.
Hermes 폐기: 15:21~15:22, user 실수로 부분 prompt + 전체 prompt → 1차 응답이 2차 응답에 컨텍스트 누적. raw=logs/discarded-hermes-2026-04-28-1521.session.json.

폐기 사유의 비대칭성 — OpenClaw 폐기는 시스템 결함(세션 자동 리플레이), Hermes 폐기는 user 측 실수. 일관성 위해 양쪽 다 새 세션 깨끗한 1 turn으로 재진입.

세 데이터 소스 비교 (§5.4 요약)

비교 축	정량 결론	정성 결론	Trajectory 결론
어느 도구가 더 좋나	Hermes 살짝 우위 (5/4/4 vs 4/4/3)	Hermes 선호 — 톤 적절성·관용 문구 포함, OpenClaw 캐주얼 과잉 (“그냥 편하게 수다 ㄱㄱ”)으로 밋업에 톤 부적합	동률 — 둘 다 0 (외부 통합 0)
어느 지표가 죽일 후보	TTC(I3) 본 P1 무효, has_external_call 본 페르소나·1 task 변별 X	quality_score 단일 점수가 호불호 영역 신호를 변별로 오인 위험 → P5(I5 분해) 정당성	tool_calls·unique_tools 본 task 변별 X (둘 다 0)
정성-정량 불일치 위치	정량 미세 우위 신호 (전체+1)	정성 형식·관용구 포함 여부로 호 판단 — 정량 정확성·즉시사용성과는 다른 차원	trajectory가 외부 통합 0 명시 (정량/정성에선 못 잡음)

차이 발견 3/3 → P1 pass (R1·R2·R3 모두 미도달).

왜 그렇게 갔나

채택 사유

§2 R1(가치 부재) 미도달 — trajectory가 변별을 못 한 것 자체가 정량/정성과 다른 결론(“외부 통합 강조한 OpenClaw도 실제론 안 씀”)을 가리킴. 정량 7-지표·정성 메모 단독으론 못 잡는 사실을 trajectory만 명시.

§2 R2(실용성 실패) 미도달 — parse 스크립트 미작성, OpenClaw·Hermes 둘 다 자체 trajectory 또는 session 로그를 이미 떨어트림 → “비용 ≈ 0” 가정 통과.

§2 R3(해석 불가) 미도달 — 두 도구 모두 0이라는 해석 가능한 같은 결론이지만 그 사실 자체가 quantitative·qualitative와 결이 다른 데이터.

측정 방법 재정의 (채택 후 룰)

trajectory의 진짜 가치 = R1(가치 부재) 검증보다 외부 통합 검증. 채택 룰:

정량 점수 차이 < 1.0 (전체) + trajectory 둘 다 0 → “변별 신호 없음, 호불호로 결론 보호”
trajectory 변별 X 자체가 외부 통합 강조한 도구가 실제론 안 쓴다의 직접 증거
TTC(I3) 본 P1 무효화는 그대로 — post-Slack 메신저 probe로 이월

TTC 무효화 결정 (P1 단발 적용)

OpenClaw chat --local TUI가 비개발자가 사용 불가한 수준 lag (24분 입력 지연·prompt 3회 캡처·배너 흡수). I/O layer 차이가 도구 비교 신호 압도 → I3 측정 자체 무효. 양쪽 도구 비교 일관성 위해 Hermes 측 TTC도 참고치로만 (20.6초). 정식 측정은 메신저 통합 probe(별도 시점) 이후.

새 인사이트 (P5·P9에 입력)

풍부도↑·즉시성↓ trade-off 메커니즘 노출 — Hermes가 더 풍부 → 정보 부족(장소·발표자) 빈칸이 더 두드러짐 → 즉시사용성 인지에 페널티 (4점). OpenClaw도 같은 정보 부족이지만 더 단순한 응답이 빈칸을 덜 두드러지게 → 4점. 풍부도가 즉시사용성에는 페널티인 메커니즘 직접 노출 (P5 I5 분해 정당성 데이터).
사용자 가설 H_user 발견 (정성 메모에서) — “Hermes가 글을 더 좋은 포맷/형식으로 작성하는 것 같다”. OpenClaw는 톤이 캐주얼 과잉, Hermes는 관용 문구·구조 포함. 본 P1 1 trial로는 일반화 불가, 다태스크 sweep 필요. 본 P1-a 신규 probe로 추가하지 않고 기존 시리즈(P5·P9 등)에서 자연스럽게 누적 검증하기로 결정 (사용자 “원래 흐름대로” 신호).

무엇이 남았나

채택 후 적용

runs/runs.csv 헤더에 tool_calls_count·unique_tools_used·has_external_call 컬럼 그대로 유지 (이미 존재)
후속 probe(P2~P9)에서 trajectory 채집 계속
07-indicator-spec.md에 해석 룰 추가 cascade — 다음 세션 처리 (지금은 P1 closure 우선)

Probe 종료 cascade 8단계 (이 entry는 1단계, 이후 7단계 진행)

✅ probe doc §5·§6
본 entry (history/42) ← 지금
runs/checkpoints.md P1 칸 채움
reports/detailed.md §3.1 P1 행
reports/easy.md §3 9 probe 표 P1 행
daily/P1-easy.md 신규 (이미 템플릿 → 실제 데이터)
daily/P1-detailed.md 신규 (이미 템플릿 → 실제 데이터)
reports/CHANGELOG.md v0.1 추가

다음 probe — P2 (함수호출 0회 fail 룰)

P2는 외부 호출 0회면 결과만 좋아도 fail 처리가 reward-hacking 차단 가치 있나 검증. P1 결과(양 도구 모두 has_external=0)가 P2의 직접 시드 데이터 — P2 진입 시 P1 데이터가 baseline.

P2 진입 전 점검:

P1 종료 cascade 8단계 완료 (이번 세션 마무리)
메트릭 헤더 그대로
시간 분리 30분 텀 가능 여부

폴더 구조 정리 (이번 세션 부수 작업)

experiments/P1/ 폴더 신설, 00-plan.md·00-plan-easy.md·01-trial-guide.md 3 파일 그 하위로 이동. 모든 root 참조 (04-day0-setup.md·experiments/00-plan.md·experiments/00-plan-easy.md·experiments/README.md·daily/P1-detailed.md) 새 경로로 갱신.