콘텐츠로 이동

[보관] P1 Detailed — Trajectory 자동 추출 (A1) 검증

probe 시리즈 1/9. study/14 §A1 패치를 P1~P8 동안 운용하면서 동시에 본 비교(Hermes vs OpenClaw)를 진행. 본 메모는 방법론자·평가 엔지니어용 1쪽 요약 — 수치·반증 조건·C-제약 검사를 모두 포함. 비개발자 청중에겐 P1-easy.md.

날짜: 2026-04-28 14:0015:30 KST 소요: 1.5h (계획 46h — 단축 사유: parse 스크립트 미작성, 양 도구 자체 trajectory/session 로그 활용) 평가자: 1명 (시간 분리 적용 — C5) Track: A (Anthropic Claude Code OAuth) Probe doc: experiments/P1/00-plan.md


당초 hook 로그 (logs/history-${EXPERIMENT_TOOL}.jsonl)에서 자동 산출 계획. 실측 후 각 도구 자체 로그로 대체:

메트릭정의산출원
tool_calls한 trial 내 tool_use event 총 수OpenClaw ~/.openclaw/agents/main/sessions/{id}.trajectory.jsonl 또는 Hermes ~/.hermes/sessions/session_*.json messages[].content[]type=='tool_use' count
unique_tools한 trial 내 distinct tool_nameDISTINCT 집계
has_external_call외부 도구(Discord/Slack/Gmail/Calendar) 호출 1회 이상?tool_use name 검사

runs/runs.csv 컬럼 (tool_calls_count·unique_tools_used·has_external_call) 그대로 유지 (헤더 변경 X).

본 패치의 메타-가설: trajectory 메트릭이 기존 정량/정성 결론과 결이 다른 데이터를 만들면 변별력 입증 → P2~P8·P9에 채집 유지.


2. 반증 조건 (사전 약속, C8) — 측정 결과

섹션 제목: “2. 반증 조건 (사전 약속, C8) — 측정 결과”
#조건도달?측정값
R1trajectory가 정량 7-지표 + 정성 메모와 완전히 같은 도구 우열 가리킴N정량(Hermes 우위)·정성(Hermes 호) 같은 방향이지만 trajectory(둘 다 0)는 다른 차원의 사실(외부 통합 0)을 가리킴
R2parse 스크립트 작성·실행 1.5h 이상 소요 → “공짜 메트릭” 정신 위반Nparse 스크립트 미작성으로 진행. 양 도구가 자체 trajectory/session 로그 떨어트려 추가 작성 0h
R3trajectory 값이 두 도구에서 해석 가능한 차이 안 만듦 (예: 둘 다 unique_tools=1로 동일)부분 도달, W6 함정 보정 후 미도달 판정둘 다 0 → 차이 0이지만 그 자체가 해석 가능한 결론 (“외부 통합 강조 OpenClaw도 실제론 안 씀”). 1 trial 1 task 한계 — 다태스크 검증은 후속 probe로

채택 조건 (R1·R3 미도달 + R2 ≤ 30%): 통과.


메트릭OpenClawHermes차이
tool_calls000
unique_tools000
has_external_callNN
output_tokens (응답 길이)23852466 (참고)+81
Top-3 시퀀스 패턴[] (텍스트 응답 only)[] (텍스트 응답 only)

샘플: N=1 task (T1 — 행사 공지 작성·발송). Track A only. session=de91be26-... (OpenClaw) / 20260428_152552_a9aa4f (Hermes). Raw: logs/history-{openclaw,hermes}.session.{jsonl,json}, logs/discarded-* 폐기 trial 4건 보존.


4. 정량 vs 정성 vs Trajectory 결론 비교

섹션 제목: “4. 정량 vs 정성 vs Trajectory 결론 비교”
렌즈본 P1 결론trajectory 결론과 일치?
점수 (전체·정확성·즉시사용성, 1~5)OpenClaw 4/4/3, Hermes 5/4/4 — Hermes 살짝 우위부분 일치 — 정량은 도구 변별 시도, trajectory는 외부 통합 0이라는 다른 차원
정성 메모 코딩”둘이 비슷하게 느껴짐, 호불호 영역” → 보강: OpenClaw 캐주얼 과잉(밋업 톤 부적합)으로 불호, Hermes 관용 문구 포함으로 다른 차원 — 정성은 톤·형식 호 판단, trajectory는 호출 패턴
Trajectory (이번 probe)둘 다 0 — 외부 통합 시도 없음

불일치 케이스 수: 1 (정량/정성은 도구 변별, trajectory는 외부 통합 0 명시 — 변수 차원이 다름) → H-L3-1 약한 지지 신호.

가장 큰 갈림 사례: T1 행사 공지 — OpenClaw가 “외부 통합 강조 도구”인데 실제 trial에서 외부 호출 0회 + sandbox data/members.csv·channel_activity.json 미접근 (workspace=~/.openclaw/workspace/로 격리됨). 마케팅 주장과 실측 trajectory의 격차는 정량/정성으론 못 잡고 trajectory만 잡음.


제약통과비고
C3 환경 격리OpenClaw=~/.openclaw/, Hermes=~/.hermes/, hamster-lab=~/hamster-lab/. 양 도구 자체 workspace로 자동 격리됨. 단 cwd=~/hamster-lab/data/로 호출해도 OpenClaw는 자기 workspace만 봄 (sandbox data 미접근 = 본 P1의 핵심 발견).
C4 페르소나 모드자연어 지시만 (T1 본문 그대로 복붙). 추가 단서 0.
C5 시간 분리OpenClaw trial 종료 14:49 → Hermes 진입 15:21 (32분 텀). 정량 채점 직후 → 30분 텀 → 정성 메모 보강.
C6 비용 한계Track A 단독, Anthropic 구독 차감만 (종량제 0 가정 — 사용자 V4 확인은 본 P1 종료 후).
C7 3단 채집raw(자동: trajectory.jsonl + session jsonl/json) + 정량(runs.csv 2행) + 정성(runs/notes.jsonl + 본 P1 §5.3 통합 메모).
C8 반증 사전R1·R2·R3 §2에 experiments/P1/00-plan.md §2로 사전 박힘.
C9 평가 forktrajectory는 Quant 트랙 산출. Qual 트랙은 정성 메모로 별도 처리. anonymous 라벨링은 §5.3에서 적용 (사용자 메모는 도구명 사용했으나 §5.3에 익명 매핑 후 인용).

6. 자가 재측정 (W4 신뢰성 검증) — 미수행 사유

섹션 제목: “6. 자가 재측정 (W4 신뢰성 검증) — 미수행 사유”

본 P1 1 trial 1 task로 N=2 raw만 확보 → 자가 재채점은 데이터 부족으로 시리즈 단위 (P2 누적 후) 진행. 다음 probe 종료 cascade 시 다시 검토.

메트릭ICC통과 (≥0.7)
tool_calls미수행
unique_tools미수행
sequence (Levenshtein 유사도)미수행

채택 — trajectory 메트릭을 외부 통합 검증 메트릭으로 재정의

근거:

  • 반증 조건 도달: 0/3 (R3는 W6 함정 보정 후 미도달 판정)
  • W4 ICC: 미수행 (N 부족)
  • W5 변별력: 두 도구 평균 차이 0σ — 변별 없음이 자체 결론
  • §4 정량↔trajectory 불일치 케이스: 1건 (마케팅 주장과 실측의 격차)

다음 probe 영향:

  • 채택trajectory_* 3개 컬럼을 P2~P8 모든 측정에서 유지. P2 진행 가능. P9 §3.4·§5.1에 행 추가.
  • 새 해석 룰: 정량 점수 차 < 1.0 + trajectory 둘 다 0 → “변별 없음, 호불호로 결론 보호”

  • 본 P1은 T1 1 trial만으로 결정 — 다태스크 일반성은 시리즈 누적으로 검증 (P2~P9에서 trajectory 채집 계속).
  • TTC(I3) 본 P1에서 무효화 — OpenClaw chat --local TUI가 비개발자에게 사용 불가 수준 lag (24분 입력 지연·prompt 3회 캡처). I/O layer 차이가 도구 비교 신호 압도. post-Slack 메신저 probe로 이월 — 메신저(슬랙/디스코드 통합) 통한 호출이 양 도구의 진짜 사용 환경에 가까우므로 그 시점에 TTC 재측정.
  • 양 도구 trajectory 추출 방식 비대칭: OpenClaw는 .trajectory.jsonl 자동 (provider trace 포함), Hermes는 session JSON에서 messages 검사. 추출 절차 표준화는 v2에서.
  • 사용자 가설 H_user (Hermes 포맷 우위) 발견 — 본 P1 1 trial로 일반화 불가, 후속 probe(P5·P9 등)에서 다태스크 누적 검증.

일시문서항목사유History commit
2026-04-28 14:50experiments/P1/00-plan.md §5.0TTC(I3) 본 P1 무효화 결정OpenClaw TUI 24분 lag로 I/O layer 차이가 도구 신호 압도history/42
2026-04-28 14:55runs/runs.csv openclaw 행quality_usability 5 → 4 → 3 (사용자 정정)같은 정보 부족 페널티(Hermes와 동일) → 톤 캐주얼 과잉으로 1~2회 템플릿 재공급 필요history/42
2026-04-28 15:30experiments/P1/00-plan.md §6채택 사유 재정의 (R1 검증 → 외부 통합 검증)trajectory의 진짜 가치가 변별보다 외부 통합 검증에 있음을 §5.4 비교에서 발견history/42

Probe doc 원본: experiments/P1/00-plan.md 결정 commit: history/42-p1-decision.md easy 버전 (비개발자용): P1-easy.md 시리즈 운영 룰: experiments/00-plan.md