[보관] 외부 작업 가이드 (사용자 액션 시퀀스)

04-day0-setup.md(체크리스트)와 05-compat-check.md(검증 절차)의 내러티브 버전. 위에서 아래로 순서대로 따라가면 됨. 막히면 단계와 에러 메시지를 다음 세션에 가져오기.

이 문서는 L1 사례 진입용이다. L2/L3 셋업(정성 메모·일기 양식·도구 익명 매핑)은 STEP 4.5에 추가됨 — Day 1 첫 태스크 전에 생성돼야 한다.

C1이 두-트랙 백엔드(Track A=Claude Code → Track B=Codex) + probe 시리즈 운영(experiments/00-plan.md)으로 변경됨에 따라 STEP 순서도 재배열.

STEP 0. 사전 준비

평소 쓰는 ~/.claude/(Claude Code)와 분리하고 싶다면 별도 Anthropic 계정 활성화 권장
Hermes 설치는 이미 완료(history/22) — provider=anthropic, Claude Code OAuth로 인증된 상태

STEP 1. (보류) ChatGPT 구독 + Codex CLI

ChatGPT Plus(또는 Pro) 활성화는 Track B를 사용하는 첫 probe 진입 직전에 점검
codex CLI 설치·로그인·스모크 테스트는 history/21에서 이미 완료
따라서 P1 진입 셋업 단계에서는 추가 액션 없음

STEP 2. (완료) Hermes 설치

curl -fsSL https://hermes-agent.nousresearch.com/install.sh | bash
설치는 완료됨 (history/22). 현재 provider=anthropic, Claude Code OAuth import됨
Track A 시작 상태로 직결

STEP 3. OpenClaw 설치 — 현재 다음 액션

OpenClaw 공식 가이드 URL을 먼저 확인 후 다음 세션에 공유
설치 위치 ~/.openclaw/ 하위로 강제 (환경 격리 C3)
V1·V2 검증 — Anthropic 백엔드 지원
- 공식 문서/README에서 “anthropic”, “claude”, “claude-code” 키워드 검색
- config 파일 또는 CLI 플래그로 anthropic provider 지정 가능한지
설정·스킬도 ~/.openclaw/ 안에만 쓰는지 확인
인증: Claude API key 또는 Claude Code OAuth (Hermes처럼 자동 import 가능한지 확인)

STEP 4. 호환성 검증 V1~V4 (Track A 우선)

05-compat-check.md 절차대로 도구별·백엔드별 4개 항목.

이번 단계에서는 Track A (Anthropic) 라인만 통과시키면 P1 진입 가능.

V	무엇	어떻게
V1	공식 문서에 Anthropic 백엔드 지원 명시?	“anthropic”, “claude” 키워드 검색
V2	설정에서 anthropic provider 지정 가능?	config 파일 또는 CLI 플래그
V3	스모크 테스트 응답 받음?	`<도구> "안녕, 한 줄로 자기소개"`
V4	비용 0?	Anthropic 사용량 페이지에서 종량제 차감 0 확인

기록 위치: runs/compat_check.csv (track 컬럼 추가됨 — 05-compat-check.md §2 양식 참고)

STEP 4.5. L2/L3 채집 셋업 (P1 진입 전 필수)

다음 5종 양식을 hamster-lab 루트에 생성. 이미 있으면 스킵 (runs.csv는 이미 셋업됨).

# 정량 (이미 자동 셋업)
# runs/runs.csv     # 점수표 — 매 태스크 1행

# 정성 + L3 채집
touch runs/notes.jsonl       # 정성 메모 (1~3줄/태스크, anonymous tool_X/Y)
touch runs/diary.md          # 일기 (framing D, 매일 저녁 5~15줄)
touch runs/checkpoints.md    # probe 종료마다 Q1·Q2·Q3 한 페이지
echo '{"tool_X":"hermes","tool_Y":"openclaw"}' > runs/.tool_map.json   # gitignore 권장

이유: 정성 메모는 도구 식별 단어 없이 익명 ID(tool_X/tool_Y)로 적어야 사후 블라인드 분석 가능. 매핑 파일은 사용자만 보관. 상세 양식은 08-meta-eval.md §3.

07-indicator-spec.md도 첫 태스크 전에 한 번 통독 권장 — 8개 지표(I1~I8)의 W2(조작적 정의)가 측정 일관성의 시작점.

STEP 5. 결과 보고 (Track A)

검증 끝나면 한 줄 요약을 다음 세션에 가져오기. 예: “Hermes A PASS, OpenClaw A FAIL — config에서 anthropic 지정 불가”.

분기 매트릭스 자동 발동 (05-compat-check.md §3):

둘 다 PASS → P1 진입
OpenClaw만 FAIL → Hermes 단독으로 probe 시리즈 진행, 결과에 명시
둘 다 FAIL → C1 재검토 (Track A 폐기, Track B를 1차로 승격)

STEP 6. Track B 전환 (Track B 사용 probe 진입 직전)

양쪽 도구의 provider를 codex/openai로 스위치
- Hermes: hermes auth login → openai-codex 추가, config.yaml에서 provider 변경
- OpenClaw: 공식 문서대로 백엔드 스위치
Hermes 메모리 초기화 여부는 해당 probe의 §2 반증 조건에서 결정 (probe 단위)
Track B용 V1~V4 재검증 후 해당 probe 진입

막히면

중간에 어디서 막혔는지(어떤 명령, 어떤 에러) 가져오면 다음 세션에서 해결. STEP 3~4는 도구 정보가 더 필요하면 그 부분만 와도 됨.

다음 세션 진입 명령

EXPERIMENT_TOOL=meta claude   # 검증 결과 정리·분기 결정·다음 단계 작성용