콘텐츠로 이동

04. E1 시나리오 v0.3 — 실행/보조 분리

시각: 2026-04-29 01:30 KST 유형: E1 시나리오 운영 모델 변경 (가이드 차원, v0.2 → v0.3) 잠정성: 발전형. Hermes 측 호출 패턴이 OpenClaw와 다른 누출을 만들면 v0.4로 재정정.

v0.2(2026-04-29 01:10)에서 Claude Code가 OpenClaw를 비송 호출 (openclaw agent --local --message ...)하는 자동화 모델 채택. Trial 001 시작하며 ping 시범 호출 → OpenClaw가 내부적으로 claude -p ... 프로세스를 spawn한다는 사실 확인 (ps 출력에서 claude -p --include-partial-messages --model opus --plugin-dir openclaw-claude-skills ... 등 30985, 31348 PID).

즉 v0.2 모드에서의 호출 그래프:

[사용자가 띄운 Claude Code]
→ bash → openclaw-shim.sh agent --local
→ openclaw-agent (node)
→ claude -p (또 다른 Claude Code 인스턴스)
→ claude-opus-4-7 모델 호출

문제 2가지:

  1. 재귀 구조: 본 E1이 Claude Code 안에서 또 다른 Claude Code를 운영하는 셋업. 측정 대상(OpenClaw 메모리)에 운영자 측의 컨텍스트가 누출될 위험.
  2. 컨텍스트 누출 점검 결과 (직접 점검):
    • spawned claude -p의 cwd = /Users/hamsters/.openclaw/workspace (✓ hamster-lab 격리됨).
    • 해당 cwd에 CLAUDE.md 없음 (✓).
    • 단, --plugin-dir openclaw-claude-skills·--allowedTools mcp__openclaw__* 주입됨. 이 skills/MCP가 메모리·tool_use 동작을 자체 수행하면 OpenClaw의 메모리가 아니라 주입된 skills의 동작을 측정. Hermes엔 비대칭.
    • 사용자가 직접 OpenClaw chat을 쓰면 발생할 동작과 Claude Code가 비송으로 도구를 호출해서 발생할 동작은 같지 않을 수 있음 (interactive vs. one-shot 분기, streaming UI 의존 메모리 hook 등).

experiments/E1/01-scenario.md v0.2 → v0.3:

  • Claude Code = 보조자, 사용자 = 실행자로 명시 분리.
  • 도구와의 대화 자체 (Step 3 Session A 5턴 + Step 5 Session B 1턴)는 사용자가 별도 터미널에서 openclaw chat --local / hermes chat interactive로 직접 수행.
  • Claude는 그 외 모두 — trial 파일 생성·헤드 채움·메시지 제공·sessions/ 스냅샷·jsonl 파싱·tool_use 추출·매트릭스 자동 채움·매핑 표·history·wiki sync.
  • v0.2의 agent --local --message "..." 비송 호출 패턴은 본 시나리오에서 제거.
  • 측정 청결: 도구 입장에서 진짜 사용자처럼 동작. interactive REPL이 도구의 완전한 동작 (streaming UI hook, 자동 메모리 promotion 등) 노출.
  • 재귀 회피: 호출 그래프에서 Claude Code가 운영하는 인스턴스와 OpenClaw가 spawn하는 인스턴스가 분리됨 → 운영자 측 컨텍스트가 측정 대상에 섞이지 않음.
  • 사용자 부담: Trial 1건당 5턴 + 1턴 = 6번 메시지 입력. Claude가 메시지 미리 제공하므로 복붙만. 7–10분/trial.
  • 비대칭 잔존: OpenClaw chat (TUI) vs Hermes chat (Interactive)는 양쪽 다 interactive REPL이라 운영 모드는 대칭. 단 wrapped Claude vs direct Anthropic은 그대로 (이건 측정 대상 자체 — wrapper 차이를 보는 게 E1).
  • v0.2의 자동화 시도 (Step 3 비송 5호출) 모두 재작성됨.
  • Trial 001은 v0.2 헤드 placeholder만 박힌 상태 → v0.3로 그대로 진행 가능 (헤드 텍스트 변경 없음).
  • 비용·시간: v0.2 예측 5–8분 → v0.3 7–10분 (사용자 input 시간 포함). 실측 후 가이드 갱신.

Trial 001 Step 2부터 v0.3 흐름으로 진행. 메모리 리셋 Y/N 사용자 응답 수신 후 Step 3 (사용자 별도 터미널 chat REPL).