05. E1 Pilot 결론 — n=1 종결, main study 보류

시각: 2026-04-29 03:00 KST 유형: E1 pilot 결론 + main study 결정 잠정성: F3 (능력 있음) 가설은 추가 trial 시 흔들 수 있음. 그 외 4 finding은 architectural fact라 안정.

배경

2026-04-29 01:00~03:00 (KST), E1 v0.3 시나리오 따라 Trial 001 (OpenClaw) + Trial 006 (Hermes) Task 1 진행. 진행 중 6번 시행착오·6 carry-over 위치 발견 + reset 스크립트 자동화. n=1 per tool 한계는 인정하나 architectural finding은 견고.

결정

Pilot 종결: Trial 001/006 Task 1 데이터로 5 finding 도출. reports/E1-pilot.md.
Main study 보류: F3 (양 도구 능력 있음)만 n>1 필요. 검증 우선순위는 사용자가 결정 (코스/팀 운영에서 본 pilot 결과로 충분한지에 따라).
Trial 002~~005·007~~010 미실행 유지: 본 pilot finding이 5 task 모두로 일반화될 가능성 있으나 검증 X. 필요 시 재진입.

5 Finding (강도 분류)

F	한 줄	강도	n=1 충분
F1	메모리 능력은 모델이 아니라 wrapper 설계가 만듦	강	Y (architectural)
F2	OpenClaw는 Claude Code 의존 (자체 mechanism 없음)	강	Y (artifact 직접 확인)
F3	양 도구 메모리 작동 + 적용, “능력 부재” 가설 기각	중	X (적용 일관성 검증 필요)
F4	메모리 평가의 최대 외부 변수 = fresh 환경 setup (carry-over 6곳)	강	Y (직접 발견)
F5	도구별 측정 친화성 비대칭 (Hermes 1곳 / OpenClaw 6곳)	중	Y (측정자 cost 직접)

산출물

reports/E1-pilot.md — 5 finding + 가설 강도 표 + 매트릭스 + 사용자 통증 매핑 + 한계
scripts/reset-openclaw.sh — OpenClaw 6곳 자동 fresh
scripts/cut-openclaw-session.sh — Session 단절 (메모리 유지)
experiments/E1/02-trials/trial-001-openclaw.md, trial-006-hermes.md — 정식 데이터
본 history commit (05) + 02~04 (시나리오 v0.2/v0.3 변경 이력)

영향

E series 운영 룰 갱신 후보: 도구 도입 시 측정 친화성을 평가 차원에 박음 (F5). 새 도구 시 reset 스크립트 패턴 의무화.
사용자 통증 매핑 강화: “qualitative-only eval에서 정량으로 가는 첫 벽 = fresh 환경 setup” — experiments/00-pain-landscape.md에 박을 수 있는 정량 데이터.
E2 설계 영향: 외부 통합 시리즈도 비슷한 hidden state·carry-over 패턴 가능. F4 패턴 미리 의식.

다음 단계 (선택)

F3 검증이 우선이면: (도구, Task 1) × 3 repeat = 6 trial main study (약 1시간). 결과로 적용 일관성 binary 분포 검출.
본 pilot 결과로 충분이면: E2 진입 또는 다른 통증 클러스터 (experiments/00-pain-landscape.md).
추후 도구 추가 시 본 pilot 패턴 재사용 — 5 finding 체크리스트.