05. E1 Pilot 결론 — n=1 종결, main study 보류
시각: 2026-04-29 03:00 KST 유형: E1 pilot 결론 + main study 결정 잠정성: F3 (능력 있음) 가설은 추가 trial 시 흔들 수 있음. 그 외 4 finding은 architectural fact라 안정.
2026-04-29 01:00~03:00 (KST), E1 v0.3 시나리오 따라 Trial 001 (OpenClaw) + Trial 006 (Hermes) Task 1 진행. 진행 중 6번 시행착오·6 carry-over 위치 발견 + reset 스크립트 자동화. n=1 per tool 한계는 인정하나 architectural finding은 견고.
- Pilot 종결: Trial 001/006 Task 1 데이터로 5 finding 도출.
reports/E1-pilot.md. - Main study 보류: F3 (양 도구 능력 있음)만 n>1 필요. 검증 우선순위는 사용자가 결정 (코스/팀 운영에서 본 pilot 결과로 충분한지에 따라).
- Trial 002
005·007010 미실행 유지: 본 pilot finding이 5 task 모두로 일반화될 가능성 있으나 검증 X. 필요 시 재진입.
5 Finding (강도 분류)
섹션 제목: “5 Finding (강도 분류)”| F | 한 줄 | 강도 | n=1 충분 |
|---|---|---|---|
| F1 | 메모리 능력은 모델이 아니라 wrapper 설계가 만듦 | 강 | Y (architectural) |
| F2 | OpenClaw는 Claude Code 의존 (자체 mechanism 없음) | 강 | Y (artifact 직접 확인) |
| F3 | 양 도구 메모리 작동 + 적용, “능력 부재” 가설 기각 | 중 | X (적용 일관성 검증 필요) |
| F4 | 메모리 평가의 최대 외부 변수 = fresh 환경 setup (carry-over 6곳) | 강 | Y (직접 발견) |
| F5 | 도구별 측정 친화성 비대칭 (Hermes 1곳 / OpenClaw 6곳) | 중 | Y (측정자 cost 직접) |
산출물
섹션 제목: “산출물”reports/E1-pilot.md— 5 finding + 가설 강도 표 + 매트릭스 + 사용자 통증 매핑 + 한계scripts/reset-openclaw.sh— OpenClaw 6곳 자동 freshscripts/cut-openclaw-session.sh— Session 단절 (메모리 유지)experiments/E1/02-trials/trial-001-openclaw.md,trial-006-hermes.md— 정식 데이터- 본 history commit (05) + 02~04 (시나리오 v0.2/v0.3 변경 이력)
- E series 운영 룰 갱신 후보: 도구 도입 시 측정 친화성을 평가 차원에 박음 (F5). 새 도구 시 reset 스크립트 패턴 의무화.
- 사용자 통증 매핑 강화: “qualitative-only eval에서 정량으로 가는 첫 벽 = fresh 환경 setup” —
experiments/00-pain-landscape.md에 박을 수 있는 정량 데이터. - E2 설계 영향: 외부 통합 시리즈도 비슷한 hidden state·carry-over 패턴 가능. F4 패턴 미리 의식.
다음 단계 (선택)
섹션 제목: “다음 단계 (선택)”- F3 검증이 우선이면: (도구, Task 1) × 3 repeat = 6 trial main study (약 1시간). 결과로 적용 일관성 binary 분포 검출.
- 본 pilot 결과로 충분이면: E2 진입 또는 다른 통증 클러스터 (
experiments/00-pain-landscape.md). - 추후 도구 추가 시 본 pilot 패턴 재사용 — 5 finding 체크리스트.