콘텐츠로 이동

05. E1 Pilot 결론 — n=1 종결, main study 보류

시각: 2026-04-29 03:00 KST 유형: E1 pilot 결론 + main study 결정 잠정성: F3 (능력 있음) 가설은 추가 trial 시 흔들 수 있음. 그 외 4 finding은 architectural fact라 안정.

2026-04-29 01:00~03:00 (KST), E1 v0.3 시나리오 따라 Trial 001 (OpenClaw) + Trial 006 (Hermes) Task 1 진행. 진행 중 6번 시행착오·6 carry-over 위치 발견 + reset 스크립트 자동화. n=1 per tool 한계는 인정하나 architectural finding은 견고.

  • Pilot 종결: Trial 001/006 Task 1 데이터로 5 finding 도출. reports/E1-pilot.md.
  • Main study 보류: F3 (양 도구 능력 있음)만 n>1 필요. 검증 우선순위는 사용자가 결정 (코스/팀 운영에서 본 pilot 결과로 충분한지에 따라).
  • Trial 002005·007010 미실행 유지: 본 pilot finding이 5 task 모두로 일반화될 가능성 있으나 검증 X. 필요 시 재진입.
F한 줄강도n=1 충분
F1메모리 능력은 모델이 아니라 wrapper 설계가 만듦Y (architectural)
F2OpenClaw는 Claude Code 의존 (자체 mechanism 없음)Y (artifact 직접 확인)
F3양 도구 메모리 작동 + 적용, “능력 부재” 가설 기각X (적용 일관성 검증 필요)
F4메모리 평가의 최대 외부 변수 = fresh 환경 setup (carry-over 6곳)Y (직접 발견)
F5도구별 측정 친화성 비대칭 (Hermes 1곳 / OpenClaw 6곳)Y (측정자 cost 직접)
  • E series 운영 룰 갱신 후보: 도구 도입 시 측정 친화성을 평가 차원에 박음 (F5). 새 도구 시 reset 스크립트 패턴 의무화.
  • 사용자 통증 매핑 강화: “qualitative-only eval에서 정량으로 가는 첫 벽 = fresh 환경 setup” — experiments/00-pain-landscape.md에 박을 수 있는 정량 데이터.
  • E2 설계 영향: 외부 통합 시리즈도 비슷한 hidden state·carry-over 패턴 가능. F4 패턴 미리 의식.
  1. F3 검증이 우선이면: (도구, Task 1) × 3 repeat = 6 trial main study (약 1시간). 결과로 적용 일관성 binary 분포 검출.
  2. 본 pilot 결과로 충분이면: E2 진입 또는 다른 통증 클러스터 (experiments/00-pain-landscape.md).
  3. 추후 도구 추가 시 본 pilot 패턴 재사용 — 5 finding 체크리스트.