[보관] 25 — 3일 압축 파일럿 + 평가 fork 분기 결정
시각: 2026-04-28 오후 KST 컨텍스트: Phase 1.5(L2/L3 프레임 정렬) 작업 중, 사용자가 일정·평가 구조 두 축 동시 변경
무엇이 있었나
섹션 제목: “무엇이 있었나”사용자 두 차례 발언:
- “이거 3일만에 완료할꺼야. 정성적 평가까지 같이해야하거든?”
- “정성적/정량적을 병렬로 진행할 예정이라 계획을 분기 태워야할거 같아.”
→ 두 축 변경 동시 발생:
- 일정: 21일 본 운용 → 3일 압축 파일럿
- 평가 구조: 단일 흐름 → Quant·Qual 병렬 fork
확정된 5개 결정 (사용자 응답으로 봉인):
- 평가자 1명, 시간 분리 (태스크 직후 즉시 정량 → 30분 텀 → 정성 메모)
- fork 분기 트리거: D1 저녁 체크포인트에서 quant 지표 5개 이상 4종 실패 → D2를 qual 트랙 70%로 재분배
- 채택된 사후 framing: B(사후 코딩) + D(일기) 만. C(결과 도달률)·E(행동 추적)는 본 파일럿에서 보류, v2 후보로만 명시
- cascade 한 번에 처리: 02·04·05·06·01·README + 신규 07/08 일괄 갱신 (이번 턴)
- “본 실험”이 아니라 “파일럿”으로 재정의: 3일 산출물은 L2/L3 산출 가능성 시험. 본 운용(21일)은 파일럿 결과로 별도 결정
왜 그렇게 갔나
섹션 제목: “왜 그렇게 갔나”- 3일 제약: 사용자 외부 시간 압박. 21일짜리 학습 효과 측정은 포기. 측정 대상을 학습 량 → 학습 징후(pass^3 일관성, τ-bench류)로 대체.
- fork 분기: 정성·정량을 같은 사람이 동시 처리하면 정량이 정성에 영향(편향) → 시간 분리가 1명 평가자로는 가장 현실적. 30분 텀은 임의 선택이지만 평가자 부담·이전 인상 희석에 충분하다는 가정.
- C·E 보류: 3일 압축에서 5개 framing을 모두 굴리면 어느 것도 깊이 못 봄. B(사후 코딩)+D(일기) 두 개로 좁혀 깊이 있는 사후 비교 가능하게.
- 파일럿 재정의: 3일에 21일 설계를 욱여넣으면 결과가 나와도 신뢰도 0. 정직하게 “L2/L3가 가능해 보이나? 어느 지표가 살아남나? 어느 framing이 도움 되나?”에 답하는 사전 시험으로 재포지셔닝.
- 자가 재측정 ICC: 평가자 2명 κ가 본래 안전망이었으나 1명 운영에선 불가능 → 같은 평가자가 시간 차를 두고 재측정한 ICC로 약하게 대체. v2에서 2인 κ 도입.
무엇이 남았나
섹션 제목: “무엇이 남았나”이번 턴 cascade 처리됨:
01-experiment-design.md§1·§3·§7·§9 — 3일 fork 일정 + H2 약화(H2′로) + 평가 fork 도식02-constraints.mdC1·C5·C9 — 3일 트레이드오프 + 평가자 1명 시간 분리 + 평가 fork 분리 강제 신설04-day0-setup.md— 3일 일정 명시, D1 오전 셋업 윈도우, 채집 파일 4종 체크리스트05-compat-check.md— 데드라인 D0(A)·D2 저녁(B)으로 압축06-user-walkthrough.mdSTEP 1·6 — D14·Day 14 등 흔적을 D2 저녁·D3로 갱신README.md— Phase 8단계 → 5단계, 모델 섹션 3일 압축 명시, fork 강조03-sample-report.md§0·§2.5·§4.3·§5·§6.2·§6.3 — 3일 + 두-트랙 + 1명 평가자 + 체크포인트 압축07-indicator-spec.md(외부 작성됨, 본 턴에 갱신) — 평가자 2명 κ → 1명 ICC, I6 5회차/1회차 → pass^3, 체크포인트 D7·D10·D14 → D1 저녁·D2 저녁·D3 종료08-meta-eval.md(외부 작성됨, 본 턴에 갱신) — C·E 보류 명시, 체크포인트 압축, fork 분기 트리거 통합, L3 작성 절차 D21 → D3 오후
운영 후속:
- D0 잔여: OpenClaw 설치 + V1~V4(Track A) + 채집 양식 4종 생성
- 다음 외부 액션: STEP 3 OpenClaw 설치
- 본 결정의 결과로 본 운용(v2)이 살아남으려면 D3 종료 시점에 “L2/L3가 가능해 보임” 신호 필요. 그 신호 없으면 본 실험 자체가 재설계 또는 폐기 검토 대상.
알려진 위험 (사용자 합의 후 수용)
섹션 제목: “알려진 위험 (사용자 합의 후 수용)”- pass^3 std는 학습 곡선의 근사일 뿐 — 본 운용 v2에서 5회차/1회차 비율로 진짜 학습 측정 필요
- ICC < κ — 사후 검증의 신뢰성이 본 운용 대비 약함
- 3일 안에 OpenClaw 셋업이 페르소나 모드(C4)에서 끝날지 불확실. 안 끝나면 그 자체가 H3 데이터지만, Track A의 quant 데이터 양이 절반 이하로 떨어짐
- Track B에서 Hermes 메모리 초기화 안 함 → Track A·B 간 비교에 carry-over 편향. 한계로 명시