[보관] 25 — 3일 압축 파일럿 + 평가 fork 분기 결정

시각: 2026-04-28 오후 KST 컨텍스트: Phase 1.5(L2/L3 프레임 정렬) 작업 중, 사용자가 일정·평가 구조 두 축 동시 변경

무엇이 있었나

사용자 두 차례 발언:

→ 두 축 변경 동시 발생:

확정된 5개 결정 (사용자 응답으로 봉인):

평가자 1명, 시간 분리 (태스크 직후 즉시 정량 → 30분 텀 → 정성 메모)
fork 분기 트리거: D1 저녁 체크포인트에서 quant 지표 5개 이상 4종 실패 → D2를 qual 트랙 70%로 재분배
채택된 사후 framing: B(사후 코딩) + D(일기) 만. C(결과 도달률)·E(행동 추적)는 본 파일럿에서 보류, v2 후보로만 명시
cascade 한 번에 처리: 02·04·05·06·01·README + 신규 07/08 일괄 갱신 (이번 턴)
“본 실험”이 아니라 “파일럿”으로 재정의: 3일 산출물은 L2/L3 산출 가능성 시험. 본 운용(21일)은 파일럿 결과로 별도 결정

3일 제약: 사용자 외부 시간 압박. 21일짜리 학습 효과 측정은 포기. 측정 대상을 학습 량 → 학습 징후(pass^3 일관성, τ-bench류)로 대체.
fork 분기: 정성·정량을 같은 사람이 동시 처리하면 정량이 정성에 영향(편향) → 시간 분리가 1명 평가자로는 가장 현실적. 30분 텀은 임의 선택이지만 평가자 부담·이전 인상 희석에 충분하다는 가정.
C·E 보류: 3일 압축에서 5개 framing을 모두 굴리면 어느 것도 깊이 못 봄. B(사후 코딩)+D(일기) 두 개로 좁혀 깊이 있는 사후 비교 가능하게.
파일럿 재정의: 3일에 21일 설계를 욱여넣으면 결과가 나와도 신뢰도 0. 정직하게 “L2/L3가 가능해 보이나? 어느 지표가 살아남나? 어느 framing이 도움 되나?”에 답하는 사전 시험으로 재포지셔닝.
자가 재측정 ICC: 평가자 2명 κ가 본래 안전망이었으나 1명 운영에선 불가능 → 같은 평가자가 시간 차를 두고 재측정한 ICC로 약하게 대체. v2에서 2인 κ 도입.

이번 턴 cascade 처리됨:

01-experiment-design.md §1·§3·§7·§9 — 3일 fork 일정 + H2 약화(H2′로) + 평가 fork 도식
02-constraints.md C1·C5·C9 — 3일 트레이드오프 + 평가자 1명 시간 분리 + 평가 fork 분리 강제 신설
04-day0-setup.md — 3일 일정 명시, D1 오전 셋업 윈도우, 채집 파일 4종 체크리스트
05-compat-check.md — 데드라인 D0(A)·D2 저녁(B)으로 압축
06-user-walkthrough.md STEP 1·6 — D14·Day 14 등 흔적을 D2 저녁·D3로 갱신
README.md — Phase 8단계 → 5단계, 모델 섹션 3일 압축 명시, fork 강조
03-sample-report.md §0·§2.5·§4.3·§5·§6.2·§6.3 — 3일 + 두-트랙 + 1명 평가자 + 체크포인트 압축
07-indicator-spec.md (외부 작성됨, 본 턴에 갱신) — 평가자 2명 κ → 1명 ICC, I6 5회차/1회차 → pass^3, 체크포인트 D7·D10·D14 → D1 저녁·D2 저녁·D3 종료
08-meta-eval.md (외부 작성됨, 본 턴에 갱신) — C·E 보류 명시, 체크포인트 압축, fork 분기 트리거 통합, L3 작성 절차 D21 → D3 오후

운영 후속:

D0 잔여: OpenClaw 설치 + V1~V4(Track A) + 채집 양식 4종 생성
다음 외부 액션: STEP 3 OpenClaw 설치
본 결정의 결과로 본 운용(v2)이 살아남으려면 D3 종료 시점에 “L2/L3가 가능해 보임” 신호 필요. 그 신호 없으면 본 실험 자체가 재설계 또는 폐기 검토 대상.

pass^3 std는 학습 곡선의 근사일 뿐 — 본 운용 v2에서 5회차/1회차 비율로 진짜 학습 측정 필요
ICC < κ — 사후 검증의 신뢰성이 본 운용 대비 약함
3일 안에 OpenClaw 셋업이 페르소나 모드(C4)에서 끝날지 불확실. 안 끝나면 그 자체가 H3 데이터지만, Track A의 quant 데이터 양이 절반 이하로 떨어짐
Track B에서 Hermes 메모리 초기화 안 함 → Track A·B 간 비교에 carry-over 편향. 한계로 명시