[보관] 실험 시리즈 — 순서·규칙·진입 조건

이 폴더는 hamster-lab의 실제 실험 들이 시간순으로 누적되는 자리다. 본 시리즈의 가설은 한 줄:

“학습 시리즈(study/)에서 도출된 평가 패치들이 우리 실험(L1/L2/L3)에 진짜로 통찰을 더하는가 — 한 번에 다 박지 말고 하루 1 패치씩 검증하며 누적한다.”

본 운용(v2) 진입 전, 하루 1 실험 으로 패치 후보들을 순차 검증 한다. 통과한 패치만 v2로 가져간다.

1. 왜 시퀀스인가

study/14-applying-to-our-experiment.md 의 4축 진단(누락 7·제거 4·잘못 6·추가 8) 을 한꺼번에 적용 하면:

동시에 여러 변수가 바뀌어 어느 패치가 효과인지 분리 불가
채점 부담 폭증 → C-제약(C5 시간분리·C7 3단 채집) 위반 위험
실패 시 어디가 문제인지 모름

그래서 하루 1 패치 + 다른 변수 고정. P1~~P8 패치 검증 + P9 통합 분석 = 9 probe 시퀀스로 9~~11일 (하루 1 probe + P9 통합 1~3일).

2. 시퀀스 (요약 표)

순서 기준: (가치 ÷ 비용 ÷ 의존성). 앞 probe가 뒤 probe의 전제 데이터 가 되는 의존만 강제.

Probe	패치	시간	의존	핵심 질문
P1	Trajectory 자동 추출 (A1)	4~6h	—	hook 로그에서 자동 산출되는 trajectory 메트릭(tool_calls·unique_tools·sequence)이 정량/정성과 다른 결론을 내는가
P2	함수호출 0회 자동 fail 룰 (A5)	1~2h	P1	trajectory에 외부 호출 0회면 결과만 좋아도 fail 처리 — reward-hacking 차단 가치가 있나
P3	pass^3 boolean 재정의 (A3)	5~7h	—	같은 태스크 3회 모두 ≥ 4 비율이 std(3회 점수)보다 학습 징후 측정에 강한가
P4	fork 트리거 임계 완화 (A7)	0.5h	P3	5+ → 3+ (또는 정성↔정량 정반대 1건) 으로 임계 낮추면 트리거가 의미 있게 발동되나
P5	I5 2-차원 분해 (A2)	3~4h	P1 권장	I5(품질 1–5)를 정확성 + 즉시 사용성 으로 분해하면 변별력이 실제로 올라가는가
P6	TTC × 품질 페어 산점도 (A6)	1h	P5	”빠른데 품질 낮은” trial을 별도 카운트하는 Goodhart 가드가 신호를 만드나
P7	LLM-as-judge ρ 시범 (A4)	4~5h	P5	codex의 자동 채점이 민지 채점과 Spearman ρ ≥ 0.7 인가 (v2에서 자동화 가능 근거)
P8	Memory 1축 (A8)	4~5h	P3	”1회차 교정 사항이 2회차에 자발 반영됐나” boolean이 H2′ 의 직접 증거를 만드나
P9	L1 통합 분석	2~3h	P1~P8	P1~P8 채택 패치를 합쳐 L1 결정·L2 v1·L3 사후 비교 동시 산출

총 ≈ 9~~11일 (하루 1 probe — 변수 분리 원칙. P1~~P8 각 1일 + P9 통합 1~3일. probe 사이 휴식·기록·결정 commit 시간 포함).

3. 의존 그래프

P1 (Trajectory)
   ├─→ P2 (함수호출 0회 fail)
   └─→ P5 (I5 분해, 권장)
        ├─→ P6 (TTC×품질 산점도)
        └─→ P7 (LLM judge ρ)

P3 (pass^3)
   ├─→ P4 (fork 임계)
   └─→ P8 (Memory 1축)

P1~P8 ─→ P9 (L1 통합 분석)

P1과 P3은 독립이라 동시 진행 가능 (다른 날에). 단 같은 날 두 패치 검증은 금지 — 변수 분리 원칙.

4. 각 probe 문서 형식

experiments/P{N}/00-plan.md (N = 1~~9, P1부터 폴더 패턴 적용 — 00-plan.md 메인 + 00-plan-easy.md 쉬운 짝 + 필요 시 0X-{slug}.md 보조). 진입 전인 P2~~P9는 단일 파일(P{N}-{slug}-easy.md) 임시 형태로 시작해도 되고, 진입 직전 폴더로 변환. probe 시작 직전 에 작성. 사전에 일괄 작성하면 사후 짜맞춤 위험 (C8 정신).

문서 구조 (mandatory):

# P{N}. 제목
시각: YYYY-MM-DD HH:MM KST (시작 시각)
## 1. 목적 — 어느 패치를 검증? study/14 의 어느 항목인가?
## 2. 반증 조건 사전 명시 — “이러면 폐기” boolean 1~3개. C8 정신 그대로
## 3. 단계 — 시간 단위 분해 (1h × N step)
## 4. C-제약 정합성 — C3·C4·C5·C6·C7·C8·C9 각 항목 OK/주의 표
## 5. 결과 — 실행 후 채워짐. raw 데이터 위치·관찰
## 6. 결정 — 채택(v2)/폐기/보류 + history commit 번호 링크

빈칸으로 시작해 실시간 채워넣기. 사후 일괄 작성 금지.

5. 진입·종료 규칙

진입 조건 (probe 시작 전)

직전 probe의 결정(채택/폐기/보류)이 history에 commit됨
본 probe 문서가 §4 형식대로 §1~§4까지 작성됨 (§5·§6은 빈칸)
채집 양식 5종 (runs/runs.csv, runs/notes.jsonl, runs/diary.md, runs/.tool_map.json, runs/checkpoints.md) 가용 (C7)
본 probe에 필요한 도구·백엔드가 살아있음 (Track A or B 미리 정함, C1)
평가자(민지) 시간 분리 30분 텀 가능 (C5)

종료 조건 (probe 끝 — 채택/폐기/보류 결정)

§2 반증 조건 모두 검증됨 (도달 / 미도달 / 측정 불가 중 하나)
§5 결과에 raw 위치·관찰 기록됨
§6 결정 작성됨
history 새 commit 번호 부여됨 + §6에 링크

종료 조건 미충족 시 다음 probe 진입 금지. 멈추는 게 시퀀스를 망치는 것보다 항상 낫다.

Probe 종료 cascade — 8단계 산출물 갱신

각 probe 종료 직후 다음 8개 작업을 순서대로:

#	작업	위치	시간
1	probe doc §5·§6 채움	`experiments/P{N}/00-plan.md`	실시간
2	history commit	`history/NN-p{N}-decision.md`	5분
3	체크포인트 Q1·Q2·Q3 한 페이지 기록 (`08` §2)	`runs/checkpoints.md`	5분
4	detailed.md §3.1 P{N} 행 채움	`reports/detailed.md`	5분
5	easy.md §3 9 probe 표 P{N} 행 채움	`reports/easy.md`	2분
6	daily easy 메모 신규	`daily/P{N}-easy.md`	15분
7	daily detailed 메모 신규	`daily/P{N}-detailed.md`	15분
8	CHANGELOG 한 줄 추가	`reports/CHANGELOG.md`	2분

총 ≈ 50분/probe. 8단계 미완료 시 다음 probe 진입 금지 — 진행 중 자료가 없으면 강의·기업 자료로 활용 불가.

6. 본 운용(v2) 진입 조건

P1~P8 중 적어도 5건이 채택 + fork 트리거 임계 결정 (P4) 통과 + P9 L1 잠정 결론 시 v2 본 운용 검토. 단:

채택 5건 미만: 평가 프레임 자체가 약하다는 신호 → v2 재설계
P4 보류: 트리거 의미 없음 → v2에선 fork 자체 재검토
5건 채택했지만 서로 충돌 (예: A2 분해와 A4 LLM judge가 같은 차원에서 다른 결론): v2 진입 보류 + 충돌 해결 commit

7. 폴더 분리 규칙

폴더	무엇	누가 읽나
`study/`	평가 학습 노트 (문헌 리뷰)	어휘를 익힐 때
`experiments/`	실제 probe (이 폴더) — 각 probe의 시작·진행·결과·결정	실험 진행자, 후속자
`history/`	모든 결정·구현·재설계 commit	시간 흐름 따라가는 사람
`runs/`	raw 채집 (CSV·JSONL·일기·tool_map)	C7의 3단 채집 원천

study/ 와 experiments/ 는 같은 패치를 두 시각으로 다룬다 — study는 왜·무엇 (개념·맥락·우리 실험에의 의미), experiments는 언제·어떻게·결과 (시작 시각·단계·관찰·결정). 중복이 아니라 짝 이다.

8. 다음 행동

사용자가 첫 probe를 시작하기로 결정한 시점에 experiments/P1/00-plan.md §1~§4 채움
P1 종료 후 결정 commit (history/NN-p1-decision.md)
본 인덱스(00-index.md)의 §2 표에 결과 컬럼 추가 (채택/폐기/보류) — probe 누적되며 갱신

본 시리즈 시작 commit: history/31-experiment-series-launch.md (2026-04-28)