[보관] 실험 시리즈 — 순서·규칙·진입 조건
이 폴더는 hamster-lab의 실제 실험 들이 시간순으로 누적되는 자리다. 본 시리즈의 가설은 한 줄:
“학습 시리즈(study/)에서 도출된 평가 패치들이 우리 실험(L1/L2/L3)에 진짜로 통찰을 더하는가 — 한 번에 다 박지 말고 하루 1 패치씩 검증하며 누적한다.”
본 운용(v2) 진입 전, 하루 1 실험 으로 패치 후보들을 순차 검증 한다. 통과한 패치만 v2로 가져간다.
1. 왜 시퀀스인가
섹션 제목: “1. 왜 시퀀스인가”study/14-applying-to-our-experiment.md 의 4축 진단(누락 7·제거 4·잘못 6·추가 8) 을 한꺼번에 적용 하면:
- 동시에 여러 변수가 바뀌어 어느 패치가 효과인지 분리 불가
- 채점 부담 폭증 → C-제약(C5 시간분리·C7 3단 채집) 위반 위험
- 실패 시 어디가 문제인지 모름
그래서 하루 1 패치 + 다른 변수 고정. P1P8 패치 검증 + P9 통합 분석 = 9 probe 시퀀스로 911일 (하루 1 probe + P9 통합 1~3일).
2. 시퀀스 (요약 표)
섹션 제목: “2. 시퀀스 (요약 표)”순서 기준: (가치 ÷ 비용 ÷ 의존성). 앞 probe가 뒤 probe의 전제 데이터 가 되는 의존만 강제.
| Probe | 패치 | 시간 | 의존 | 핵심 질문 |
|---|---|---|---|---|
| P1 | Trajectory 자동 추출 (A1) | 4~6h | — | hook 로그에서 자동 산출되는 trajectory 메트릭(tool_calls·unique_tools·sequence)이 정량/정성과 다른 결론을 내는가 |
| P2 | 함수호출 0회 자동 fail 룰 (A5) | 1~2h | P1 | trajectory에 외부 호출 0회면 결과만 좋아도 fail 처리 — reward-hacking 차단 가치가 있나 |
| P3 | pass^3 boolean 재정의 (A3) | 5~7h | — | 같은 태스크 3회 모두 ≥ 4 비율이 std(3회 점수)보다 학습 징후 측정에 강한가 |
| P4 | fork 트리거 임계 완화 (A7) | 0.5h | P3 | 5+ → 3+ (또는 정성↔정량 정반대 1건) 으로 임계 낮추면 트리거가 의미 있게 발동되나 |
| P5 | I5 2-차원 분해 (A2) | 3~4h | P1 권장 | I5(품질 1–5)를 정확성 + 즉시 사용성 으로 분해하면 변별력이 실제로 올라가는가 |
| P6 | TTC × 품질 페어 산점도 (A6) | 1h | P5 | ”빠른데 품질 낮은” trial을 별도 카운트하는 Goodhart 가드가 신호를 만드나 |
| P7 | LLM-as-judge ρ 시범 (A4) | 4~5h | P5 | codex의 자동 채점이 민지 채점과 Spearman ρ ≥ 0.7 인가 (v2에서 자동화 가능 근거) |
| P8 | Memory 1축 (A8) | 4~5h | P3 | ”1회차 교정 사항이 2회차에 자발 반영됐나” boolean이 H2′ 의 직접 증거를 만드나 |
| P9 | L1 통합 분석 | 2~3h | P1~P8 | P1~P8 채택 패치를 합쳐 L1 결정·L2 v1·L3 사후 비교 동시 산출 |
총 ≈ 911일 (하루 1 probe — 변수 분리 원칙. P1P8 각 1일 + P9 통합 1~3일. probe 사이 휴식·기록·결정 commit 시간 포함).
3. 의존 그래프
섹션 제목: “3. 의존 그래프”P1 (Trajectory) ├─→ P2 (함수호출 0회 fail) └─→ P5 (I5 분해, 권장) ├─→ P6 (TTC×품질 산점도) └─→ P7 (LLM judge ρ)
P3 (pass^3) ├─→ P4 (fork 임계) └─→ P8 (Memory 1축)
P1~P8 ─→ P9 (L1 통합 분석)P1과 P3은 독립이라 동시 진행 가능 (다른 날에). 단 같은 날 두 패치 검증은 금지 — 변수 분리 원칙.
4. 각 probe 문서 형식
섹션 제목: “4. 각 probe 문서 형식”experiments/P{N}/00-plan.md (N = 19, P1부터 폴더 패턴 적용 — P9는 단일 파일(00-plan.md 메인 + 00-plan-easy.md 쉬운 짝 + 필요 시 0X-{slug}.md 보조). 진입 전인 P2P{N}-{slug}-easy.md) 임시 형태로 시작해도 되고, 진입 직전 폴더로 변환. probe 시작 직전 에 작성. 사전에 일괄 작성하면 사후 짜맞춤 위험 (C8 정신).
문서 구조 (mandatory):
- # P{N}. 제목
- 시각: YYYY-MM-DD HH:MM KST (시작 시각)
- ## 1. 목적 — 어느 패치를 검증?
study/14의 어느 항목인가? - ## 2. 반증 조건 사전 명시 — “이러면 폐기” boolean 1~3개. C8 정신 그대로
- ## 3. 단계 — 시간 단위 분해 (1h × N step)
- ## 4. C-제약 정합성 — C3·C4·C5·C6·C7·C8·C9 각 항목 OK/주의 표
- ## 5. 결과 — 실행 후 채워짐. raw 데이터 위치·관찰
- ## 6. 결정 — 채택(v2)/폐기/보류 + history commit 번호 링크
빈칸으로 시작해 실시간 채워넣기. 사후 일괄 작성 금지.
5. 진입·종료 규칙
섹션 제목: “5. 진입·종료 규칙”진입 조건 (probe 시작 전)
섹션 제목: “진입 조건 (probe 시작 전)”- 직전 probe의 결정(채택/폐기/보류)이 history에 commit됨
- 본 probe 문서가 §4 형식대로 §1~§4까지 작성됨 (§5·§6은 빈칸)
- 채집 양식 5종 (
runs/runs.csv,runs/notes.jsonl,runs/diary.md,runs/.tool_map.json,runs/checkpoints.md) 가용 (C7) - 본 probe에 필요한 도구·백엔드가 살아있음 (Track A or B 미리 정함, C1)
- 평가자(민지) 시간 분리 30분 텀 가능 (C5)
종료 조건 (probe 끝 — 채택/폐기/보류 결정)
섹션 제목: “종료 조건 (probe 끝 — 채택/폐기/보류 결정)”- §2 반증 조건 모두 검증됨 (도달 / 미도달 / 측정 불가 중 하나)
- §5 결과에 raw 위치·관찰 기록됨
- §6 결정 작성됨
- history 새 commit 번호 부여됨 + §6에 링크
종료 조건 미충족 시 다음 probe 진입 금지. 멈추는 게 시퀀스를 망치는 것보다 항상 낫다.
Probe 종료 cascade — 8단계 산출물 갱신
섹션 제목: “Probe 종료 cascade — 8단계 산출물 갱신”각 probe 종료 직후 다음 8개 작업을 순서대로:
| # | 작업 | 위치 | 시간 |
|---|---|---|---|
| 1 | probe doc §5·§6 채움 | experiments/P{N}/00-plan.md | 실시간 |
| 2 | history commit | history/NN-p{N}-decision.md | 5분 |
| 3 | 체크포인트 Q1·Q2·Q3 한 페이지 기록 (08 §2) | runs/checkpoints.md | 5분 |
| 4 | detailed.md §3.1 P{N} 행 채움 | reports/detailed.md | 5분 |
| 5 | easy.md §3 9 probe 표 P{N} 행 채움 | reports/easy.md | 2분 |
| 6 | daily easy 메모 신규 | daily/P{N}-easy.md | 15분 |
| 7 | daily detailed 메모 신규 | daily/P{N}-detailed.md | 15분 |
| 8 | CHANGELOG 한 줄 추가 | reports/CHANGELOG.md | 2분 |
총 ≈ 50분/probe. 8단계 미완료 시 다음 probe 진입 금지 — 진행 중 자료가 없으면 강의·기업 자료로 활용 불가.
6. 본 운용(v2) 진입 조건
섹션 제목: “6. 본 운용(v2) 진입 조건”P1~P8 중 적어도 5건이 채택 + fork 트리거 임계 결정 (P4) 통과 + P9 L1 잠정 결론 시 v2 본 운용 검토. 단:
- 채택 5건 미만: 평가 프레임 자체가 약하다는 신호 → v2 재설계
- P4 보류: 트리거 의미 없음 → v2에선 fork 자체 재검토
- 5건 채택했지만 서로 충돌 (예: A2 분해와 A4 LLM judge가 같은 차원에서 다른 결론): v2 진입 보류 + 충돌 해결 commit
7. 폴더 분리 규칙
섹션 제목: “7. 폴더 분리 규칙”| 폴더 | 무엇 | 누가 읽나 |
|---|---|---|
study/ | 평가 학습 노트 (문헌 리뷰) | 어휘를 익힐 때 |
experiments/ | 실제 probe (이 폴더) — 각 probe의 시작·진행·결과·결정 | 실험 진행자, 후속자 |
history/ | 모든 결정·구현·재설계 commit | 시간 흐름 따라가는 사람 |
runs/ | raw 채집 (CSV·JSONL·일기·tool_map) | C7의 3단 채집 원천 |
study/ 와 experiments/ 는 같은 패치를 두 시각으로 다룬다 — study는 왜·무엇 (개념·맥락·우리 실험에의 의미), experiments는 언제·어떻게·결과 (시작 시각·단계·관찰·결정). 중복이 아니라 짝 이다.
8. 다음 행동
섹션 제목: “8. 다음 행동”- 사용자가 첫 probe를 시작하기로 결정한 시점에
experiments/P1/00-plan.md§1~§4 채움 - P1 종료 후 결정 commit (
history/NN-p1-decision.md) - 본 인덱스(00-index.md)의 §2 표에 결과 컬럼 추가 (채택/폐기/보류) — probe 누적되며 갱신
본 시리즈 시작 commit: history/31-experiment-series-launch.md (2026-04-28)