콘텐츠로 이동

[보관] 실험 시리즈 — 순서·규칙·진입 조건

이 폴더는 hamster-lab의 실제 실험 들이 시간순으로 누적되는 자리다. 본 시리즈의 가설은 한 줄:

“학습 시리즈(study/)에서 도출된 평가 패치들이 우리 실험(L1/L2/L3)에 진짜로 통찰을 더하는가 — 한 번에 다 박지 말고 하루 1 패치씩 검증하며 누적한다.”

본 운용(v2) 진입 전, 하루 1 실험 으로 패치 후보들을 순차 검증 한다. 통과한 패치만 v2로 가져간다.

study/14-applying-to-our-experiment.md 의 4축 진단(누락 7·제거 4·잘못 6·추가 8) 을 한꺼번에 적용 하면:

  • 동시에 여러 변수가 바뀌어 어느 패치가 효과인지 분리 불가
  • 채점 부담 폭증 → C-제약(C5 시간분리·C7 3단 채집) 위반 위험
  • 실패 시 어디가 문제인지 모름

그래서 하루 1 패치 + 다른 변수 고정. P1P8 패치 검증 + P9 통합 분석 = 9 probe 시퀀스로 911일 (하루 1 probe + P9 통합 1~3일).

순서 기준: (가치 ÷ 비용 ÷ 의존성). 앞 probe가 뒤 probe의 전제 데이터 가 되는 의존만 강제.

Probe패치시간의존핵심 질문
P1Trajectory 자동 추출 (A1)4~6hhook 로그에서 자동 산출되는 trajectory 메트릭(tool_calls·unique_tools·sequence)이 정량/정성과 다른 결론을 내는가
P2함수호출 0회 자동 fail 룰 (A5)1~2hP1trajectory에 외부 호출 0회면 결과만 좋아도 fail 처리 — reward-hacking 차단 가치가 있나
P3pass^3 boolean 재정의 (A3)5~7h같은 태스크 3회 모두 ≥ 4 비율이 std(3회 점수)보다 학습 징후 측정에 강한가
P4fork 트리거 임계 완화 (A7)0.5hP35+ → 3+ (또는 정성↔정량 정반대 1건) 으로 임계 낮추면 트리거가 의미 있게 발동되나
P5I5 2-차원 분해 (A2)3~4hP1 권장I5(품질 1–5)를 정확성 + 즉시 사용성 으로 분해하면 변별력이 실제로 올라가는가
P6TTC × 품질 페어 산점도 (A6)1hP5”빠른데 품질 낮은” trial을 별도 카운트하는 Goodhart 가드가 신호를 만드나
P7LLM-as-judge ρ 시범 (A4)4~5hP5codex의 자동 채점이 민지 채점과 Spearman ρ ≥ 0.7 인가 (v2에서 자동화 가능 근거)
P8Memory 1축 (A8)4~5hP3”1회차 교정 사항이 2회차에 자발 반영됐나” boolean이 H2′ 의 직접 증거를 만드나
P9L1 통합 분석2~3hP1~P8P1~P8 채택 패치를 합쳐 L1 결정·L2 v1·L3 사후 비교 동시 산출

총 ≈ 911일 (하루 1 probe — 변수 분리 원칙. P1P8 각 1일 + P9 통합 1~3일. probe 사이 휴식·기록·결정 commit 시간 포함).

P1 (Trajectory)
├─→ P2 (함수호출 0회 fail)
└─→ P5 (I5 분해, 권장)
├─→ P6 (TTC×품질 산점도)
└─→ P7 (LLM judge ρ)
P3 (pass^3)
├─→ P4 (fork 임계)
└─→ P8 (Memory 1축)
P1~P8 ─→ P9 (L1 통합 분석)

P1과 P3은 독립이라 동시 진행 가능 (다른 날에). 단 같은 날 두 패치 검증은 금지 — 변수 분리 원칙.

experiments/P{N}/00-plan.md (N = 19, P1부터 폴더 패턴 적용 — 00-plan.md 메인 + 00-plan-easy.md 쉬운 짝 + 필요 시 0X-{slug}.md 보조). 진입 전인 P2P9는 단일 파일(P{N}-{slug}-easy.md) 임시 형태로 시작해도 되고, 진입 직전 폴더로 변환. probe 시작 직전 에 작성. 사전에 일괄 작성하면 사후 짜맞춤 위험 (C8 정신).

문서 구조 (mandatory):

  1. # P{N}. 제목
  2. 시각: YYYY-MM-DD HH:MM KST (시작 시각)
  3. ## 1. 목적 — 어느 패치를 검증? study/14 의 어느 항목인가?
  4. ## 2. 반증 조건 사전 명시 — “이러면 폐기” boolean 1~3개. C8 정신 그대로
  5. ## 3. 단계 — 시간 단위 분해 (1h × N step)
  6. ## 4. C-제약 정합성 — C3·C4·C5·C6·C7·C8·C9 각 항목 OK/주의 표
  7. ## 5. 결과 — 실행 후 채워짐. raw 데이터 위치·관찰
  8. ## 6. 결정 — 채택(v2)/폐기/보류 + history commit 번호 링크

빈칸으로 시작해 실시간 채워넣기. 사후 일괄 작성 금지.

  • 직전 probe의 결정(채택/폐기/보류)이 history에 commit됨
  • 본 probe 문서가 §4 형식대로 §1~§4까지 작성됨 (§5·§6은 빈칸)
  • 채집 양식 5종 (runs/runs.csv, runs/notes.jsonl, runs/diary.md, runs/.tool_map.json, runs/checkpoints.md) 가용 (C7)
  • 본 probe에 필요한 도구·백엔드가 살아있음 (Track A or B 미리 정함, C1)
  • 평가자(민지) 시간 분리 30분 텀 가능 (C5)

종료 조건 (probe 끝 — 채택/폐기/보류 결정)

섹션 제목: “종료 조건 (probe 끝 — 채택/폐기/보류 결정)”
  • §2 반증 조건 모두 검증됨 (도달 / 미도달 / 측정 불가 중 하나)
  • §5 결과에 raw 위치·관찰 기록됨
  • §6 결정 작성됨
  • history 새 commit 번호 부여됨 + §6에 링크

종료 조건 미충족 시 다음 probe 진입 금지. 멈추는 게 시퀀스를 망치는 것보다 항상 낫다.

Probe 종료 cascade — 8단계 산출물 갱신

섹션 제목: “Probe 종료 cascade — 8단계 산출물 갱신”

각 probe 종료 직후 다음 8개 작업을 순서대로:

#작업위치시간
1probe doc §5·§6 채움experiments/P{N}/00-plan.md실시간
2history commithistory/NN-p{N}-decision.md5분
3체크포인트 Q1·Q2·Q3 한 페이지 기록 (08 §2)runs/checkpoints.md5분
4detailed.md §3.1 P{N} 행 채움reports/detailed.md5분
5easy.md §3 9 probe 표 P{N} 행 채움reports/easy.md2분
6daily easy 메모 신규daily/P{N}-easy.md15분
7daily detailed 메모 신규daily/P{N}-detailed.md15분
8CHANGELOG 한 줄 추가reports/CHANGELOG.md2분

총 ≈ 50분/probe. 8단계 미완료 시 다음 probe 진입 금지 — 진행 중 자료가 없으면 강의·기업 자료로 활용 불가.

P1~P8 중 적어도 5건이 채택 + fork 트리거 임계 결정 (P4) 통과 + P9 L1 잠정 결론 시 v2 본 운용 검토. 단:

  • 채택 5건 미만: 평가 프레임 자체가 약하다는 신호 → v2 재설계
  • P4 보류: 트리거 의미 없음 → v2에선 fork 자체 재검토
  • 5건 채택했지만 서로 충돌 (예: A2 분해와 A4 LLM judge가 같은 차원에서 다른 결론): v2 진입 보류 + 충돌 해결 commit
폴더무엇누가 읽나
study/평가 학습 노트 (문헌 리뷰)어휘를 익힐 때
experiments/실제 probe (이 폴더) — 각 probe의 시작·진행·결과·결정실험 진행자, 후속자
history/모든 결정·구현·재설계 commit시간 흐름 따라가는 사람
runs/raw 채집 (CSV·JSONL·일기·tool_map)C7의 3단 채집 원천

study/experiments/같은 패치를 두 시각으로 다룬다 — study는 왜·무엇 (개념·맥락·우리 실험에의 의미), experiments는 언제·어떻게·결과 (시작 시각·단계·관찰·결정). 중복이 아니라 이다.

  • 사용자가 첫 probe를 시작하기로 결정한 시점에 experiments/P1/00-plan.md §1~§4 채움
  • P1 종료 후 결정 commit (history/NN-p1-decision.md)
  • 본 인덱스(00-index.md)의 §2 표에 결과 컬럼 추가 (채택/폐기/보류) — probe 누적되며 갱신

본 시리즈 시작 commit: history/31-experiment-series-launch.md (2026-04-28)