[보관] 31. 실험 시리즈 출범 — `experiments/` 폴더 + 9 probe 순차 계획 (cascade → probe 전환)
갱신 (직후 보완): 8 probe → 9 probe (P9. L1 통합 분석 추가). 폴더 구조는 평탄형 —
README.md(시리즈 소개·현재 상태) +00-plan.md(시퀀스) +P*-{slug}.md(각 probe).00-index.md는 사용 안 함.
시각: 2026-04-28 오후 KST (추정)
무엇이 있었나
섹션 제목: “무엇이 있었나”사용자 요구 두 가지를 결합한 결정:
- “지금 너무 항목이 많은거 같아서 걱정이야. 오늘 하루만에 끝낼 수 있는 범위부터 진행해볼 수 있어?” → 하루 1 패치 모델
- “결국은 다 테스트를 하긴 할건데, 순차적으로 하자는거지.” → 순차 시퀀스
- “실험이라는 주제로 가면 될거 같고. 실험의 순서를 문서로 정리해줘. study가 아니라 다른 폴더로 옮겨야할거같은데?” →
experiments/신규 폴더 + 시퀀스 문서
이로써 study/14-applying-to-our-experiment.md 의 4축 진단(누락 7·제거 4·잘못 6·추가 8)을 한 번에 적용 하지 않고 하루 1 probe 로 분할 검증하는 운영 방식 채택.
변경 파일
섹션 제목: “변경 파일”-
신규 디렉토리
/Users/hamsters/hamster-lab/experiments/생성 -
신규 파일 (평탄 구조):
experiments/README.md— 시리즈 소개 + 폴더 분리 규칙 + 현재 상태 표 (P1~P9 ⬜/🔄/✅/❌/⏸ 라벨)experiments/00-plan.md— 9 probe 시퀀스 + 의존 그래프(mermaid) + 페이지 형식 + 진입/종료 규칙 + v2 진입 조건 + cascade와의 관계 + 종료 후 회고experiments/P1-trajectory.md— 첫 probe 페이지 템플릿 (§1~§4 채움, §5·§6 빈칸 — 시작 시 채울 형태로 사전 적성)
-
인프라 변경:
wiki/scripts/sync.mjs—clean()에experiments/mkdir 추가,syncExperimentDocs()함수 추가,main()에 호출 + 카운트 로그wiki/astro.config.mjs— sidebar에 “실험 시리즈 (Experiments)” 섹션 신설 (autogenerate: { directory: 'experiments' },collapsed: false). 동시에 study와 reports를collapsed: true로 내림 — 새 진행 축이 시각적으로 우선
9 probe 시퀀스
섹션 제목: “9 probe 시퀀스”| Probe | 패치 | 시간 | 의존 |
|---|---|---|---|
| P1 | Trajectory 자동 추출 (A1) | 4~6h | — |
| P2 | 함수호출 0회 자동 fail 룰 (A5) | 1~2h | P1 |
| P3 | pass^3 boolean 재정의 (A3) | 5~7h | — |
| P4 | fork 트리거 임계 완화 (A7) | 0.5h | P3 |
| P5 | I5 2-차원 분해 (A2) | 3~4h | P1 권장 |
| P6 | TTC × 품질 페어 산점도 (A6) | 1h | P5 |
| P7 | LLM-as-judge ρ 시범 (A4) | 4~5h | P5 |
| P8 | Memory 1축 / 미니 (A8) | 4~5h | P3 |
| P9 | L1 통합 분석 (Hermes vs OpenClaw 잠정 결론) | 2~3h | P1~P8 |
총 8~10일. v2 진입 조건: 5건 채택 + P4 결정 + P9 잠정 결론.
P9 추가 이유
섹션 제목: “P9 추가 이유”이전 8 probe 모두 평가 프레임워크 검증 (L2/L3 산출). 정작 사용자/이해관계자가 가장 자주 묻는 “결국 어느 도구가 나은가” (L1) 가 어디서도 명시 답되지 않음 → 산출물 우선순위 흐려짐. P9는 P1~P8까지 누적된 raw·trajectory·rubric 분해 점수로 조건부 결정 매트릭스 를 마지막에 정리하는 자리.
왜 그렇게 갔나
섹션 제목: “왜 그렇게 갔나”한 번에 적용 vs 순차 적용
섹션 제목: “한 번에 적용 vs 순차 적용”study/14 가 4 패치 (A1·A3·A5·A7) 일괄 채택을 권했지만, 사용자가 너무 많다 고 직설적 우려. 정합한 진단:
- 동시에 여러 변수 변경 → 어느 패치가 효과인지 분리 불가
- 채점 부담 폭증 → C5 시간분리·C7 3단 채집 위반 위험
- 실패 시 어디가 문제인지 모름
순차 진행은 학술 실험 설계 표준에 정합 (ablation study 정신). 8개 probe ÷ 1일 = 7~9일이지만, 이게 실패해도 어디서 실패했는지 안다 의 가치를 사는 길.
폴더 분리 — study/ vs experiments/ vs history/
섹션 제목: “폴더 분리 — study/ vs experiments/ vs history/”세 폴더는 같은 패치를 다른 시각으로 다룸:
- study/ = 왜·무엇 (개념·맥락·문헌)
- experiments/ = 언제·어떻게·결과 (시작 시각·단계·관찰·결정)
- history/ = 모든 시간순 commit
특히 study와 experiments는 짝 이지 중복 이 아님. study/14의 “이 패치가 왜 가치 있나” 와 experiments/01의 “이 패치를 오늘 어떻게 검증했나” 는 다른 문서.
사이드바 우선순위 변경
섹션 제목: “사이드바 우선순위 변경”새 진행 축이 experiments → 사이드바에서 가장 위로. study와 reports는 참조 자료로 접힘 상태 디폴트. 새로 들어온 사람이 위에서부터 읽으면 지금 무엇을 하고 있나 가 즉시 보임.
시퀀스 순서 결정 기준
섹션 제목: “시퀀스 순서 결정 기준”(가치 ÷ 비용 ÷ 의존성). EXP-01 (Trajectory) 이 1순위인 이유:
- 비용 ≈ 0 (hook 로그 이미 있음)
- 다른 probe (EXP-02·05) 의 전제 데이터 됨
- C-제약 위반 0
- 실패해도 본 설계 영향 0
사전 작성 vs 적시 작성
섹션 제목: “사전 작성 vs 적시 작성”EXP-02~08의 상세 페이지는 각 probe 시작 직전 에 작성. 사전 일괄 작성 금지. 이유: C8(반증 조건 사전 명시)의 정신은 해당 실험에 한정 — 미래 실험을 미리 다 적으면 사후 짜맞춤 위험. 본 인덱스(00)에는 시퀀스 만, 각 EXP는 그날 작성.
무엇이 남았나
섹션 제목: “무엇이 남았나”즉시 다음 단계
섹션 제목: “즉시 다음 단계”- 사용자가 P1 시작 결정 시
experiments/P1-trajectory.md의 §1~§4 (이미 템플릿 작성됨) 검토 + 시작 시각 채움 - P1 종료 시 §5·§6 채움 + 결정 commit (
history/32-p1-decision.md예정) -
experiments/README.md의 “현재 상태” 표 갱신 (P1: ⬜ → 🔄 → ✅/❌/⏸) - P2~P9 페이지는 각 probe 시작 직전 에 작성 (사전 일괄 작성 금지 — C8 정신)
본 결정의 메타
섹션 제목: “본 결정의 메타”본 결정 자체도 사후 검증 대상. 8 probe 시퀀스가 끝나는 시점(7~9일 후)에:
- 순차 진행 이 한 번에 적용 대비 진짜로 더 나은 통찰을 만들었나?
- probe 단위 분할이 결정 피로 (decision fatigue) 를 만들지 않았나?
- v2 본 운용 진입 조건(5건 채택)이 합리적이었나?
이 메타는 EXP-08 완료 후 별도 history 엔트리로 회고.
위험 인식
섹션 제목: “위험 인식”- probe 사이 일관성 위험: 매일 다른 패치 검증 시 기준선 (baseline 7-지표 점수) 이 흔들릴 수 있음. 각 probe의 시작 시점에 baseline을 재측정할지, 첫 baseline 고정할지 — EXP-01 시작 시 결정.
- 시퀀스 중단 위험: 중간에 사용자가 다른 일로 빠지면 시퀀스 단절. 단절 후 재진입 시 마지막 probe 결과 + 채집 양식 상태 만 유지되면 OK라는 룰을 00-index §5에 박음.
- 본 시리즈가 v2를 대체 할 위험: probe만 무한 누적되고 실제 본 운용은 영영 안 함. v2 진입 조건(5건 채택)이 가드.