콘텐츠로 이동

[보관] 31. 실험 시리즈 출범 — `experiments/` 폴더 + 9 probe 순차 계획 (cascade → probe 전환)

갱신 (직후 보완): 8 probe → 9 probe (P9. L1 통합 분석 추가). 폴더 구조는 평탄형README.md (시리즈 소개·현재 상태) + 00-plan.md (시퀀스) + P*-{slug}.md (각 probe). 00-index.md 는 사용 안 함.

시각: 2026-04-28 오후 KST (추정)

사용자 요구 두 가지를 결합한 결정:

  1. “지금 너무 항목이 많은거 같아서 걱정이야. 오늘 하루만에 끝낼 수 있는 범위부터 진행해볼 수 있어?” → 하루 1 패치 모델
  2. “결국은 다 테스트를 하긴 할건데, 순차적으로 하자는거지.” → 순차 시퀀스
  3. “실험이라는 주제로 가면 될거 같고. 실험의 순서를 문서로 정리해줘. study가 아니라 다른 폴더로 옮겨야할거같은데?” → experiments/ 신규 폴더 + 시퀀스 문서

이로써 study/14-applying-to-our-experiment.md 의 4축 진단(누락 7·제거 4·잘못 6·추가 8)을 한 번에 적용 하지 않고 하루 1 probe 로 분할 검증하는 운영 방식 채택.

  1. 신규 디렉토리 /Users/hamsters/hamster-lab/experiments/ 생성

  2. 신규 파일 (평탄 구조):

    • experiments/README.md — 시리즈 소개 + 폴더 분리 규칙 + 현재 상태 표 (P1~P9 ⬜/🔄/✅/❌/⏸ 라벨)
    • experiments/00-plan.md9 probe 시퀀스 + 의존 그래프(mermaid) + 페이지 형식 + 진입/종료 규칙 + v2 진입 조건 + cascade와의 관계 + 종료 후 회고
    • experiments/P1-trajectory.md — 첫 probe 페이지 템플릿 (§1~§4 채움, §5·§6 빈칸 — 시작 시 채울 형태로 사전 적성)
  3. 인프라 변경:

    • wiki/scripts/sync.mjsclean()experiments/ mkdir 추가, syncExperimentDocs() 함수 추가, main() 에 호출 + 카운트 로그
    • wiki/astro.config.mjs — sidebar에 “실험 시리즈 (Experiments)” 섹션 신설 (autogenerate: { directory: 'experiments' }, collapsed: false). 동시에 study와 reports를 collapsed: true 로 내림 — 새 진행 축이 시각적으로 우선
Probe패치시간의존
P1Trajectory 자동 추출 (A1)4~6h
P2함수호출 0회 자동 fail 룰 (A5)1~2hP1
P3pass^3 boolean 재정의 (A3)5~7h
P4fork 트리거 임계 완화 (A7)0.5hP3
P5I5 2-차원 분해 (A2)3~4hP1 권장
P6TTC × 품질 페어 산점도 (A6)1hP5
P7LLM-as-judge ρ 시범 (A4)4~5hP5
P8Memory 1축 / 미니 (A8)4~5hP3
P9L1 통합 분석 (Hermes vs OpenClaw 잠정 결론)2~3hP1~P8

총 8~10일. v2 진입 조건: 5건 채택 + P4 결정 + P9 잠정 결론.

이전 8 probe 모두 평가 프레임워크 검증 (L2/L3 산출). 정작 사용자/이해관계자가 가장 자주 묻는 “결국 어느 도구가 나은가” (L1) 가 어디서도 명시 답되지 않음 → 산출물 우선순위 흐려짐. P9는 P1~P8까지 누적된 raw·trajectory·rubric 분해 점수로 조건부 결정 매트릭스 를 마지막에 정리하는 자리.

study/14 가 4 패치 (A1·A3·A5·A7) 일괄 채택을 권했지만, 사용자가 너무 많다 고 직설적 우려. 정합한 진단:

  • 동시에 여러 변수 변경 → 어느 패치가 효과인지 분리 불가
  • 채점 부담 폭증 → C5 시간분리·C7 3단 채집 위반 위험
  • 실패 시 어디가 문제인지 모름

순차 진행은 학술 실험 설계 표준에 정합 (ablation study 정신). 8개 probe ÷ 1일 = 7~9일이지만, 이게 실패해도 어디서 실패했는지 안다 의 가치를 사는 길.

폴더 분리 — study/ vs experiments/ vs history/

섹션 제목: “폴더 분리 — study/ vs experiments/ vs history/”

세 폴더는 같은 패치를 다른 시각으로 다룸:

  • study/ = 왜·무엇 (개념·맥락·문헌)
  • experiments/ = 언제·어떻게·결과 (시작 시각·단계·관찰·결정)
  • history/ = 모든 시간순 commit

특히 study와 experiments는 이지 중복 이 아님. study/14의 “이 패치가 왜 가치 있나” 와 experiments/01의 “이 패치를 오늘 어떻게 검증했나” 는 다른 문서.

새 진행 축이 experiments → 사이드바에서 가장 위로. study와 reports는 참조 자료로 접힘 상태 디폴트. 새로 들어온 사람이 위에서부터 읽으면 지금 무엇을 하고 있나 가 즉시 보임.

(가치 ÷ 비용 ÷ 의존성). EXP-01 (Trajectory) 이 1순위인 이유:

  • 비용 ≈ 0 (hook 로그 이미 있음)
  • 다른 probe (EXP-02·05) 의 전제 데이터
  • C-제약 위반 0
  • 실패해도 본 설계 영향 0

EXP-02~08의 상세 페이지는 각 probe 시작 직전 에 작성. 사전 일괄 작성 금지. 이유: C8(반증 조건 사전 명시)의 정신은 해당 실험에 한정 — 미래 실험을 미리 다 적으면 사후 짜맞춤 위험. 본 인덱스(00)에는 시퀀스 만, 각 EXP는 그날 작성.

  • 사용자가 P1 시작 결정 시 experiments/P1-trajectory.md 의 §1~§4 (이미 템플릿 작성됨) 검토 + 시작 시각 채움
  • P1 종료 시 §5·§6 채움 + 결정 commit (history/32-p1-decision.md 예정)
  • experiments/README.md 의 “현재 상태” 표 갱신 (P1: ⬜ → 🔄 → ✅/❌/⏸)
  • P2~P9 페이지는 각 probe 시작 직전 에 작성 (사전 일괄 작성 금지 — C8 정신)

본 결정 자체도 사후 검증 대상. 8 probe 시퀀스가 끝나는 시점(7~9일 후)에:

  • 순차 진행 이 한 번에 적용 대비 진짜로 더 나은 통찰을 만들었나?
  • probe 단위 분할이 결정 피로 (decision fatigue) 를 만들지 않았나?
  • v2 본 운용 진입 조건(5건 채택)이 합리적이었나?

이 메타는 EXP-08 완료 후 별도 history 엔트리로 회고.

  • probe 사이 일관성 위험: 매일 다른 패치 검증 시 기준선 (baseline 7-지표 점수) 이 흔들릴 수 있음. 각 probe의 시작 시점에 baseline을 재측정할지, 첫 baseline 고정할지 — EXP-01 시작 시 결정.
  • 시퀀스 중단 위험: 중간에 사용자가 다른 일로 빠지면 시퀀스 단절. 단절 후 재진입 시 마지막 probe 결과 + 채집 양식 상태 만 유지되면 OK라는 룰을 00-index §5에 박음.
  • 본 시리즈가 v2를 대체 할 위험: probe만 무한 누적되고 실제 본 운용은 영영 안 함. v2 진입 조건(5건 채택)이 가드.