[보관] 실험 시리즈 — 쉬운 버전

본 문서는 통계·방법론 용어 없이 쓴 5단계 로드맵이다. 깊이 있는 메소드 문서는 00-plan.md, 통계 용어 풀이는 glossary-easy.md.

한 줄 요약

“평가 방법을 한꺼번에 다 적용하지 말고, 하루에 한 가지씩 작은 실험으로 검증하고 누적하자.”

이게 핵심. 9개의 작은 실험을 차례로 돌려서, 각각 “이 평가 방법이 진짜 쓸 만한가?” 답을 받아보고, 끝에 “본격 실험(v2)으로 갈지 말지” 결정한다.

5단계 로드맵

0단계 — 준비 (작은 실험 시작 전)

도구 깔고 채집 양식 만들고 호환성 확인. 거의 끝났음. 남은 건 OpenClaw 설치 하나.

항목	상태
hamster-lab 폴더·로그 자동 기록 장치	✅
ChatGPT용 codex CLI 설치	✅
Hermes 설치 + Claude 로그인	✅
결과 기록할 빈 파일 4개(점수표·메모·일기·도구별명)	✅
OpenClaw 설치	⬜ 다음 할 일
Hermes·OpenClaw가 Claude 잘 쓰는지 5문항 점검	⬜
1번 실험(P1) 계획서 간단히 미리 적기	⬜

1단계 — 작은 실험 9개를 차례로 (하루 1개, 약 9~11일)

매일 한 가지 평가 방법만 시험. 다른 건 다 그대로 두고. 왜 한 번에 다 안 하나? — 한꺼번에 바꾸면 뭐가 효과인지 못 가려.

번호	무엇을 시험하나	시간	친한 말로
P1	도구가 어떤 순서로 무엇을 했는지 자동으로 기록 보기	4~6시간	”이미 떨어지고 있는 로그 한 번 읽어보자”
P2	외부 연동 0번이면 자동 fail 처리	1~2시간	”톤만 좋고 실제 안 보낸 결과물은 빵점”
P3	같은 일 3번 시켰을 때 다 잘 했나 봄	5~7시간	”한 번 잘 한 게 우연 아닌지 보자”
P4	점수 사망 기준 완화 (5개 → 3개)	30분	”기준 너무 빡빡하면 발동을 안 함”
P5	결과물 점수 1~5를 둘로 쪼갬 (내용 정확한지 + 바로 쓸 수 있나)	3~4시간	”한 점수에 두 개 합치면 정보 손실”
P6	빠른데 품질 낮은 결과는 따로 셈	1시간	”꼼수 막기”
P7	AI한테 채점 시켜서 사람 채점이랑 비교	4~5시간	”v2에선 AI가 일부 채점 가능한지 미리 확인”
P8	도구가 어제 한 일을 오늘도 기억하는지	4~5시간	”고객 페인포인트 1순위”
P9	9개 결과 합쳐서 큰 결론 작성	2~3시간	”민지에겐 어느 도구? 어느 평가 방법이 살아남았나? v2로 갈까?”

각 실험은:

시작 직전에 짧은 계획서 1장 (목적·“이러면 폐기” 조건·단계)
실행하면서 점수·메모·기록 채집
끝나면 결과·결정 적기 (채택/폐기/보류)
그날의 결정을 history에 기록

반증 조건이 핵심: 시작 전에 “이러면 이 실험은 실패다”를 적어둔다. 끝나고 떠올리면 사후 짜맞춤이 됨.

2단계 — P9 통합 (마지막 작은 실험)

8개 끝나고 한 번에 정리. 결과물 3가지가 동시에 나와야 함:

L1 — 도구 결정: “민지에겐 ___을 추천한다, 이유는 ___”
L2 — 평가 방법 v1: 살아남은 점수 항목 + 측정 방법 + 다른 조직이 따라할 키트
L3 — 평가 방법 자체에 대한 평가: “지표 미리 정해 측정”이 다른 방식보다 나았나 vs 부족했나

3단계 — 보너스 부록 (P9 끝나고 마지막에)

도구한테 짧은 시간에 많이 보내봤을 때 어떻게 무너지는지 확인. 이건 인프라 측정이라 본 평가에 안 들어감, 부록으로만.

⚠️ 도구 사용 한도 모두 쓸 수 있는 작업이라 다른 측정이 다 끝난 뒤에만.

4단계 — ChatGPT 백엔드 실험 (1단계 안에서 별도 시점)

지금까지 다 Claude로 돌렸는데, 같은 도구를 ChatGPT(Codex)로 갈아끼고 한 번 더 돌리는 시점이 1단계 중에 있음. 이 작업이 발생하면:

provider 스위치
호환성 5문항 다시
그 실험의 계획서에 “Hermes 메모리 초기화할까 말까” 명시

5단계 — “진짜 실험(v2)으로 갈까” 결정

전부 끝나고 다음 매트릭스로:

결과	다음 액션
9개 중 5개 이상 채택 + P4·P9 통과	v2 진짜 실험 진입 검토
채택이 5개 미만	평가 프레임 자체 약함 → v2 재설계
P4 보류 (사망 기준 의미 없음)	v2 핵심 장치(자동 분기) 자체 재검토
채택 5개인데 서로 충돌	v2 보류 + 충돌 해결 commit

의존 (어느 실험이 다른 실험에 필요한가)

flowchart LR
    P1[P1 자동 로그] --> P2[P2 외부 호출 fail]
    P1 -.권장.-> P5[P5 점수 분해]
    P5 --> P6[P6 꼼수 차단]
    P5 --> P7[P7 AI 채점]
    P3[P3 같은 일 3번] --> P4[P4 사망 기준 완화]
    P3 --> P8[P8 기억 점검]

    P1 --> P9
    P2 --> P9
    P3 --> P9
    P4 --> P9
    P5 --> P9
    P6 --> P9
    P7 --> P9
    P8 --> P9[P9 통합 결론]

P1과 P3는 서로 안 의존 — 다른 날에 동시 진행 가능 (단, 같은 날 두 개 동시 금지).

매일 한 실험을 어떻게 굴리나 (공통 흐름)

아침에: 그날 실험 계획서 1장 (목적·“이러면 폐기”·단계)
실행 중: 태스크 끝나면 바로 점수 매기고, 30분 후 짧은 메모. 이 30분 텀은 점수 매기느라 받은 인상이 메모를 흐리지 않게 하기 위함.
저녁에: 그날 결과·결정 (채택/폐기/보류) 적기
다음 날 아침: 어제 결과물 5개를 도구 누가 만들었는지 가린 채 다시 점수 매겨서 내가 두 번 비슷하게 매겼나 확인

블라인드(누가 만들었는지 가리기) 왜?: 평가자(나)가 “이건 Hermes야”를 알면 모르게 점수에 편향이 들어감. 그걸 막으려고 결과물에서 도구 표시 지우고 적음.

채집 양식 5개 (각각 어디에 뭘 쓰나)

파일	무엇
`runs/runs.csv`	점수표. 매 태스크마다 한 줄
`runs/notes.jsonl`	메모. 1~3줄 자유서술. 도구명 적지 말고 tool_X / tool_Y로
`runs/diary.md`	일기. 매일 저녁 5~15줄. 그날 전체 인상
`runs/.tool_map.json`	도구 별명 매핑 (tool_X = Hermes 같은). 나만 봄, 사후 분석 시까지 안 펼침
`runs/checkpoints.md`	probe 종료마다 Q1·Q2·Q3 체크포인트 한 페이지

안 통할 때 — 빨간 신호 5개

다음 중 하나라도 발생하면 그 실험은 그날 즉시 폐기 또는 보류:

점수 항목 5개 이상이 둘 다 비슷한 값이라 변별 못 함 → 평가 방법 약함
내가 두 번 매긴 점수가 너무 다름 (비슷한 거 0.5 미만) → 신뢰 못 함
메모 결론이 점수 결론이랑 정반대인 케이스 1건 이상 → 보이지 않는 무엇 있음
점수 적느라 태스크 시간의 30% 이상 씀 → 측정이 측정대상 압도
ChatGPT 결과 vs Claude 결과가 갈리면 “도구 비교”가 아니라 “도구×LLM 조합 비교”였단 뜻

각 빨간 신호의 정확한 대응은 08-meta-eval.md §5.

다음 할 일 (체크리스트 형태)

지금 시점:

OpenClaw 공식 설치 가이드 URL 확인 → 다음 세션에 공유
OpenClaw 설치 (~/.openclaw/ 폴더에만)
Hermes·OpenClaw가 Claude 잘 쓰는지 5문항 통과
P1 계획서 (experiments/P1/00-plan.md)의 §1~§4 간단히 미리 적기
P1 시작 — 4~6시간 한 번에

폴더 한눈에

폴더	무엇	언제 봄
`study/`	평가 방법론 학습 노트 (논문·블로그 정리)	어휘 익힐 때
`experiments/`	여기 — 실제 실험 계획서·결과·결정	매일
`history/`	모든 결정·바뀐 점 시간순	흐름 따라가고 싶을 때
`runs/`	매일 점수·메모·일기	매 태스크 후
`reports/`	최종 산출물 (`easy.md`·`detailed.md` 두 청중용)	9개 다 끝난 후

이 문서랑 본 문서(`00-plan.md`)의 관계

본 문서	쉬운 버전 (이 문서)
학술·재현 키트 가치 유지 — 다른 조직이 메소드 그대로 가져갈 때 정확함	사용자(나)가 매일 의사결정할 때 빠르게 참조
통계 용어·정확한 절차 명시	통계 용어 0, 일상 한국어
길고 깊음	짧고 얕음

둘 다 같은 결정·같은 절차를 가리킴. 정의가 미묘하게 다르면 본 문서가 맞음.