[보관] 실험 시리즈 — 쉬운 버전
본 문서는 통계·방법론 용어 없이 쓴 5단계 로드맵이다. 깊이 있는 메소드 문서는
00-plan.md, 통계 용어 풀이는glossary-easy.md.
한 줄 요약
섹션 제목: “한 줄 요약”“평가 방법을 한꺼번에 다 적용하지 말고, 하루에 한 가지씩 작은 실험으로 검증하고 누적하자.”
이게 핵심. 9개의 작은 실험을 차례로 돌려서, 각각 “이 평가 방법이 진짜 쓸 만한가?” 답을 받아보고, 끝에 “본격 실험(v2)으로 갈지 말지” 결정한다.
5단계 로드맵
섹션 제목: “5단계 로드맵”0단계 — 준비 (작은 실험 시작 전)
섹션 제목: “0단계 — 준비 (작은 실험 시작 전)”도구 깔고 채집 양식 만들고 호환성 확인. 거의 끝났음. 남은 건 OpenClaw 설치 하나.
| 항목 | 상태 |
|---|---|
| hamster-lab 폴더·로그 자동 기록 장치 | ✅ |
| ChatGPT용 codex CLI 설치 | ✅ |
| Hermes 설치 + Claude 로그인 | ✅ |
| 결과 기록할 빈 파일 4개(점수표·메모·일기·도구별명) | ✅ |
| OpenClaw 설치 | ⬜ 다음 할 일 |
| Hermes·OpenClaw가 Claude 잘 쓰는지 5문항 점검 | ⬜ |
| 1번 실험(P1) 계획서 간단히 미리 적기 | ⬜ |
1단계 — 작은 실험 9개를 차례로 (하루 1개, 약 9~11일)
섹션 제목: “1단계 — 작은 실험 9개를 차례로 (하루 1개, 약 9~11일)”매일 한 가지 평가 방법만 시험. 다른 건 다 그대로 두고. 왜 한 번에 다 안 하나? — 한꺼번에 바꾸면 뭐가 효과인지 못 가려.
| 번호 | 무엇을 시험하나 | 시간 | 친한 말로 |
|---|---|---|---|
| P1 | 도구가 어떤 순서로 무엇을 했는지 자동으로 기록 보기 | 4~6시간 | ”이미 떨어지고 있는 로그 한 번 읽어보자” |
| P2 | 외부 연동 0번이면 자동 fail 처리 | 1~2시간 | ”톤만 좋고 실제 안 보낸 결과물은 빵점” |
| P3 | 같은 일 3번 시켰을 때 다 잘 했나 봄 | 5~7시간 | ”한 번 잘 한 게 우연 아닌지 보자” |
| P4 | 점수 사망 기준 완화 (5개 → 3개) | 30분 | ”기준 너무 빡빡하면 발동을 안 함” |
| P5 | 결과물 점수 1~5를 둘로 쪼갬 (내용 정확한지 + 바로 쓸 수 있나) | 3~4시간 | ”한 점수에 두 개 합치면 정보 손실” |
| P6 | 빠른데 품질 낮은 결과는 따로 셈 | 1시간 | ”꼼수 막기” |
| P7 | AI한테 채점 시켜서 사람 채점이랑 비교 | 4~5시간 | ”v2에선 AI가 일부 채점 가능한지 미리 확인” |
| P8 | 도구가 어제 한 일을 오늘도 기억하는지 | 4~5시간 | ”고객 페인포인트 1순위” |
| P9 | 9개 결과 합쳐서 큰 결론 작성 | 2~3시간 | ”민지에겐 어느 도구? 어느 평가 방법이 살아남았나? v2로 갈까?” |
각 실험은:
- 시작 직전에 짧은 계획서 1장 (목적·“이러면 폐기” 조건·단계)
- 실행하면서 점수·메모·기록 채집
- 끝나면 결과·결정 적기 (채택/폐기/보류)
- 그날의 결정을 history에 기록
반증 조건이 핵심: 시작 전에 “이러면 이 실험은 실패다”를 적어둔다. 끝나고 떠올리면 사후 짜맞춤이 됨.
2단계 — P9 통합 (마지막 작은 실험)
섹션 제목: “2단계 — P9 통합 (마지막 작은 실험)”8개 끝나고 한 번에 정리. 결과물 3가지가 동시에 나와야 함:
- L1 — 도구 결정: “민지에겐 ___을 추천한다, 이유는 ___”
- L2 — 평가 방법 v1: 살아남은 점수 항목 + 측정 방법 + 다른 조직이 따라할 키트
- L3 — 평가 방법 자체에 대한 평가: “지표 미리 정해 측정”이 다른 방식보다 나았나 vs 부족했나
3단계 — 보너스 부록 (P9 끝나고 마지막에)
섹션 제목: “3단계 — 보너스 부록 (P9 끝나고 마지막에)”도구한테 짧은 시간에 많이 보내봤을 때 어떻게 무너지는지 확인. 이건 인프라 측정이라 본 평가에 안 들어감, 부록으로만.
⚠️ 도구 사용 한도 모두 쓸 수 있는 작업이라 다른 측정이 다 끝난 뒤에만.
4단계 — ChatGPT 백엔드 실험 (1단계 안에서 별도 시점)
섹션 제목: “4단계 — ChatGPT 백엔드 실험 (1단계 안에서 별도 시점)”지금까지 다 Claude로 돌렸는데, 같은 도구를 ChatGPT(Codex)로 갈아끼고 한 번 더 돌리는 시점이 1단계 중에 있음. 이 작업이 발생하면:
- provider 스위치
- 호환성 5문항 다시
- 그 실험의 계획서에 “Hermes 메모리 초기화할까 말까” 명시
5단계 — “진짜 실험(v2)으로 갈까” 결정
섹션 제목: “5단계 — “진짜 실험(v2)으로 갈까” 결정”전부 끝나고 다음 매트릭스로:
| 결과 | 다음 액션 |
|---|---|
| 9개 중 5개 이상 채택 + P4·P9 통과 | v2 진짜 실험 진입 검토 |
| 채택이 5개 미만 | 평가 프레임 자체 약함 → v2 재설계 |
| P4 보류 (사망 기준 의미 없음) | v2 핵심 장치(자동 분기) 자체 재검토 |
| 채택 5개인데 서로 충돌 | v2 보류 + 충돌 해결 commit |
의존 (어느 실험이 다른 실험에 필요한가)
섹션 제목: “의존 (어느 실험이 다른 실험에 필요한가)”flowchart LR
P1[P1 자동 로그] --> P2[P2 외부 호출 fail]
P1 -.권장.-> P5[P5 점수 분해]
P5 --> P6[P6 꼼수 차단]
P5 --> P7[P7 AI 채점]
P3[P3 같은 일 3번] --> P4[P4 사망 기준 완화]
P3 --> P8[P8 기억 점검]
P1 --> P9
P2 --> P9
P3 --> P9
P4 --> P9
P5 --> P9
P6 --> P9
P7 --> P9
P8 --> P9[P9 통합 결론]
P1과 P3는 서로 안 의존 — 다른 날에 동시 진행 가능 (단, 같은 날 두 개 동시 금지).
매일 한 실험을 어떻게 굴리나 (공통 흐름)
섹션 제목: “매일 한 실험을 어떻게 굴리나 (공통 흐름)”- 아침에: 그날 실험 계획서 1장 (목적·“이러면 폐기”·단계)
- 실행 중: 태스크 끝나면 바로 점수 매기고, 30분 후 짧은 메모. 이 30분 텀은 점수 매기느라 받은 인상이 메모를 흐리지 않게 하기 위함.
- 저녁에: 그날 결과·결정 (채택/폐기/보류) 적기
- 다음 날 아침: 어제 결과물 5개를 도구 누가 만들었는지 가린 채 다시 점수 매겨서 내가 두 번 비슷하게 매겼나 확인
블라인드(누가 만들었는지 가리기) 왜?: 평가자(나)가 “이건 Hermes야”를 알면 모르게 점수에 편향이 들어감. 그걸 막으려고 결과물에서 도구 표시 지우고 적음.
채집 양식 5개 (각각 어디에 뭘 쓰나)
섹션 제목: “채집 양식 5개 (각각 어디에 뭘 쓰나)”| 파일 | 무엇 |
|---|---|
runs/runs.csv | 점수표. 매 태스크마다 한 줄 |
runs/notes.jsonl | 메모. 1~3줄 자유서술. 도구명 적지 말고 tool_X / tool_Y로 |
runs/diary.md | 일기. 매일 저녁 5~15줄. 그날 전체 인상 |
runs/.tool_map.json | 도구 별명 매핑 (tool_X = Hermes 같은). 나만 봄, 사후 분석 시까지 안 펼침 |
runs/checkpoints.md | probe 종료마다 Q1·Q2·Q3 체크포인트 한 페이지 |
안 통할 때 — 빨간 신호 5개
섹션 제목: “안 통할 때 — 빨간 신호 5개”다음 중 하나라도 발생하면 그 실험은 그날 즉시 폐기 또는 보류:
- 점수 항목 5개 이상이 둘 다 비슷한 값이라 변별 못 함 → 평가 방법 약함
- 내가 두 번 매긴 점수가 너무 다름 (비슷한 거 0.5 미만) → 신뢰 못 함
- 메모 결론이 점수 결론이랑 정반대인 케이스 1건 이상 → 보이지 않는 무엇 있음
- 점수 적느라 태스크 시간의 30% 이상 씀 → 측정이 측정대상 압도
- ChatGPT 결과 vs Claude 결과가 갈리면 “도구 비교”가 아니라 “도구×LLM 조합 비교”였단 뜻
각 빨간 신호의 정확한 대응은 08-meta-eval.md §5.
다음 할 일 (체크리스트 형태)
섹션 제목: “다음 할 일 (체크리스트 형태)”지금 시점:
- OpenClaw 공식 설치 가이드 URL 확인 → 다음 세션에 공유
- OpenClaw 설치 (
~/.openclaw/폴더에만) - Hermes·OpenClaw가 Claude 잘 쓰는지 5문항 통과
- P1 계획서 (
experiments/P1/00-plan.md)의 §1~§4 간단히 미리 적기 - P1 시작 — 4~6시간 한 번에
폴더 한눈에
섹션 제목: “폴더 한눈에”| 폴더 | 무엇 | 언제 봄 |
|---|---|---|
study/ | 평가 방법론 학습 노트 (논문·블로그 정리) | 어휘 익힐 때 |
experiments/ | 여기 — 실제 실험 계획서·결과·결정 | 매일 |
history/ | 모든 결정·바뀐 점 시간순 | 흐름 따라가고 싶을 때 |
runs/ | 매일 점수·메모·일기 | 매 태스크 후 |
reports/ | 최종 산출물 (easy.md·detailed.md 두 청중용) | 9개 다 끝난 후 |
이 문서랑 본 문서(00-plan.md)의 관계
섹션 제목: “이 문서랑 본 문서(00-plan.md)의 관계”| 본 문서 | 쉬운 버전 (이 문서) |
|---|---|
| 학술·재현 키트 가치 유지 — 다른 조직이 메소드 그대로 가져갈 때 정확함 | 사용자(나)가 매일 의사결정할 때 빠르게 참조 |
| 통계 용어·정확한 절차 명시 | 통계 용어 0, 일상 한국어 |
| 길고 깊음 | 짧고 얕음 |
둘 다 같은 결정·같은 절차를 가리킴. 정의가 미묘하게 다르면 본 문서가 맞음.