콘텐츠로 이동

[보관] 실험 시리즈 — 쉬운 버전

본 문서는 통계·방법론 용어 없이 쓴 5단계 로드맵이다. 깊이 있는 메소드 문서는 00-plan.md, 통계 용어 풀이는 glossary-easy.md.

“평가 방법을 한꺼번에 다 적용하지 말고, 하루에 한 가지씩 작은 실험으로 검증하고 누적하자.”

이게 핵심. 9개의 작은 실험을 차례로 돌려서, 각각 “이 평가 방법이 진짜 쓸 만한가?” 답을 받아보고, 끝에 “본격 실험(v2)으로 갈지 말지” 결정한다.


0단계 — 준비 (작은 실험 시작 )

섹션 제목: “0단계 — 준비 (작은 실험 시작 전)”

도구 깔고 채집 양식 만들고 호환성 확인. 거의 끝났음. 남은 건 OpenClaw 설치 하나.

항목상태
hamster-lab 폴더·로그 자동 기록 장치
ChatGPT용 codex CLI 설치
Hermes 설치 + Claude 로그인
결과 기록할 빈 파일 4개(점수표·메모·일기·도구별명)
OpenClaw 설치다음 할 일
Hermes·OpenClaw가 Claude 잘 쓰는지 5문항 점검
1번 실험(P1) 계획서 간단히 미리 적기

1단계 — 작은 실험 9개를 차례로 (하루 1개, 약 9~11일)

섹션 제목: “1단계 — 작은 실험 9개를 차례로 (하루 1개, 약 9~11일)”

매일 한 가지 평가 방법만 시험. 다른 건 다 그대로 두고. 왜 한 번에 다 안 하나? — 한꺼번에 바꾸면 뭐가 효과인지 못 가려.

번호무엇을 시험하나시간친한 말로
P1도구가 어떤 순서로 무엇을 했는지 자동으로 기록 보기4~6시간”이미 떨어지고 있는 로그 한 번 읽어보자”
P2외부 연동 0번이면 자동 fail 처리1~2시간”톤만 좋고 실제 안 보낸 결과물은 빵점”
P3같은 일 3번 시켰을 때 다 잘 했나 봄5~7시간”한 번 잘 한 게 우연 아닌지 보자”
P4점수 사망 기준 완화 (5개 → 3개)30분”기준 너무 빡빡하면 발동을 안 함”
P5결과물 점수 1~5를 둘로 쪼갬 (내용 정확한지 + 바로 쓸 수 있나)3~4시간”한 점수에 두 개 합치면 정보 손실”
P6빠른데 품질 낮은 결과는 따로 셈1시간”꼼수 막기”
P7AI한테 채점 시켜서 사람 채점이랑 비교4~5시간”v2에선 AI가 일부 채점 가능한지 미리 확인”
P8도구가 어제 한 일을 오늘도 기억하는지4~5시간”고객 페인포인트 1순위”
P99개 결과 합쳐서 큰 결론 작성2~3시간”민지에겐 어느 도구? 어느 평가 방법이 살아남았나? v2로 갈까?”

각 실험은:

  1. 시작 직전에 짧은 계획서 1장 (목적·“이러면 폐기” 조건·단계)
  2. 실행하면서 점수·메모·기록 채집
  3. 끝나면 결과·결정 적기 (채택/폐기/보류)
  4. 그날의 결정을 history에 기록

반증 조건이 핵심: 시작 전에 “이러면 이 실험은 실패다”를 적어둔다. 끝나고 떠올리면 사후 짜맞춤이 됨.

2단계 — P9 통합 (마지막 작은 실험)

섹션 제목: “2단계 — P9 통합 (마지막 작은 실험)”

8개 끝나고 한 번에 정리. 결과물 3가지가 동시에 나와야 함:

  1. L1 — 도구 결정: “민지에겐 ___을 추천한다, 이유는 ___”
  2. L2 — 평가 방법 v1: 살아남은 점수 항목 + 측정 방법 + 다른 조직이 따라할 키트
  3. L3 — 평가 방법 자체에 대한 평가: “지표 미리 정해 측정”이 다른 방식보다 나았나 vs 부족했나

3단계 — 보너스 부록 (P9 끝나고 마지막에)

섹션 제목: “3단계 — 보너스 부록 (P9 끝나고 마지막에)”

도구한테 짧은 시간에 많이 보내봤을 때 어떻게 무너지는지 확인. 이건 인프라 측정이라 본 평가에 안 들어감, 부록으로만.

⚠️ 도구 사용 한도 모두 쓸 수 있는 작업이라 다른 측정이 다 끝난 에만.

4단계 — ChatGPT 백엔드 실험 (1단계 안에서 별도 시점)

섹션 제목: “4단계 — ChatGPT 백엔드 실험 (1단계 안에서 별도 시점)”

지금까지 다 Claude로 돌렸는데, 같은 도구를 ChatGPT(Codex)로 갈아끼고 한 번 더 돌리는 시점이 1단계 중에 있음. 이 작업이 발생하면:

  • provider 스위치
  • 호환성 5문항 다시
  • 그 실험의 계획서에 “Hermes 메모리 초기화할까 말까” 명시

5단계 — “진짜 실험(v2)으로 갈까” 결정

섹션 제목: “5단계 — “진짜 실험(v2)으로 갈까” 결정”

전부 끝나고 다음 매트릭스로:

결과다음 액션
9개 중 5개 이상 채택 + P4·P9 통과v2 진짜 실험 진입 검토
채택이 5개 미만평가 프레임 자체 약함 → v2 재설계
P4 보류 (사망 기준 의미 없음)v2 핵심 장치(자동 분기) 자체 재검토
채택 5개인데 서로 충돌v2 보류 + 충돌 해결 commit

의존 (어느 실험이 다른 실험에 필요한가)

섹션 제목: “의존 (어느 실험이 다른 실험에 필요한가)”
flowchart LR
    P1[P1 자동 로그] --> P2[P2 외부 호출 fail]
    P1 -.권장.-> P5[P5 점수 분해]
    P5 --> P6[P6 꼼수 차단]
    P5 --> P7[P7 AI 채점]
    P3[P3 같은 일 3번] --> P4[P4 사망 기준 완화]
    P3 --> P8[P8 기억 점검]

    P1 --> P9
    P2 --> P9
    P3 --> P9
    P4 --> P9
    P5 --> P9
    P6 --> P9
    P7 --> P9
    P8 --> P9[P9 통합 결론]

P1과 P3는 서로 안 의존 — 다른 날에 동시 진행 가능 (단, 같은 날 두 개 동시 금지).


매일 한 실험을 어떻게 굴리나 (공통 흐름)

섹션 제목: “매일 한 실험을 어떻게 굴리나 (공통 흐름)”
  1. 아침에: 그날 실험 계획서 1장 (목적·“이러면 폐기”·단계)
  2. 실행 중: 태스크 끝나면 바로 점수 매기고, 30분 후 짧은 메모. 이 30분 텀은 점수 매기느라 받은 인상이 메모를 흐리지 않게 하기 위함.
  3. 저녁에: 그날 결과·결정 (채택/폐기/보류) 적기
  4. 다음 날 아침: 어제 결과물 5개를 도구 누가 만들었는지 가린 채 다시 점수 매겨서 내가 두 번 비슷하게 매겼나 확인

블라인드(누가 만들었는지 가리기) 왜?: 평가자(나)가 “이건 Hermes야”를 알면 모르게 점수에 편향이 들어감. 그걸 막으려고 결과물에서 도구 표시 지우고 적음.


채집 양식 5개 (각각 어디에 뭘 쓰나)

섹션 제목: “채집 양식 5개 (각각 어디에 뭘 쓰나)”
파일무엇
runs/runs.csv점수표. 매 태스크마다 한 줄
runs/notes.jsonl메모. 1~3줄 자유서술. 도구명 적지 말고 tool_X / tool_Y로
runs/diary.md일기. 매일 저녁 5~15줄. 그날 전체 인상
runs/.tool_map.json도구 별명 매핑 (tool_X = Hermes 같은). 나만 봄, 사후 분석 시까지 안 펼침
runs/checkpoints.mdprobe 종료마다 Q1·Q2·Q3 체크포인트 한 페이지

다음 중 하나라도 발생하면 그 실험은 그날 즉시 폐기 또는 보류:

  1. 점수 항목 5개 이상이 둘 다 비슷한 값이라 변별 못 함 → 평가 방법 약함
  2. 내가 두 번 매긴 점수가 너무 다름 (비슷한 거 0.5 미만) → 신뢰 못 함
  3. 메모 결론이 점수 결론이랑 정반대인 케이스 1건 이상 → 보이지 않는 무엇 있음
  4. 점수 적느라 태스크 시간의 30% 이상 씀 → 측정이 측정대상 압도
  5. ChatGPT 결과 vs Claude 결과가 갈리면 “도구 비교”가 아니라 “도구×LLM 조합 비교”였단 뜻

각 빨간 신호의 정확한 대응은 08-meta-eval.md §5.


지금 시점:

  • OpenClaw 공식 설치 가이드 URL 확인 → 다음 세션에 공유
  • OpenClaw 설치 (~/.openclaw/ 폴더에만)
  • Hermes·OpenClaw가 Claude 잘 쓰는지 5문항 통과
  • P1 계획서 (experiments/P1/00-plan.md)의 §1~§4 간단히 미리 적기
  • P1 시작 — 4~6시간 한 번에

폴더무엇언제 봄
study/평가 방법론 학습 노트 (논문·블로그 정리)어휘 익힐 때
experiments/여기 — 실제 실험 계획서·결과·결정매일
history/모든 결정·바뀐 점 시간순흐름 따라가고 싶을 때
runs/매일 점수·메모·일기매 태스크 후
reports/최종 산출물 (easy.md·detailed.md 두 청중용)9개 다 끝난 후

이 문서랑 본 문서(00-plan.md)의 관계

섹션 제목: “이 문서랑 본 문서(00-plan.md)의 관계”
본 문서쉬운 버전 (이 문서)
학술·재현 키트 가치 유지 — 다른 조직이 메소드 그대로 가져갈 때 정확함사용자(나)가 매일 의사결정할 때 빠르게 참조
통계 용어·정확한 절차 명시통계 용어 0, 일상 한국어
길고 깊음짧고 얕음

둘 다 같은 결정·같은 절차를 가리킴. 정의가 미묘하게 다르면 본 문서가 맞음.