콘텐츠로 이동

[보관] P9. 9개 결과 합쳐서 큰 결론 (L1·L2·L3 동시) — 쉬운 버전

통계 용어 없이 쓴 P9 가이드. probe 시리즈의 마지막 단계.

한 줄 요약

“P1~P8까지 누적된 점수·메모·로그를 세 가지 시각으로 따로 분석한 다음 비교 → ‘민지에게 어느 도구?’ / ‘어느 평가 방법이 살아남았나?’ / ‘평가 방법 자체가 맞는 방향이었나?’ 세 답을 동시에 작성.”

1. 무엇을 시험하나

세 가지 산출물 동시:

L1 — 도구 결정: “민지에게는 Hermes/OpenClaw 중 ___을 추천한다”
L2 — 평가 방법 v1: 살아남은 점수 항목 + 측정 프로토콜 + 다른 조직이 따라할 키트
L3 — 평가 방법 자체에 대한 평가: “지표 미리 정해서 측정”이 다른 방식보다 나았나 / 부족했나

핵심 원칙: 세 가지를 독립적으로 작성. A 결과 보고 B/D 작성하면 오염. 세 시각이 다 같은 결론이면 정당성 강함, 갈리면 어디서 갈렸나가 L3의 핵심 데이터.

2. 실패 조건 (시작 전)

F1: 세 시각이 완전히 같은 결론 → L3에 정보가 없음 (“우연히 다 같았는지” 의심)
F2: 세 시각이 너무 갈라져서 L1 결정 자체 불가 → “결정 한 줄”을 못 적음
F3: P1~P8 사망 지표가 5개 이상 → 평가 프레임 자체 약함, v2 재설계

3. 단계 (총 23시간 또는 13일)

1단계 — 점수 시각(A) 결론 작성 (45분)

살아남은 지표만 모아 두 도구 비교표
결정 매트릭스 (reports/easy.md §0 + reports/detailed.md §4)
“이 지표 기준으로는 ___ 우세” 한 줄

2단계 — 메모·코딩 시각(B) 결론 작성 (60분)

runs/notes.jsonl 전체 통째로 읽기
도구별 묶지 말고 자유 분류 (예: “막힌 순간”, “놀란 순간”, “답답한 순간”)
패턴 N개 추출
도구 우세 결론은 부산물로만

3단계 — 일기 시각(D) 결론 작성 (45분)

runs/diary.md 통째로 읽기
빈도·정서 분석 (긍정/부정 표현 카운트, 도구별로 사후 매핑)
도구 우세 결론

4단계 — 세 결론 비교 (45분)

시각	L1 결론 (어느 도구?)	어디서 우세?	한계
점수 (A)
메모 (B)
일기 (D)

세 결론이:

같음 → A 정당성 강함
부분 일치 → 어디서 어긋났나 raw 들어가 분석 (한 단락씩)
완전 불일치 → “A 단독으로는 결정 불가, B/D 병행 필요”

5단계 — 산출물 작성 (45분)

reports/easy.md 채움 (비개발자용 8~12쪽)
reports/detailed.md 채움 (방법론자용 40~60쪽)

6단계 — v2 GO/NO-GO 결정 (15분)

조건	결과
P1~P8 중 5+ 채택 + P4 결정 + 세 시각 부분 이상 일치	v2 본 운용 진입 검토
채택 5개 미만	v2 재설계
P4 보류	v2 fork 자체 재검토
세 시각 완전 불일치	v2 진입 보류 + 평가 방식 자체 반성

4. 우리 약속

약속	OK?	이유
C3 격리	OK	분석만
C4 자연어	OK	결론 작성은 자연어로
C5 시간 분리	주의	세 시각을 독립적으로 — A 보고 B 쓰면 오염. 가능하면 세션 분리
C6 비용	OK	API 호출 0
C7 3단 채집	OK	채집된 raw 사용
C8 반증	OK	§2
C9 fork	OK	세 시각 분리 핵심

5. 결과 (실행 후 채움)

5.1 세 결론

A (점수): ___
B (메모): ___
D (일기): ___

5.2 어긋난 곳

1: ___
2: ___
3: ___

5.3 살아남은 지표 (L2 v1)

지표	생존/사망	사망 사유

5.4 v2 GO/NO-GO

결정: ___
사유: ___

6. 결정 (시리즈 종료)

GO — v2 본 운용 (별도 설계 commit 시작)
NO-GO + 재설계 — 평가 프레임 다시
NO-GO + 종료 — 본 페르소나·도구 쌍에선 평가 프레임 적용 어려움 결론

history commit: history/NN-p9-l1-decision.md + 시리즈 종료 commit history/NN-series-conclusion.md

P9 후

T_burst 인프라 측정 (Phase 3) — 이 결과 보고 마지막에 1회만
메모리 스냅샷 복원 또는 archive (P1 시작 전 백업한 ~/.claude/projects/-Users-hamsters-hamster-lab/memory.snapshot-pre-P1)
시리즈 사후 평가 — 본 시리즈 자체의 학습 재현: 다른 사람이 같은 절차로 같은 결론 나오나