[보관] P3. 같은 일 3번 시켰을 때 다 잘 했나 — 쉬운 버전
통계 용어 없이 쓴 P3 가이드. 메소드 버전은 진입 직전 작성, 용어 풀이는
glossary-easy.md.
한 줄 요약
섹션 제목: “한 줄 요약”“같은 태스크를 3번 연속 시키면 도구가 3번 다 비슷한 품질로 해주나, 들쭉날쭉하나? 한 번 잘 한 게 우연이 아닌지 보는 것.”
1. 무엇을 시험하나
섹션 제목: “1. 무엇을 시험하나”본 시리즈는 9~11일이라 학습 곡선은 못 봄. 대신 학습의 징후 하나를 본다:
같은 자연어 지시를 30분 안에 3번 던져 → 매 회 결과물 점수 매김 → 점수가 얼마나 일관되나.
지표 정의 두 가지 후보:
- (보조) std: 점수 들쭉날쭉 정도 (작을수록 일관)
- (주, P3 채택 시) pass^3 boolean: 3번 다 ≥4점 받았나 (Y/N)
P3는 이 둘 중 어느 게 학습 징후 측정에 더 강한가 결정.
2. 실패 조건 (시작 전)
섹션 제목: “2. 실패 조건 (시작 전)”- F1: 두 도구 모두 3번 다 같은 점수 (예: 둘 다 5-5-5) → 변별 못 함
- F2: 두 도구 모두 3번 다 들쭉날쭉 → 도구 차이가 노이즈에 묻힘
- F3: pass^3 boolean과 std가 같은 결론을 가리킴 → 더 단순한 std 채택, boolean 폐기
- F4: 측정 시간이 7시간 초과 → 비용 가정 깨짐
3. 단계 (총 5~7시간)
섹션 제목: “3. 단계 (총 5~7시간)”1단계 — 태스크 2개 선정 (15분)
섹션 제목: “1단계 — 태스크 2개 선정 (15분)”핵심 5태스크 중 2개 (예: T1·T8). 시뮬레이션 데이터에서 동일 입력으로 3회 실행 가능한 것.
2단계 — Hermes 3회 연속 실행 (90분)
섹션 제목: “2단계 — Hermes 3회 연속 실행 (90분)”- T1 같은 자연어 지시로 3번 (각 회마다 새 세션 또는 같은 세션 — P3 §2에서 결정)
- 매 회 결과물 점수 매김 (I5 1~5)
- raw 결과물만 보고 채점, 이전 점수 차단
3단계 — OpenClaw 3회 (90분)
섹션 제목: “3단계 — OpenClaw 3회 (90분)”동일.
4단계 — T8도 같은 식 (90분)
섹션 제목: “4단계 — T8도 같은 식 (90분)”5단계 — 점수 정리·비교 (45분)
섹션 제목: “5단계 — 점수 정리·비교 (45분)”| 도구·태스크 | 1회차 | 2회차 | 3회차 | std | pass^3 (3번 다 ≥4?) |
|---|---|---|---|---|---|
| Hermes T1 | |||||
| OpenClaw T1 | |||||
| Hermes T8 | |||||
| OpenClaw T8 |
도구별 std·pass^3 비교 → P3 결론.
6단계 — std vs boolean 비교 (30분)
섹션 제목: “6단계 — std vs boolean 비교 (30분)”어느 지표가 더 변별력 있게 도구 차이를 드러내나? 둘 다 같은 결론이면 단순한 std 채택.
4. 우리 약속 위반?
섹션 제목: “4. 우리 약속 위반?”| 약속 | OK? | 이유 |
|---|---|---|
| C3 격리 | OK | 도구 자체 폴더 그대로 |
| C4 자연어 | OK | 자연어 지시만 |
| C5 30분 텀 | OK | 매 회마다 30분 텀, 정성 메모는 별도 |
| C6 비용 | OK | 한 트랙 안 |
| C7 3단 채집 | OK | 3회 × 2도구 = 6번 채집 |
| C8 반증 | OK | §2 |
| C9 fork | OK | 정량 위주 측정 |
5. 결과 (실행 후 채움)
섹션 제목: “5. 결과 (실행 후 채움)”5.1 점수표
섹션 제목: “5.1 점수표”| 도구·태스크 | 1회 | 2회 | 3회 | std | pass^3 |
|---|
5.2 채택 정의
섹션 제목: “5.2 채택 정의”- std (보조)
- pass^3 boolean (주)
- 둘 다
5.3 도구별 결론
섹션 제목: “5.3 도구별 결론”- Hermes 일관성: ___
- OpenClaw 일관성: ___
- 차이 의미 있나: ___
6. 결정
섹션 제목: “6. 결정”- 채택 — pass^3 boolean을 I6 정식 정의로 (또는 std 단독 유지)
- 폐기 — F1~F4 중 사유
- 보류 (v2) — 단일 시점 측정으론 부족, 21일에서 재검토
history commit: history/NN-p3-decision.md