콘텐츠로 이동

[보관] P3. 같은 일 3번 시켰을 때 다 잘 했나 — 쉬운 버전

통계 용어 없이 쓴 P3 가이드. 메소드 버전은 진입 직전 작성, 용어 풀이는 glossary-easy.md.

한 줄 요약

“같은 태스크를 3번 연속 시키면 도구가 3번 다 비슷한 품질로 해주나, 들쭉날쭉하나? 한 번 잘 한 게 우연이 아닌지 보는 것.”

1. 무엇을 시험하나

본 시리즈는 9~11일이라 학습 곡선은 못 봄. 대신 학습의 징후 하나를 본다:

같은 자연어 지시를 30분 안에 3번 던져 → 매 회 결과물 점수 매김 → 점수가 얼마나 일관되나.

지표 정의 두 가지 후보:

(보조) std: 점수 들쭉날쭉 정도 (작을수록 일관)
(주, P3 채택 시) pass^3 boolean: 3번 다 ≥4점 받았나 (Y/N)

P3는 이 둘 중 어느 게 학습 징후 측정에 더 강한가 결정.

2. 실패 조건 (시작 전)

F1: 두 도구 모두 3번 다 같은 점수 (예: 둘 다 5-5-5) → 변별 못 함
F2: 두 도구 모두 3번 다 들쭉날쭉 → 도구 차이가 노이즈에 묻힘
F3: pass^3 boolean과 std가 같은 결론을 가리킴 → 더 단순한 std 채택, boolean 폐기
F4: 측정 시간이 7시간 초과 → 비용 가정 깨짐

3. 단계 (총 5~7시간)

1단계 — 태스크 2개 선정 (15분)

핵심 5태스크 중 2개 (예: T1·T8). 시뮬레이션 데이터에서 동일 입력으로 3회 실행 가능한 것.

2단계 — Hermes 3회 연속 실행 (90분)

T1 같은 자연어 지시로 3번 (각 회마다 새 세션 또는 같은 세션 — P3 §2에서 결정)
매 회 결과물 점수 매김 (I5 1~5)
raw 결과물만 보고 채점, 이전 점수 차단

3단계 — OpenClaw 3회 (90분)

동일.

4단계 — T8도 같은 식 (90분)

5단계 — 점수 정리·비교 (45분)

도구·태스크	1회차	2회차	3회차	std	pass^3 (3번 다 ≥4?)
Hermes T1
OpenClaw T1
Hermes T8
OpenClaw T8

도구별 std·pass^3 비교 → P3 결론.

6단계 — std vs boolean 비교 (30분)

어느 지표가 더 변별력 있게 도구 차이를 드러내나? 둘 다 같은 결론이면 단순한 std 채택.

4. 우리 약속 위반?

약속	OK?	이유
C3 격리	OK	도구 자체 폴더 그대로
C4 자연어	OK	자연어 지시만
C5 30분 텀	OK	매 회마다 30분 텀, 정성 메모는 별도
C6 비용	OK	한 트랙 안
C7 3단 채집	OK	3회 × 2도구 = 6번 채집
C8 반증	OK	§2
C9 fork	OK	정량 위주 측정

5. 결과 (실행 후 채움)

5.1 점수표

도구·태스크	1회	2회	3회	std	pass^3

5.2 채택 정의

std (보조)
pass^3 boolean (주)
둘 다

5.3 도구별 결론

Hermes 일관성: ___
OpenClaw 일관성: ___
차이 의미 있나: ___

6. 결정

채택 — pass^3 boolean을 I6 정식 정의로 (또는 std 단독 유지)
폐기 — F1~F4 중 사유
보류 (v2) — 단일 시점 측정으론 부족, 21일에서 재검토

history commit: history/NN-p3-decision.md