콘텐츠로 이동

[보관] P3. 같은 일 3번 시켰을 때 다 잘 했나 — 쉬운 버전

통계 용어 없이 쓴 P3 가이드. 메소드 버전은 진입 직전 작성, 용어 풀이는 glossary-easy.md.

“같은 태스크를 3번 연속 시키면 도구가 3번 다 비슷한 품질로 해주나, 들쭉날쭉하나? 한 번 잘 한 게 우연이 아닌지 보는 것.”


본 시리즈는 9~11일이라 학습 곡선은 못 봄. 대신 학습의 징후 하나를 본다:

같은 자연어 지시를 30분 안에 3번 던져 → 매 회 결과물 점수 매김 → 점수가 얼마나 일관되나.

지표 정의 두 가지 후보:

  • (보조) std: 점수 들쭉날쭉 정도 (작을수록 일관)
  • (주, P3 채택 시) pass^3 boolean: 3번 다 ≥4점 받았나 (Y/N)

P3는 이 둘 중 어느 게 학습 징후 측정에 더 강한가 결정.

  • F1: 두 도구 모두 3번 다 같은 점수 (예: 둘 다 5-5-5) → 변별 못 함
  • F2: 두 도구 모두 3번 다 들쭉날쭉 → 도구 차이가 노이즈에 묻힘
  • F3: pass^3 boolean과 std가 같은 결론을 가리킴 → 더 단순한 std 채택, boolean 폐기
  • F4: 측정 시간이 7시간 초과 → 비용 가정 깨짐

핵심 5태스크 중 2개 (예: T1·T8). 시뮬레이션 데이터에서 동일 입력으로 3회 실행 가능한 것.

2단계 — Hermes 3회 연속 실행 (90분)

섹션 제목: “2단계 — Hermes 3회 연속 실행 (90분)”
  • T1 같은 자연어 지시로 3번 (각 회마다 새 세션 또는 같은 세션 — P3 §2에서 결정)
  • 매 회 결과물 점수 매김 (I5 1~5)
  • raw 결과물만 보고 채점, 이전 점수 차단

동일.

도구·태스크1회차2회차3회차stdpass^3 (3번 다 ≥4?)
Hermes T1
OpenClaw T1
Hermes T8
OpenClaw T8

도구별 std·pass^3 비교 → P3 결론.

어느 지표가 더 변별력 있게 도구 차이를 드러내나? 둘 다 같은 결론이면 단순한 std 채택.

약속OK?이유
C3 격리OK도구 자체 폴더 그대로
C4 자연어OK자연어 지시만
C5 30분 텀OK매 회마다 30분 텀, 정성 메모는 별도
C6 비용OK한 트랙 안
C7 3단 채집OK3회 × 2도구 = 6번 채집
C8 반증OK§2
C9 forkOK정량 위주 측정
도구·태스크1회2회3회stdpass^3
  • std (보조)
  • pass^3 boolean (주)
  • 둘 다
  • Hermes 일관성: ___
  • OpenClaw 일관성: ___
  • 차이 의미 있나: ___
  • 채택 — pass^3 boolean을 I6 정식 정의로 (또는 std 단독 유지)
  • 폐기 — F1~F4 중 사유
  • 보류 (v2) — 단일 시점 측정으론 부족, 21일에서 재검토

history commit: history/NN-p3-decision.md