[보관] P6. 빠른데 품질 낮은 결과는 따로 셈 (꼼수 차단) — 쉬운 버전
통계 용어 없이 쓴 P6 가이드.
한 줄 요약
섹션 제목: “한 줄 요약”“도구가 빠르려고 짧고 엉터리 결과를 내면, 시간(TTC)만 보면 우세해 보임 → 시간×품질 페어로 봐서 ‘빠른데 품질 낮은 trial’을 따로 카운트. 일종의 꼼수 차단.”
1. 무엇을 시험하나
섹션 제목: “1. 무엇을 시험하나”도구 평가에 흔한 함정: 빠르다고 다 좋은 게 아님. 도구가 진짜 일을 하는 척하고 빨리 결과 뱉으면 TTC만 보면 1등. 품질 점수도 같이 봐야 함.
시험: TTC vs 품질 점수를 그래프 하나에 그려보고, 왼쪽 아래 영역 (빠른데 품질 낮은) 사례를 따로 카운트하면 평가 신호가 강해지나?
2. 실패 조건 (시작 전)
섹션 제목: “2. 실패 조건 (시작 전)”- F1: 두 도구 모두 “왼쪽 아래” 영역에 trial 0건 → 꼼수 사례 자체가 없음, 룰 무용
- F2: 빠른데 품질 낮은 trial 분포가 도구 무관 → 변별력 없음
3. 단계 (총 1시간)
섹션 제목: “3. 단계 (총 1시간)”1단계 — P1~P5 데이터에서 시간·품질 페어 추출 (15분)
섹션 제목: “1단계 — P1~P5 데이터에서 시간·품질 페어 추출 (15분)”모든 trial의 (ttc_seconds, quality_score) 쌍.
2단계 — 산점도 그리기 (15분)
섹션 제목: “2단계 — 산점도 그리기 (15분)”가로축 시간, 세로축 품질. 도구별 색.
3단계 — “왼쪽 아래” 영역 정의 (10분)
섹션 제목: “3단계 — “왼쪽 아래” 영역 정의 (10분)”- 빠른: 평균 TTC 이하
- 품질 낮은: 점수 ≤ 3
- 둘 다 만족 = 의심 영역
4단계 — 도구별 의심 영역 카운트 비교 (20분)
섹션 제목: “4단계 — 도구별 의심 영역 카운트 비교 (20분)”| 도구 | 의심 영역 trial 수 | 비율 |
|---|---|---|
| Hermes | ||
| OpenClaw |
차이 의미 있으면 → probe pass.
4. C-제약 OK (분석만)
섹션 제목: “4. C-제약 OK (분석만)”5. 결과
섹션 제목: “5. 결과”- 산점도: 본 페이지 첨부 또는
runs/p6-scatter.png - 의심 영역 비율 — Hermes: __% / OpenClaw: __%
6. 결정
섹션 제목: “6. 결정”- 채택 — 결정 매트릭스에 “꼼수 영역 카운트” 추가 신호로 박음
- 폐기 — F1·F2 사유
- 보류 (v2)