콘텐츠로 이동

[보관] P6. 빠른데 품질 낮은 결과는 따로 셈 (꼼수 차단) — 쉬운 버전

통계 용어 없이 쓴 P6 가이드.

한 줄 요약

“도구가 빠르려고 짧고 엉터리 결과를 내면, 시간(TTC)만 보면 우세해 보임 → 시간×품질 페어로 봐서 ‘빠른데 품질 낮은 trial’을 따로 카운트. 일종의 꼼수 차단.”

1. 무엇을 시험하나

도구 평가에 흔한 함정: 빠르다고 다 좋은 게 아님. 도구가 진짜 일을 하는 척하고 빨리 결과 뱉으면 TTC만 보면 1등. 품질 점수도 같이 봐야 함.

시험: TTC vs 품질 점수를 그래프 하나에 그려보고, 왼쪽 아래 영역 (빠른데 품질 낮은) 사례를 따로 카운트하면 평가 신호가 강해지나?

2. 실패 조건 (시작 전)

F1: 두 도구 모두 “왼쪽 아래” 영역에 trial 0건 → 꼼수 사례 자체가 없음, 룰 무용
F2: 빠른데 품질 낮은 trial 분포가 도구 무관 → 변별력 없음

3. 단계 (총 1시간)

1단계 — P1~P5 데이터에서 시간·품질 페어 추출 (15분)

모든 trial의 (ttc_seconds, quality_score) 쌍.

2단계 — 산점도 그리기 (15분)

가로축 시간, 세로축 품질. 도구별 색.

3단계 — “왼쪽 아래” 영역 정의 (10분)

빠른: 평균 TTC 이하
품질 낮은: 점수 ≤ 3
둘 다 만족 = 의심 영역

4단계 — 도구별 의심 영역 카운트 비교 (20분)

도구	의심 영역 trial 수	비율
Hermes
OpenClaw

차이 의미 있으면 → probe pass.

4. C-제약 OK (분석만)

5. 결과

산점도: 본 페이지 첨부 또는 runs/p6-scatter.png
의심 영역 비율 — Hermes: __% / OpenClaw: __%

6. 결정

채택 — 결정 매트릭스에 “꼼수 영역 카운트” 추가 신호로 박음
폐기 — F1·F2 사유
보류 (v2)