콘텐츠로 이동

[보관] P6. 빠른데 품질 낮은 결과는 따로 셈 (꼼수 차단) — 쉬운 버전

통계 용어 없이 쓴 P6 가이드.

“도구가 빠르려고 짧고 엉터리 결과를 내면, 시간(TTC)만 보면 우세해 보임 → 시간×품질 페어로 봐서 ‘빠른데 품질 낮은 trial’을 따로 카운트. 일종의 꼼수 차단.”

도구 평가에 흔한 함정: 빠르다고 다 좋은 게 아님. 도구가 진짜 일을 하는 척하고 빨리 결과 뱉으면 TTC만 보면 1등. 품질 점수도 같이 봐야 함.

시험: TTC vs 품질 점수를 그래프 하나에 그려보고, 왼쪽 아래 영역 (빠른데 품질 낮은) 사례를 따로 카운트하면 평가 신호가 강해지나?

  • F1: 두 도구 모두 “왼쪽 아래” 영역에 trial 0건 → 꼼수 사례 자체가 없음, 룰 무용
  • F2: 빠른데 품질 낮은 trial 분포가 도구 무관 → 변별력 없음

1단계 — P1~P5 데이터에서 시간·품질 페어 추출 (15분)

섹션 제목: “1단계 — P1~P5 데이터에서 시간·품질 페어 추출 (15분)”

모든 trial의 (ttc_seconds, quality_score) 쌍.

가로축 시간, 세로축 품질. 도구별 색.

3단계 — “왼쪽 아래” 영역 정의 (10분)

섹션 제목: “3단계 — “왼쪽 아래” 영역 정의 (10분)”
  • 빠른: 평균 TTC 이하
  • 품질 낮은: 점수 ≤ 3
  • 둘 다 만족 = 의심 영역

4단계 — 도구별 의심 영역 카운트 비교 (20분)

섹션 제목: “4단계 — 도구별 의심 영역 카운트 비교 (20분)”
도구의심 영역 trial 수비율
Hermes
OpenClaw

차이 의미 있으면 → probe pass.

  • 산점도: 본 페이지 첨부 또는 runs/p6-scatter.png
  • 의심 영역 비율 — Hermes: __% / OpenClaw: __%
  • 채택 — 결정 매트릭스에 “꼼수 영역 카운트” 추가 신호로 박음
  • 폐기 — F1·F2 사유
  • 보류 (v2)