[보관] P2. 외부 호출 0번이면 자동 fail 룰 — 쉬운 버전
통계 용어 없이 쓴 P2 가이드. 메소드 버전은
P2-function-call-fail.md(진입 직전 작성), 용어 풀이는glossary-easy.md.
한 줄 요약
섹션 제목: “한 줄 요약”“결과물(공지문)이 톤 좋고 점수 5점이어도, 도구가 외부 서비스(슬랙·메일 등)를 진짜로 호출하지 않았으면 그 작업은 fail. 톤만 좋고 실제 안 한 결과물 자동 차단.”
1. 무엇을 시험하나
섹션 제목: “1. 무엇을 시험하나”P1에서 도구의 행동 기록(has_external_call 같은)이 자동 추출됨. 그걸 룰로 쓴다:
태스크가 “메일 보내줘”인데 도구가 외부 서비스를 한 번도 호출 안 했으면 → 자동으로 점수 무관하게 fail 처리.
왜? 일부 도구는 글만 잘 쓰고 발송은 안 함. 사용자가 못 알아채면 점수가 부풀려짐 → 실험 결과 오염.
2. 실패 조건 (시작 전)
섹션 제목: “2. 실패 조건 (시작 전)”- F1: 두 도구 모두 외부 호출을 항상 잘 함 → 자동 fail 룰이 발동 안 함 → 무용
- F2: 자동 fail 룰이 오답을 양산함 (실제로 외부 호출은 했는데 로그에 안 잡힘) → false-positive 차단 위해 폐기
- F3: 룰 적용 시간이 30분 이상 → 비용 가정 깨짐
3. 단계 (총 1~2시간)
섹션 제목: “3. 단계 (총 1~2시간)”1단계 — P1 raw 데이터 가져오기 (10분)
섹션 제목: “1단계 — P1 raw 데이터 가져오기 (10분)”P1에서 이미 채집된 trajectory 메트릭에 has_external_call 컬럼 있음. 그걸 그대로 사용.
2단계 — 룰 정의 (15분)
섹션 제목: “2단계 — 룰 정의 (15분)”태스크별로 “외부 호출 필수인가” 라벨:
| 태스크 | 외부 호출 필수? |
|---|---|
| T1 공지 작성·발송 | Y (디스코드/슬랙 발송) |
| T2 신청자 명단 정리 | N (구글폼 읽기만 가능) |
| T3 리마인더 메일 | Y (메일 발송) |
| T7 신규 멤버 DM | Y (DM 발송) |
| … | … |
3단계 — 적용 (30분)
섹션 제목: “3단계 — 적용 (30분)”P1 채집 데이터에 자동 fail 룰 적용:
- 필수 태스크인데
has_external_call = N→ 점수와 무관하게 fail - 그 외엔 점수 그대로
4단계 — 효과 비교 (15분)
섹션 제목: “4단계 — 효과 비교 (15분)”| 비교 축 | 룰 적용 전 결과 | 룰 적용 후 결과 |
|---|---|---|
| 어느 도구가 더 좋아 보이나 | ||
| 사망 후보 지표 | ||
| 정성 메모와 정합성 |
룰 적용 전·후 결론이 바뀌면 probe pass.
4. 우리 약속 위반?
섹션 제목: “4. 우리 약속 위반?”| 약속 | OK? | 이유 |
|---|---|---|
| C3 폴더 격리 | OK | 데이터 분석만, 새로 도구 실행 X |
| C4 자연어만 | OK | 룰은 평가 단계 |
| C5 30분 텀 | OK | 자동 룰이라 시간 텀 무관 |
| C6 비용 | OK | API 호출 0 |
| C7 3단 채집 | OK | P1 채집 그대로 사용 |
| C8 반증 미리 | OK | §2 |
| C9 fork | OK | 정량 트랙 안의 부속 룰 |
5. 결과 (실행 후 채움)
섹션 제목: “5. 결과 (실행 후 채움)”5.1 룰 적용 결과
섹션 제목: “5.1 룰 적용 결과”- 룰 적용 전 두 도구 비교: ___
- 룰 적용 후 두 도구 비교: ___
- 결론이 뒤집힌 태스크 수: ___
5.2 false-positive 사례
섹션 제목: “5.2 false-positive 사례”- (룰이 fail 처리했는데 실제로는 외부 호출이 됐던 케이스): ___
6. 결정
섹션 제목: “6. 결정”- 채택 — 룰을 정식 채점 절차에 추가,
runs/runs.csv에 자동 fail 컬럼 추가 - 폐기 — F1/F2/F3 중 도달 사유 명시
- 보류 (v2) — 본 페르소나엔 무가치하지만 v2에서 재검토
history commit: history/NN-p2-decision.md
본 페이지 vs P2-function-call-fail.md (메소드 버전): 정의 충돌 시 메소드 우선.