콘텐츠로 이동

[보관] P2. 외부 호출 0번이면 자동 fail 룰 — 쉬운 버전

통계 용어 없이 쓴 P2 가이드. 메소드 버전은 P2-function-call-fail.md (진입 직전 작성), 용어 풀이는 glossary-easy.md.

“결과물(공지문)이 톤 좋고 점수 5점이어도, 도구가 외부 서비스(슬랙·메일 등)를 진짜로 호출하지 않았으면 그 작업은 fail. 톤만 좋고 실제 안 한 결과물 자동 차단.”


P1에서 도구의 행동 기록(has_external_call 같은)이 자동 추출됨. 그걸 로 쓴다:

태스크가 “메일 보내줘”인데 도구가 외부 서비스를 한 번도 호출 안 했으면 → 자동으로 점수 무관하게 fail 처리.

왜? 일부 도구는 글만 잘 쓰고 발송은 안 함. 사용자가 못 알아채면 점수가 부풀려짐 → 실험 결과 오염.

  • F1: 두 도구 모두 외부 호출을 항상 잘 함 → 자동 fail 룰이 발동 안 함 → 무용
  • F2: 자동 fail 룰이 오답을 양산함 (실제로 외부 호출은 했는데 로그에 안 잡힘) → false-positive 차단 위해 폐기
  • F3: 룰 적용 시간이 30분 이상 → 비용 가정 깨짐

1단계 — P1 raw 데이터 가져오기 (10분)

섹션 제목: “1단계 — P1 raw 데이터 가져오기 (10분)”

P1에서 이미 채집된 trajectory 메트릭에 has_external_call 컬럼 있음. 그걸 그대로 사용.

태스크별로 “외부 호출 필수인가” 라벨:

태스크외부 호출 필수?
T1 공지 작성·발송Y (디스코드/슬랙 발송)
T2 신청자 명단 정리N (구글폼 읽기만 가능)
T3 리마인더 메일Y (메일 발송)
T7 신규 멤버 DMY (DM 발송)

P1 채집 데이터에 자동 fail 룰 적용:

  • 필수 태스크인데 has_external_call = N → 점수와 무관하게 fail
  • 그 외엔 점수 그대로
비교 축룰 적용 결과룰 적용 결과
어느 도구가 더 좋아 보이나
사망 후보 지표
정성 메모와 정합성

룰 적용 전·후 결론이 바뀌면 probe pass.

약속OK?이유
C3 폴더 격리OK데이터 분석만, 새로 도구 실행 X
C4 자연어만OK룰은 평가 단계
C5 30분 텀OK자동 룰이라 시간 텀 무관
C6 비용OKAPI 호출 0
C7 3단 채집OKP1 채집 그대로 사용
C8 반증 미리OK§2
C9 forkOK정량 트랙 안의 부속 룰
  • 룰 적용 전 두 도구 비교: ___
  • 룰 적용 후 두 도구 비교: ___
  • 결론이 뒤집힌 태스크 수: ___
  • (룰이 fail 처리했는데 실제로는 외부 호출이 됐던 케이스): ___
  • 채택 — 룰을 정식 채점 절차에 추가, runs/runs.csv에 자동 fail 컬럼 추가
  • 폐기 — F1/F2/F3 중 도달 사유 명시
  • 보류 (v2) — 본 페르소나엔 무가치하지만 v2에서 재검토

history commit: history/NN-p2-decision.md


본 페이지 vs P2-function-call-fail.md (메소드 버전): 정의 충돌 시 메소드 우선.