[보관] 25. 평가 프레임워크 피벗 — 본 산출물을 L2/L3로 재정의

시각: 2026-04-28 ~ (대화 진행 중) KST 컨텍스트: 24번(에이전트 평가 리서치) 완료 후 사용자가 본 프로젝트의 진짜 목표를 재확인하는 대화에서 도출

무엇이 있었나

사용자가 일련의 질문을 통해 프로젝트 목표를 명시적으로 재정의:

“지금까지 실행을 시작하기 위한 단계만 명시되어 있고, 진짜 실험에 대한 내용은 정리 안되어 있는거 맞지?” → 부분 정정(01·03에 실험 본체 있음) 후 운영 매뉴얼 부재 확인
“평가를 더 유의미하게 개선하는 게 나의 목표일거 같아. 각각의 평가 지표를 생성하고, 어떻게 테스트할지 짜는 거.” → L2(평가 프레임워크) 격상
“물론 실험도 해보면서 이런 식으로 평가항목을 선정하고 테스트하는게 맞는 방향성인건지, 이 자체를 판단하는 것도 포함이야.” → L3(메타 평가) 추가

이로써 본 프로젝트의 산출물은 3층으로 재정의:

이에 따라 7개 문서 갱신 + 2개 신규:

README.md — 3층 프레임으로 입구 재작성, 산출물 가치를 L2/L3로 끌어올림
01-experiment-design.md — Hermes vs OpenClaw 21일을 “L2/L3 검증 첫 사례”로 재포지셔닝, 가설을 H1~~H3 + H-L2-1~~2 + H-L3-1~2로 확장, 측정을 3단 채집(정량+정성+raw)으로 변경
02-constraints.md — C7(3단 채집 강제) + C8(반증 조건 사전 명시) 추가
03-sample-report.md — Part II(L2: 프레임워크 v1) + Part III(L3: 5종 프레이밍 비교) 섹션 신설
07-indicator-spec.md (신규) — 7개 지표 6칸 스펙(W1~W6: 무엇·정의·계측·신뢰성·민감도·편향) + 죽이기/살리기 사전 약속
08-meta-eval.md (신규) — 5종 프레이밍(A/B/C/D/E), 체크포인트 D3·D7·D10·D14·D17·D21, 채집 양식 4종, 도움 카탈로그, 반증 조건+액션
04-day0-setup.md — L2/L3 채집 파일(notes.jsonl·diary.md·.tool_map.json·checkpoints.md) Day 1 전 생성 의무화
05-compat-check.md — L1 진입 전제 조건임을 명시
06-user-walkthrough.md — STEP 4.5(L2/L3 채집 셋업) 추가

24번 리서치에서 산업·학술 평가 지형도를 살펴본 직후, 본 실험의 7개 지표가 그 지형 안에서 어디 서 있는지를 사용자가 묻기 시작. 거기서 자연스럽게 “그러면 이 평가 자체가 진짜 가치고, 도구 비교는 그 검증대 아닌가” 라는 재구성에 도달.

리서치(24)가 이번 피벗의 직접적 자양분:

trajectory vs outcome — L3의 5종 프레이밍 중 B(사후 코딩)·C(결과 도달률)·E(행동 추적) 모두 이 분류와 매핑
LLM-as-judge / Agent-as-judge — D14·D21에서 raw로부터 B 결론을 뽑을 때의 도구
pass^k — H-L2-1(지표 민감도) 검증 보조
벤치마크 게임 가능성 (Berkeley RDI) — 단일 지표 결론 금지, 다축 병행이 표준이라는 발견 → 5종 프레이밍 동시 비교로 직결

L1을 부정하지 않고 L2/L3를 그 위에 얹는 구조를 채택. 이유: 21일 raw 데이터 한 세트로 L1·L2·L3 셋을 동시에 답할 수 있고, L1 단독 산출물(도구 결정)도 의사결정자에겐 그대로 가치 있음.

핵심 운영 변경: 3단 채집(정량+정성+raw) 강제. 정량 단독이면 L3 분석 불가 — “지표가 못 잡은 무엇”의 증거가 정성·raw에만 남음. 사후 B/C/D/E 재해석을 위한 raw 보존이 새 C7에 박힘.

또 반증 조건 사전 명시(C8) — 끝나고 회고로 떠올리는 방식이 아니라 “이러면 지표 X 죽인다 / 접근 A 틀렸다”를 D-1에 박아두는 방식. 이게 L3 결론이 사후 합리화가 아닌 사전 약속 검증임을 보장.

Day 1 전 채집 파일 4종 생성 (runs/notes.jsonl, diary.md, .tool_map.json, checkpoints.md) — 04-day0-setup.md §1, 06-user-walkthrough.md STEP 4.5
OpenClaw 설치 + V1 Track A 검증 (기존 다음 액션) — 위 채집과 병행
07-indicator-spec.md 첫 통독 — 7개 지표 W2(조작적 정의)를 첫 태스크 전에 머리에 박기

24번에서 제안된 5개 적용 후보 (pass^k 도입, rubric 분해, trajectory 분석, LLM-as-judge 시범, MemoryAgentBench 4축 분해) → 새 프레임 안에서 어디에 들어갈지 별도 결정 필요. 1·2·3은 07 W3(계측)에 자연스러운 보강, 4는 08 평가자 셋업에, 5는 H2 정의 재작성에 매핑됨.
Track B 진입 시 Hermes 메모리 초기화 여부 — D14 체크포인트에서 결정. 초기화 시 학습 효과를 트랙 간 분리 가능, 보존 시 누적 효과 측정 가능.
08 자체 사후 수정 정책 — 이미 08 §7에 박았으나, 실험 중 수정이 필요해질 때 history에 어떻게 기록할지의 운영 룰은 첫 수정 시점에 확정.

이 피벗 결정 자체도 사후 검증 대상. D21 최종 리포트에서 “L2/L3 격상 결정이 옳았나”를 별도 평가 — 만약 21일 동안 L2/L3 채집 데이터가 L1을 넘는 새로운 통찰을 만들지 못했다면 v2에서 다시 단순화 필요.