[보관] 25. 평가 프레임워크 피벗 — 본 산출물을 L2/L3로 재정의
시각: 2026-04-28 ~ (대화 진행 중) KST 컨텍스트: 24번(에이전트 평가 리서치) 완료 후 사용자가 본 프로젝트의 진짜 목표를 재확인하는 대화에서 도출
무엇이 있었나
섹션 제목: “무엇이 있었나”사용자가 일련의 질문을 통해 프로젝트 목표를 명시적으로 재정의:
- “지금까지 실행을 시작하기 위한 단계만 명시되어 있고, 진짜 실험에 대한 내용은 정리 안되어 있는거 맞지?” → 부분 정정(
01·03에 실험 본체 있음) 후 운영 매뉴얼 부재 확인 - “평가를 더 유의미하게 개선하는 게 나의 목표일거 같아. 각각의 평가 지표를 생성하고, 어떻게 테스트할지 짜는 거.” → L2(평가 프레임워크) 격상
- “물론 실험도 해보면서 이런 식으로 평가항목을 선정하고 테스트하는게 맞는 방향성인건지, 이 자체를 판단하는 것도 포함이야.” → L3(메타 평가) 추가
이로써 본 프로젝트의 산출물은 3층으로 재정의:
| 층 | 질문 | 산출물 |
|---|---|---|
| L1 | Hermes vs OpenClaw 누가 나음? | 도구 결정 (기존) |
| L2 | 어떤 지표로 어떻게 측정해야 에이전트를 비교할 수 있는가? | 평가 프레임워크 v1 (신규 격상) |
| L3 | ”지표 사전정의 후 측정”이 맞는 접근인가? | 5종 프레이밍 비교 결과 (신규) |
이에 따라 7개 문서 갱신 + 2개 신규:
- README.md — 3층 프레임으로 입구 재작성, 산출물 가치를 L2/L3로 끌어올림
- 01-experiment-design.md — Hermes vs OpenClaw 21일을 “L2/L3 검증 첫 사례”로 재포지셔닝, 가설을 H1
H3 + H-L2-12 + H-L3-1~2로 확장, 측정을 3단 채집(정량+정성+raw)으로 변경 - 02-constraints.md — C7(3단 채집 강제) + C8(반증 조건 사전 명시) 추가
- 03-sample-report.md — Part II(L2: 프레임워크 v1) + Part III(L3: 5종 프레이밍 비교) 섹션 신설
- 07-indicator-spec.md (신규) — 7개 지표 6칸 스펙(W1~W6: 무엇·정의·계측·신뢰성·민감도·편향) + 죽이기/살리기 사전 약속
- 08-meta-eval.md (신규) — 5종 프레이밍(A/B/C/D/E), 체크포인트 D3·D7·D10·D14·D17·D21, 채집 양식 4종, 도움 카탈로그, 반증 조건+액션
- 04-day0-setup.md — L2/L3 채집 파일(notes.jsonl·diary.md·.tool_map.json·checkpoints.md) Day 1 전 생성 의무화
- 05-compat-check.md — L1 진입 전제 조건임을 명시
- 06-user-walkthrough.md — STEP 4.5(L2/L3 채집 셋업) 추가
왜 그렇게 갔나
섹션 제목: “왜 그렇게 갔나”24번 리서치에서 산업·학술 평가 지형도를 살펴본 직후, 본 실험의 7개 지표가 그 지형 안에서 어디 서 있는지를 사용자가 묻기 시작. 거기서 자연스럽게 “그러면 이 평가 자체가 진짜 가치고, 도구 비교는 그 검증대 아닌가” 라는 재구성에 도달.
리서치(24)가 이번 피벗의 직접적 자양분:
- trajectory vs outcome — L3의 5종 프레이밍 중 B(사후 코딩)·C(결과 도달률)·E(행동 추적) 모두 이 분류와 매핑
- LLM-as-judge / Agent-as-judge — D14·D21에서 raw로부터 B 결론을 뽑을 때의 도구
- pass^k — H-L2-1(지표 민감도) 검증 보조
- 벤치마크 게임 가능성 (Berkeley RDI) — 단일 지표 결론 금지, 다축 병행이 표준이라는 발견 → 5종 프레이밍 동시 비교로 직결
L1을 부정하지 않고 L2/L3를 그 위에 얹는 구조를 채택. 이유: 21일 raw 데이터 한 세트로 L1·L2·L3 셋을 동시에 답할 수 있고, L1 단독 산출물(도구 결정)도 의사결정자에겐 그대로 가치 있음.
핵심 운영 변경: 3단 채집(정량+정성+raw) 강제. 정량 단독이면 L3 분석 불가 — “지표가 못 잡은 무엇”의 증거가 정성·raw에만 남음. 사후 B/C/D/E 재해석을 위한 raw 보존이 새 C7에 박힘.
또 반증 조건 사전 명시(C8) — 끝나고 회고로 떠올리는 방식이 아니라 “이러면 지표 X 죽인다 / 접근 A 틀렸다”를 D-1에 박아두는 방식. 이게 L3 결론이 사후 합리화가 아닌 사전 약속 검증임을 보장.
무엇이 남았나
섹션 제목: “무엇이 남았나”즉시 다음 단계
섹션 제목: “즉시 다음 단계”- Day 1 전 채집 파일 4종 생성 (
runs/notes.jsonl,diary.md,.tool_map.json,checkpoints.md) —04-day0-setup.md§1,06-user-walkthrough.mdSTEP 4.5 - OpenClaw 설치 + V1 Track A 검증 (기존 다음 액션) — 위 채집과 병행
07-indicator-spec.md첫 통독 — 7개 지표 W2(조작적 정의)를 첫 태스크 전에 머리에 박기
결정 보류 항목
섹션 제목: “결정 보류 항목”- 24번에서 제안된 5개 적용 후보 (pass^k 도입, rubric 분해, trajectory 분석, LLM-as-judge 시범, MemoryAgentBench 4축 분해) → 새 프레임 안에서 어디에 들어갈지 별도 결정 필요. 1·2·3은
07W3(계측)에 자연스러운 보강, 4는08평가자 셋업에, 5는 H2 정의 재작성에 매핑됨. - Track B 진입 시 Hermes 메모리 초기화 여부 — D14 체크포인트에서 결정. 초기화 시 학습 효과를 트랙 간 분리 가능, 보존 시 누적 효과 측정 가능.
- 08 자체 사후 수정 정책 — 이미
08§7에 박았으나, 실험 중 수정이 필요해질 때 history에 어떻게 기록할지의 운영 룰은 첫 수정 시점에 확정.
본 피벗에 대한 메타
섹션 제목: “본 피벗에 대한 메타”이 피벗 결정 자체도 사후 검증 대상. D21 최종 리포트에서 “L2/L3 격상 결정이 옳았나”를 별도 평가 — 만약 21일 동안 L2/L3 채집 데이터가 L1을 넘는 새로운 통찰을 만들지 못했다면 v2에서 다시 단순화 필요.