hamster-lab
AI 에이전트 평가 방법론을 만든다. 그 첫 사례로 Hermes vs OpenClaw를 probe 시리즈 (experiments/00-plan.md, P1~P9, 911일, 하루 1 probe)로 단위 검증한다. 본 운용 v2는 시리즈 결과에 따라 별도 결정.
본 산출물 — 3층 프레임
섹션 제목: “본 산출물 — 3층 프레임”이 프로젝트는 한 번에 세 층의 답을 동시에 낸다. 산출물 가치는 아래로 갈수록 크다.
| 층 | 질문 | 산출물 |
|---|---|---|
| L1 — 대상 | 두 도구 중 누가 민지에게 더 나은가? | 도구 결정 한 줄 + 근거 표 |
| L2 — 방법 | 어떤 지표로 어떻게 측정해야 에이전트를 비교할 수 있는가? | 평가 프레임워크 v1 — 살아남은 지표 + 측정 프로토콜 + 재현 키트 |
| L3 — 메타 | ”지표 사전 정의 후 측정”이 애초에 맞는 접근인가? 다른 접근이 더 낫지 않은가? | 접근 자체에 대한 평가 — 5종 프레이밍(A~E) 비교 결과 |
업계는 지금 정성 후기로만 에이전트를 평가한다 — 개인엔 충분하지만 조직 도입 의사결정엔 약하다. 이 프로젝트는 그 빈자리를 채울 정량 프레임을 만들고, 그 프레임 자체가 맞는 방향인지까지 검증한다.
왜 Hermes vs OpenClaw인가
섹션 제목: “왜 Hermes vs OpenClaw인가”L2·L3는 추상이라 검증대가 필요하다. Hermes(학습형) vs OpenClaw(셋업형)는 마케팅 주장이 정면충돌하는 도구쌍 + 비개발자 페르소나 “민지” 조합이라 지표가 차이를 드러낼지를 가장 잘 시험한다. 즉 L1은 본 실험이 아니라 L2/L3의 첫 사례다.
페르소나
섹션 제목: “페르소나”비개발자 커뮤니티 운영자 “민지” — 4~5개 AI 커뮤니티 통합 운영, 코딩 불가, 자연어 지시만 가능.
문서 구성
섹션 제목: “문서 구성”| 파일 | 내용 | 어느 층 |
|---|---|---|
01-experiment-design.md | 페르소나, 태스크 10개+컨컬런시 D, probe 시리즈 일정 | L1 사례 설계 |
experiments/00-plan.md | probe 시리즈 P1~P9 순서·의존·진입/종료·v2 진입 조건 | 시리즈 운영 |
02-constraints.md | C1~C9 — 백엔드, 격리, 페르소나 모드, 무결성, 메타평가 채집·반증, 평가 fork | 전체 |
03-sample-report.md → reports/ | 청중별 리포트 샘플 (easy.md 비개발자용 / detailed.md 방법론자용) | 산출물 형태 |
04-day0-setup.md | Track A 진입용 셋업 체크리스트 | L1 진입 |
05-compat-check.md | V1~V4 호환성 검증 절차 (두-트랙 백엔드별) | L1 진입 |
06-user-walkthrough.md | 04·05의 사용자 액션 시퀀스 | L1 진입 |
07-indicator-spec.md | 지표 8개(I1~I8, I8=컨컬런시 견고성)의 6칸 스펙(정의·계측·신뢰성·민감도·편향). I7 누적자산은 v2 후보로 보존 | L2 산출물 |
08-meta-eval.md | 대안 프레이밍 A·B·D 채택(C·E 보류), 체크포인트 probe 단위, 반증 조건 | L3 산출물 |
읽는 순서: README → 01 → 07 → 08 → 02 → 03 → 04/06 → 05.
진행 단계 (probe 시리즈)
섹션 제목: “진행 단계 (probe 시리즈)”- Phase 0 — L1 설계 — 페르소나·태스크·지표·제약 확정
- Phase 1 — 산출물 형태 합의 — 샘플 리포트로 결정권자 검토
- Phase 1.5 — L2/L3 프레임 정렬 — 07·08 작성, 데이터 채집 양식 5종 (
runs.csv·notes.jsonl·diary.md·.tool_map.json·checkpoints.md) - Phase 2 — probe 시리즈 진입 결정 —
experiments/00-plan.mdP1~P9 순서 봉인 (history/31) - Phase 3 — P1 진입 셋업 (현재) — OpenClaw 설치, V1~V4(Track A), 환경 격리 검증
- Phase 4 — P1~P9 시퀀스 실행 — 하루 1 probe, 각 probe 사전 plan + 사후 result + history commit
- Phase 5 — v2 본 운용 진입 결정 — 5+ 채택 + P4 결정 + P9 잠정 결론 통과 시 검토
체크포인트는 probe 단위로 분산 (각 probe §2 반증 조건 + §6 결정). fork 분기 트리거(C9): probe별 quant 5+ 사망 시 다음 probe를 qual 70%로 재분배 (P4 채택 시 3+).
환경 격리
섹션 제목: “환경 격리”~/.hermes/ # Hermes 자체 메모리/스킬~/.openclaw/ # OpenClaw 설정/스킬~/.claude/ # 평소 쓰는 Claude Code (실험 영향 X)세 디렉토리는 서로 침범하지 않는다. 실제 커뮤니티 데이터 사용 금지 — 샌드박스(가짜 데이터)로만.
모델 — 두-트랙 순차 백엔드 (probe 단위 분배)
섹션 제목: “모델 — 두-트랙 순차 백엔드 (probe 단위 분배)”- Track A: Hermes·OpenClaw 모두 Claude Code (Anthropic OAuth) 백엔드. P1·P2·P5(권장)·P9 등에서 사용
- Track B: 양쪽 provider를 Codex (ChatGPT 구독, gpt-5.5) 로 스위치. Track B 검증 probe에서 사용
트랙 안에서는 백엔드 고정 → 도구 비교는 LLM 변량 없이 측정. 트랙 사이의 차이는 동일 에이전트의 LLM 의존성 데이터로 활용. 호환성은 P1 진입 전(A)·Track B 사용 첫 probe 진입 직전(B)에서 각각 V1~V4로 검증.
측정 무결성
섹션 제목: “측정 무결성”- 한 도구의 결과를 다른 도구에 보여주지 않음 (cross-contamination 방지)
- 매일 코인 토스로 도구 사용 순서 무작위
- 결과물 채점은 블라인드 + 평가자 1명 + 시간 분리(즉시 정량 → 30분 텀 → 정성) + 자가 재측정 ICC ≥ 0.7 (평가자 2인 + Cohen’s κ는 v2 후보)
- OpenClaw 셋업은 P1 시작 전 한 번만 — 이후 모든 probe 동안 동결
- 평가 fork 강제 (C9): 같은 raw에서 Quant(L2 산출) + Qual(L3 산출) 두 트랙 병렬. 평가자 1명, 시간 분리(태스크 직후 정량 → 30분 텀 → 정성). 채택된 사후 framing은 B(사후 코딩)·D(일기)만 — C·E는 보류.
산출물 (실험 종료 시)
섹션 제목: “산출물 (실험 종료 시)”- L1 — 결정 리포트 —
reports/easy.md(비개발자용) +reports/detailed.md(방법론자용) 두 버전을 같은 데이터로 동시 작성 - L2 — 평가 프레임워크 v1 —
07에서 정의한 지표 중 살아남은 것 + 측정 프로토콜 + 재현 키트 - L3 — 접근에 대한 평가 — A(지표 사전정의) vs B/C/D/E(대안)의 비교, 어느 프레이밍이 어떤 조건에서 우월한지
재현 키트 포함물: 페르소나 카드 / 태스크 카탈로그 / 채점 루브릭 / 지표 스펙 / 로그 양식 / 시뮬레이션 데이터 생성 스크립트 / 셋업 가이드.