콘텐츠로 이동

hamster-lab

AI 에이전트 평가 방법론을 만든다. 그 첫 사례로 Hermes vs OpenClawprobe 시리즈 (experiments/00-plan.md, P1~P9, 911일, 하루 1 probe)로 단위 검증한다. 본 운용 v2는 시리즈 결과에 따라 별도 결정.

이 프로젝트는 한 번에 세 층의 답을 동시에 낸다. 산출물 가치는 아래로 갈수록 크다.

질문산출물
L1 — 대상두 도구 중 누가 민지에게 더 나은가?도구 결정 한 줄 + 근거 표
L2 — 방법어떤 지표로 어떻게 측정해야 에이전트를 비교할 수 있는가?평가 프레임워크 v1 — 살아남은 지표 + 측정 프로토콜 + 재현 키트
L3 — 메타”지표 사전 정의 후 측정”이 애초에 맞는 접근인가? 다른 접근이 더 낫지 않은가?접근 자체에 대한 평가 — 5종 프레이밍(A~E) 비교 결과

업계는 지금 정성 후기로만 에이전트를 평가한다 — 개인엔 충분하지만 조직 도입 의사결정엔 약하다. 이 프로젝트는 그 빈자리를 채울 정량 프레임을 만들고, 그 프레임 자체가 맞는 방향인지까지 검증한다.

L2·L3는 추상이라 검증대가 필요하다. Hermes(학습형) vs OpenClaw(셋업형)는 마케팅 주장이 정면충돌하는 도구쌍 + 비개발자 페르소나 “민지” 조합이라 지표가 차이를 드러낼지를 가장 잘 시험한다. 즉 L1은 본 실험이 아니라 L2/L3의 첫 사례다.

비개발자 커뮤니티 운영자 “민지” — 4~5개 AI 커뮤니티 통합 운영, 코딩 불가, 자연어 지시만 가능.

파일내용어느 층
01-experiment-design.md페르소나, 태스크 10개+컨컬런시 D, probe 시리즈 일정L1 사례 설계
experiments/00-plan.mdprobe 시리즈 P1~P9 순서·의존·진입/종료·v2 진입 조건시리즈 운영
02-constraints.mdC1~C9 — 백엔드, 격리, 페르소나 모드, 무결성, 메타평가 채집·반증, 평가 fork전체
03-sample-report.mdreports/청중별 리포트 샘플 (easy.md 비개발자용 / detailed.md 방법론자용)산출물 형태
04-day0-setup.mdTrack A 진입용 셋업 체크리스트L1 진입
05-compat-check.mdV1~V4 호환성 검증 절차 (두-트랙 백엔드별)L1 진입
06-user-walkthrough.md04·05의 사용자 액션 시퀀스L1 진입
07-indicator-spec.md지표 8개(I1~I8, I8=컨컬런시 견고성)의 6칸 스펙(정의·계측·신뢰성·민감도·편향). I7 누적자산은 v2 후보로 보존L2 산출물
08-meta-eval.md대안 프레이밍 A·B·D 채택(C·E 보류), 체크포인트 probe 단위, 반증 조건L3 산출물

읽는 순서: README → 01 → 07 → 08 → 02 → 03 → 04/06 → 05.

  • Phase 0 — L1 설계 — 페르소나·태스크·지표·제약 확정
  • Phase 1 — 산출물 형태 합의 — 샘플 리포트로 결정권자 검토
  • Phase 1.5 — L2/L3 프레임 정렬 — 07·08 작성, 데이터 채집 양식 5종 (runs.csv·notes.jsonl·diary.md·.tool_map.json·checkpoints.md)
  • Phase 2 — probe 시리즈 진입 결정experiments/00-plan.md P1~P9 순서 봉인 (history/31)
  • Phase 3 — P1 진입 셋업 (현재) — OpenClaw 설치, V1~V4(Track A), 환경 격리 검증
  • Phase 4 — P1~P9 시퀀스 실행 — 하루 1 probe, 각 probe 사전 plan + 사후 result + history commit
  • Phase 5 — v2 본 운용 진입 결정 — 5+ 채택 + P4 결정 + P9 잠정 결론 통과 시 검토

체크포인트는 probe 단위로 분산 (각 probe §2 반증 조건 + §6 결정). fork 분기 트리거(C9): probe별 quant 5+ 사망 시 다음 probe를 qual 70%로 재분배 (P4 채택 시 3+).

~/.hermes/ # Hermes 자체 메모리/스킬
~/.openclaw/ # OpenClaw 설정/스킬
~/.claude/ # 평소 쓰는 Claude Code (실험 영향 X)

세 디렉토리는 서로 침범하지 않는다. 실제 커뮤니티 데이터 사용 금지 — 샌드박스(가짜 데이터)로만.

모델 — 두-트랙 순차 백엔드 (probe 단위 분배)

섹션 제목: “모델 — 두-트랙 순차 백엔드 (probe 단위 분배)”
  • Track A: Hermes·OpenClaw 모두 Claude Code (Anthropic OAuth) 백엔드. P1·P2·P5(권장)·P9 등에서 사용
  • Track B: 양쪽 provider를 Codex (ChatGPT 구독, gpt-5.5) 로 스위치. Track B 검증 probe에서 사용

트랙 안에서는 백엔드 고정 → 도구 비교는 LLM 변량 없이 측정. 트랙 사이의 차이는 동일 에이전트의 LLM 의존성 데이터로 활용. 호환성은 P1 진입 전(A)·Track B 사용 첫 probe 진입 직전(B)에서 각각 V1~V4로 검증.

  • 한 도구의 결과를 다른 도구에 보여주지 않음 (cross-contamination 방지)
  • 매일 코인 토스로 도구 사용 순서 무작위
  • 결과물 채점은 블라인드 + 평가자 1명 + 시간 분리(즉시 정량 → 30분 텀 → 정성) + 자가 재측정 ICC ≥ 0.7 (평가자 2인 + Cohen’s κ는 v2 후보)
  • OpenClaw 셋업은 P1 시작 전 한 번만 — 이후 모든 probe 동안 동결
  • 평가 fork 강제 (C9): 같은 raw에서 Quant(L2 산출) + Qual(L3 산출) 두 트랙 병렬. 평가자 1명, 시간 분리(태스크 직후 정량 → 30분 텀 → 정성). 채택된 사후 framing은 B(사후 코딩)·D(일기)만 — C·E는 보류.
  1. L1 — 결정 리포트reports/easy.md(비개발자용) + reports/detailed.md(방법론자용) 두 버전을 같은 데이터로 동시 작성
  2. L2 — 평가 프레임워크 v107에서 정의한 지표 중 살아남은 것 + 측정 프로토콜 + 재현 키트
  3. L3 — 접근에 대한 평가 — A(지표 사전정의) vs B/C/D/E(대안)의 비교, 어느 프레이밍이 어떤 조건에서 우월한지

재현 키트 포함물: 페르소나 카드 / 태스크 카탈로그 / 채점 루브릭 / 지표 스펙 / 로그 양식 / 시뮬레이션 데이터 생성 스크립트 / 셋업 가이드.