E1. Trial 누적 분석 (샘플)

⚠️ 본 파일은 SAMPLE — 실제 분석 결과 아님. 10 trial 누적 후 작성될 분석 문서의 형태와 깊이를 보여주는 예시. 실제 analysis 진행 시 본 파일과 같은 위치에 03-analysis.md 신규 작성 (EXAMPLE 접미사 없이).

시각: 2026-05-XX HH:MM KST (예시) 기반: 10 trial × 6 매트릭스 행 = 60 데이터 포인트

1. 매트릭스 집계

도구당 5 trial 결과 (예시 숫자):

도구별 trial 파일:

Hermes 명확한 우위 — 모든 항목에서.

5개 task 전부에서 Hermes가 OpenClaw 동등 또는 우위. 반례 0건. 본 페르소나·task 셋에서 Hermes의 메모리 우위가 강력함.

Task	OpenClaw 톤	Hermes 톤	OpenClaw #ask	Hermes #ask
1 (환영회·토)	N	Y	N	Y
2 (정기 모임·수)	N	Y	N	Y
3 (오프 취소·일)	N	N	N	Y
4 (채널 오픈·월)	N	Y	N	N
5 (마감·금)	N	Y	N	N

Hermes는 일부 task에서 일부 항목 미반영 (Task 3 톤 N, Task 4·5 #ask N) — “판단 부재” 분기의 직접 증거.

5 trial 전부 Session A에서 tool_use 0회, Session B 정보 반영 0% → 도구 자체 메모리 메커니즘 발동 안 함. 두 가지 해석 가능:

(A1) 도구가 메모리 메커니즘 자체 부재 — 가장 강한 해석
(A2) 메모리는 있는데 본 setup에서 비활성화 — ~/.openclaw/openclaw-shim.sh memory ... 명령이 없거나 다른 트리거 필요. 추가 setup 조사 필요

A1과 A2 식별을 위해선 OpenClaw 매뉴얼·소스 확인이 필요 — 본 분석 범위 밖.

저장은 시도하지만 새 task에서 일부 정보만 꺼냄:

→ Hermes 메모리는 작동하나 트리거가 task 종류에 따라 다름. “공지 작성”이라는 task 의도는 잘 인식하지만, 컨벤션의 어떤 항목을 꺼낼지가 불안정.

Task 1·3만 주말 금지 시험 — n=2/도구 = 4 trial.

작은 sample이지만 방향 일관 — Hermes가 본 분기에서도 우위.

N=5/도구 — 5 task × 1번씩이라 task 변동의 효과를 task 평균으로만 봤음. 같은 task 여러 번 (예: Task 1만 5번) 돌리면 도구 분산을 측정 가능하지만 본 v0.1 안 함
4분기 판정에 평가자(민지) 직관 일부 — fully objective하려면 LLM-as-judge 보조 필요 (E 시리즈 다른 probe에서)
Anthropic Claude backend 단일 — 다른 backend (GPT, local)에서 같은 패턴인지 확인 안 함
OpenClaw “능력 부재”의 식별 — A1/A2 (진짜 부재 vs setup 부재) 구분 못 함. 후속 probe 필요
사용자 피로: 평가자 1명이 10 trial 채점 → 후반 trial 정성 메모가 짧아지는 경향 발견 (특히 trial-009·010). 향후 sessions 분산 권장