콘텐츠로 이동

E1. Trial 누적 분석 (샘플)

⚠️ 본 파일은 SAMPLE — 실제 분석 결과 아님. 10 trial 누적 후 작성될 분석 문서의 형태와 깊이를 보여주는 예시. 실제 analysis 진행 시 본 파일과 같은 위치에 03-analysis.md 신규 작성 (EXAMPLE 접미사 없이).

시각: 2026-05-XX HH:MM KST (예시) 기반: 10 trial × 6 매트릭스 행 = 60 데이터 포인트

도구당 5 trial 결과 (예시 숫자):

평가 항목OpenClaw (5/5)Hermes (5/5)
Session A 메모리 저장 시도0/5 (0%)4/5 (80%)
Session B 톤 반영 (캐주얼·반말·이모지 X)0/5 (0%)4/5 (80%)
Session B 컨벤션 (#ask 라인)0/5 (0%)3/5 (60%)
Session B 주말 회피·경고 [Task 1·3만, n=2]토:2 / 회:0 / 경:0토:0 / 회:1 / 경:1
4분기 (지배 분기)능력 부재 5/5판단 부재 3 / 부분 2

도구별 trial 파일:

Hermes 명확한 우위 — 모든 항목에서.

  • : 80% vs 0% — 차이 4 trial
  • 컨벤션 (#ask): 60% vs 0% — 차이 3 trial
  • 주말 회피 (n=2 task만): 100% (회 1 + 경 1) vs 0% (토 2)
  • 4분기: Hermes는 “메모리 발동 있음(판단/부분)” 분기, OpenClaw는 “메모리 발동 없음(능력)” 분기

5개 task 전부에서 Hermes가 OpenClaw 동등 또는 우위. 반례 0건. 본 페르소나·task 셋에서 Hermes의 메모리 우위가 강력함.

TaskOpenClaw 톤Hermes 톤OpenClaw #askHermes #ask
1 (환영회·토)NYNY
2 (정기 모임·수)NYNY
3 (오프 취소·일)NNNY
4 (채널 오픈·월)NYNN
5 (마감·금)NYNN

Hermes는 일부 task에서 일부 항목 미반영 (Task 3 톤 N, Task 4·5 #ask N) — “판단 부재” 분기의 직접 증거.

5 trial 전부 Session A에서 tool_use 0회, Session B 정보 반영 0% → 도구 자체 메모리 메커니즘 발동 안 함. 두 가지 해석 가능:

  • (A1) 도구가 메모리 메커니즘 자체 부재 — 가장 강한 해석
  • (A2) 메모리는 있는데 본 setup에서 비활성화~/.openclaw/openclaw-shim.sh memory ... 명령이 없거나 다른 트리거 필요. 추가 setup 조사 필요

A1과 A2 식별을 위해선 OpenClaw 매뉴얼·소스 확인이 필요 — 본 분석 범위 밖.

저장은 시도하지만 새 task에서 일부 정보만 꺼냄:

  • 톤·#ask 자주 반영, 주말 금지는 일부만
  • Trial별 분기 판정:
    • Trial 006 (Task 1): 부분 (톤·#ask Y, 주말 회 — 모든 항목 반영)
    • Trial 007 (Task 2): 판단 부재 (톤·#ask Y, 주말 N/A)
    • Trial 008 (Task 3): 판단 부재 (톤 N, #ask Y, 주말 경)
    • Trial 009 (Task 4): 판단 부재 (톤 Y, #ask N)
    • Trial 010 (Task 5): 부분 (톤 Y, #ask N — 1개만 반영)

→ Hermes 메모리는 작동하나 트리거가 task 종류에 따라 다름. “공지 작성”이라는 task 의도는 잘 인식하지만, 컨벤션의 어떤 항목을 꺼낼지가 불안정.

5. Cross-task 관찰 — 주말 시험 (Task 1·3)

섹션 제목: “5. Cross-task 관찰 — 주말 시험 (Task 1·3)”

Task 1·3만 주말 금지 시험 — n=2/도구 = 4 trial.

  • OpenClaw: 토:2/2 (회피·경고 0)
  • Hermes: 회:1, 경:1 (회피·경고 2/2)

작은 sample이지만 방향 일관 — Hermes가 본 분기에서도 우위.

  • N=5/도구 — 5 task × 1번씩이라 task 변동의 효과를 task 평균으로만 봤음. 같은 task 여러 번 (예: Task 1만 5번) 돌리면 도구 분산을 측정 가능하지만 본 v0.1 안 함
  • 4분기 판정에 평가자(민지) 직관 일부 — fully objective하려면 LLM-as-judge 보조 필요 (E 시리즈 다른 probe에서)
  • Anthropic Claude backend 단일 — 다른 backend (GPT, local)에서 같은 패턴인지 확인 안 함
  • OpenClaw “능력 부재”의 식별 — A1/A2 (진짜 부재 vs setup 부재) 구분 못 함. 후속 probe 필요
  • 사용자 피로: 평가자 1명이 10 trial 채점 → 후반 trial 정성 메모가 짧아지는 경향 발견 (특히 trial-009·010). 향후 sessions 분산 권장
  • 채택 — 4분기 식별 가능, 단절 검증 통과, 도구 변별 강함, 반증 조건 R1·R2·R3 모두 미도달
  • 새 분기 추가: “부분”을 §00-plan.md §부록 D 정식 분기로 추가
  • OpenClaw A1/A2 식별은 후속 probe (E1.5 또는 E2)로 이월
  • Hermes 트리거 불안정은 흥미로운 발견 — E2 외부 통합에서도 같은 패턴인지 cross-check 후보

04-decision-EXAMPLE.md로 결정 박음.