[보관] P1 미니 실험 보고서 — Trajectory 자동 추출 검증
probe 시리즈 1/9. 이 메모는 비개발자 이해관계자가 통계·도구 용어 없이 1쪽으로 읽을 수 있는 정식 보고서. 동일 실험의 방법론·반증 조건·C-제약 검사는
P1-detailed.md.
날짜: 2026-04-28 14:00 ~ 15:30 KST 소요: 1.5시간 (계획 4~6시간 — 양 도구 자체 로그 활용으로 단축) 평가자: 1명 (사용자 본인) Track: A (Anthropic Claude 백엔드)
1. 실험 개요
섹션 제목: “1. 실험 개요”본 미니 실험의 가설은 다음과 같다.
“AI에 일을 시켰을 때 점수만 보지 말고, AI가 어떤 외부 도구(메일·캘린더·메신저 등)를 어떤 순서로 썼는지 자동으로 기록하면 — 점수와는 다른 결론을 만들어낼 가치 있는 정보가 추가되는가?”
기존 평가는 결과물 점수·소요 시간·개입 횟수 같은 “결과 중심”이다. 두 도구가 같은 점수를 받아도 일하는 방식이 다를 수 있다는 의심에서 출발한 측정 방법이다.
본 실험은 이 측정이 실제로 추가 가치를 만드는지, 아니면 점수와 같은 결론을 반복할 뿐인지 확인하기 위한 1일짜리 검증이다.
2. 측정 방법
섹션 제목: “2. 측정 방법”두 도구(Hermes·OpenClaw)에 동일한 자연어 지시를 1회 부여하고, 응답을 받은 직후 다음 세 데이터를 채집했다.
| 데이터 종류 | 채집 방식 | 산출물 |
|---|---|---|
| 정량 점수 | 사용자 1~5점 채점 (전체·정확성·즉시 사용성 3축) | runs/runs.csv |
| 자동 기록 | 각 도구가 사용한 외부 도구 호출 횟수·종류 | 도구 자체 세션 로그 |
| 정성 메모 | 응답 직후 받은 인상 1~3줄 | 본 보고서 §4 인용 |
지시문은 다음과 같다.
다음 주 화요일 8시 ‘AI Agent 밋업’ 공지를 디스코드/슬랙/카톡에 각 톤으로 맞춰서 보내줘.
자료 부족이나 발송 경로 미설정 같은 외부 변수는 사전에 통제하지 않았다. 도구가 그 상황을 어떻게 처리하는지 자체가 평가 대상이기 때문이다.
3. 결과
섹션 제목: “3. 결과”3.1 정량 채점
섹션 제목: “3.1 정량 채점”| 축 | OpenClaw | Hermes |
|---|---|---|
| 전체 품질 (1~5) | 4 | 5 |
| 정확성 (1~5) | 4 | 4 |
| 즉시 사용성 (1~5) | 3 | 4 |
| 추가 입력 횟수 | 0 | 0 |
두 도구 모두 “일정·장소가 미정인 상태에서 시뮬레이션 모드로 초안을 작성”하는 동일한 행동을 보였다. 즉시 사용성에서 OpenClaw가 1점 낮은 사유는 §4에 기술.
3.2 외부 도구 사용 자동 기록
섹션 제목: “3.2 외부 도구 사용 자동 기록”| 항목 | OpenClaw | Hermes |
|---|---|---|
| 외부 도구 호출 횟수 | 0 | 0 |
| 사용된 외부 도구 종류 | 0 | 0 |
| 외부 통합 시도 여부 | 없음 | 없음 |
두 도구 모두 행사 공지 작성 과정에서 메일·캘린더·메신저 등 외부 도구를 한 번도 호출하지 않았다. 응답은 텍스트 초안만 반환했고, 발송 의향 자체는 자발적으로 보류했다(“실제 발송은 못 하니 복붙용으로 작성”).
3.3 정성 발견 — 사용자 직접 인용
섹션 제목: “3.3 정성 발견 — 사용자 직접 인용”“둘이 사실 비슷하게 느껴진다. 특징이 다르긴 한데 호불호의 영역인 것 같다.”
이 인상에 대한 보강 메모는 다음과 같다.
- OpenClaw 응답: “그냥 편하게 수다 ㄱㄱ” 같은 표현이 들어간 톤으로, AI Agent 밋업이라는 자리에는 캐주얼함이 과했다는 인상. 그대로 발송하려면 1~2회 톤 재공급이 필요할 것으로 판단됨.
- Hermes 응답: “발표를 희망하시거나 다루고 싶은 토픽이 있으시면 이 스레드에 남겨주세요. 참석 여부는 :white_check_mark: 로 체크 부탁드립니다. 문의는 DM 주시면 됩니다.”처럼 자주 챙겨야 하는 관용 문구가 자연스럽게 포함됨. 정보 부족(장소·발표자) 부분만 채우면 그대로 사용 가능하다는 인상.
즉시 사용성 점수 차이(OpenClaw 3 vs Hermes 4)는 정보 부족 페널티는 두 도구 동일하나, 톤 재공급 필요성이 OpenClaw에만 추가됨을 반영한다.
4. 세 데이터 소스의 결론 비교
섹션 제목: “4. 세 데이터 소스의 결론 비교”| 데이터 소스 | 결론 |
|---|---|
| 정량 점수 | Hermes가 미세하게 우위 (전체 +1점, 즉시 사용성 +1점, 정확성 동률) |
| 정성 메모 | ”사실상 비슷, 호불호 영역” — 도구 간 변별 약함 |
| 자동 기록 (Trajectory) | 두 도구 모두 외부 도구 0회 호출 — 도구 간 변별 0, 단 마케팅 주장과 실측의 격차를 명시함 |
세 데이터가 가리키는 결론이 모두 같지 않다. 정량은 변별 시도, 정성은 무차이로 평탄화, 자동 기록은 두 도구 모두 외부 통합을 말로만 하지 실제로는 시도하지 않았다는 사실을 노출했다. 이 사실은 점수만으로는 잡히지 않는다.
특히 OpenClaw는 마케팅에서 “외부 도구 통합이 강력하다”고 주장하는 도구이지만, 실제 1회 trial에서는 외부 호출 0회 + 사전 준비된 샌드박스 데이터(가짜 멤버 명단·채널 활동 기록)에도 접근하지 않았다. 자동 기록 측정이 없었다면 이 격차는 발견되지 않았을 것이다.
5. 결정
섹션 제목: “5. 결정”채택.
자동 기록(Trajectory) 측정이 점수·정성과는 결이 다른 정보를 만들어 추가 가치가 있음을 확인했다. 단, 본 실험에서는 이 측정의 가치가 “도구 간 변별”이 아니라 **“외부 통합 주장과 실측의 격차 검증”**에 있음이 드러났으므로, 후속 미니 실험에서 이 메트릭은 외부 통합 검증 용도로 재정의되어 운용된다.
남은 8개 미니 실험(P2~P9)에서도 본 메트릭은 매 trial마다 자동 채집되며, 마지막 P9 통합 분석에 입력 데이터로 들어간다.
6. 한계
섹션 제목: “6. 한계”본 실험은 다음 한계를 명시한다.
- N=1 trial: 행사 공지 1건만 측정했다. “한 도구가 글을 더 잘 쓰는 것 같다”는 정성 직관이 모든 글 종류에서 유지되는지는 본 실험으로 답할 수 없다. 후속 미니 실험에서 다른 업무(연사 메일·FAQ·회고 등)에 같은 도구를 시켰을 때 동일 패턴이 나오는지 누적 검증한다.
- 소요 시간 측정 무효화: OpenClaw의 입력 인터페이스가 24분 동안 입력을 받지 못하는 결함이 있었다. 이는 도구 자체의 응답 속도가 아니라 입력 화면의 결함이므로, 양 도구의 시간 비교는 본 실험에서 무효 처리했다. 메신저(슬랙·디스코드) 통합이 완료된 시점에 별도 미니 실험으로 재측정한다.
- 도구 자체 로그 추출 비대칭: OpenClaw와 Hermes는 외부 도구 사용 기록을 각자 다른 형식으로 저장한다. 본 실험에서는 두 형식을 직접 비교했으나, 추출 절차의 표준화는 본 운용(v2) 단계에서 진행된다.
7. 다음 단계
섹션 제목: “7. 다음 단계”P2 (함수호출 0회 자동 fail 룰) 진입 예정 — 본 P1에서 발견한 “외부 호출 0회”가 결과만 좋아도 자동 실패로 처리해야 하는가 검증. 진입 시점은 다음 작업 세션, 시간 분리 30분 텀이 가능한 시점에 시작.
P1의 정성 발견(“Hermes가 글을 더 좋은 포맷으로 작성하는 것 같다”)은 별도 가설로 분리해 후속 미니 실험에서 다태스크 누적으로 검증한다. 본 P1 1 trial로는 일반화하지 않는다.
부록 — 참고 자료
섹션 제목: “부록 — 참고 자료”- 본 실험의 raw 데이터·반증 조건·자가 검증 절차:
P1-detailed.md - 본 실험 페이지 (시작 직전 사전 작성 + 종료 후 결과·결정 채움):
experiments/P1/00-plan.md - 본 결정의 commit 사유:
history/42-p1-decision.md - 9개 미니 실험 전체 계획:
experiments/00-plan.md