콘텐츠로 이동

[보관] P1 미니 실험 보고서 — Trajectory 자동 추출 검증

probe 시리즈 1/9. 이 메모는 비개발자 이해관계자가 통계·도구 용어 없이 1쪽으로 읽을 수 있는 정식 보고서. 동일 실험의 방법론·반증 조건·C-제약 검사는 P1-detailed.md.

날짜: 2026-04-28 14:00 ~ 15:30 KST 소요: 1.5시간 (계획 4~6시간 — 양 도구 자체 로그 활용으로 단축) 평가자: 1명 (사용자 본인) Track: A (Anthropic Claude 백엔드)


본 미니 실험의 가설은 다음과 같다.

“AI에 일을 시켰을 때 점수만 보지 말고, AI가 어떤 외부 도구(메일·캘린더·메신저 등)를 어떤 순서로 썼는지 자동으로 기록하면 — 점수와는 다른 결론을 만들어낼 가치 있는 정보가 추가되는가?”

기존 평가는 결과물 점수·소요 시간·개입 횟수 같은 “결과 중심”이다. 두 도구가 같은 점수를 받아도 일하는 방식이 다를 수 있다는 의심에서 출발한 측정 방법이다.

본 실험은 이 측정이 실제로 추가 가치를 만드는지, 아니면 점수와 같은 결론을 반복할 뿐인지 확인하기 위한 1일짜리 검증이다.


두 도구(Hermes·OpenClaw)에 동일한 자연어 지시를 1회 부여하고, 응답을 받은 직후 다음 세 데이터를 채집했다.

데이터 종류채집 방식산출물
정량 점수사용자 1~5점 채점 (전체·정확성·즉시 사용성 3축)runs/runs.csv
자동 기록각 도구가 사용한 외부 도구 호출 횟수·종류도구 자체 세션 로그
정성 메모응답 직후 받은 인상 1~3줄본 보고서 §4 인용

지시문은 다음과 같다.

다음 주 화요일 8시 ‘AI Agent 밋업’ 공지를 디스코드/슬랙/카톡에 각 톤으로 맞춰서 보내줘.

자료 부족이나 발송 경로 미설정 같은 외부 변수는 사전에 통제하지 않았다. 도구가 그 상황을 어떻게 처리하는지 자체가 평가 대상이기 때문이다.


OpenClawHermes
전체 품질 (1~5)45
정확성 (1~5)44
즉시 사용성 (1~5)34
추가 입력 횟수00

두 도구 모두 “일정·장소가 미정인 상태에서 시뮬레이션 모드로 초안을 작성”하는 동일한 행동을 보였다. 즉시 사용성에서 OpenClaw가 1점 낮은 사유는 §4에 기술.

항목OpenClawHermes
외부 도구 호출 횟수00
사용된 외부 도구 종류00
외부 통합 시도 여부없음없음

두 도구 모두 행사 공지 작성 과정에서 메일·캘린더·메신저 등 외부 도구를 한 번도 호출하지 않았다. 응답은 텍스트 초안만 반환했고, 발송 의향 자체는 자발적으로 보류했다(“실제 발송은 못 하니 복붙용으로 작성”).

3.3 정성 발견 — 사용자 직접 인용

섹션 제목: “3.3 정성 발견 — 사용자 직접 인용”

“둘이 사실 비슷하게 느껴진다. 특징이 다르긴 한데 호불호의 영역인 것 같다.”

이 인상에 대한 보강 메모는 다음과 같다.

  • OpenClaw 응답: “그냥 편하게 수다 ㄱㄱ” 같은 표현이 들어간 톤으로, AI Agent 밋업이라는 자리에는 캐주얼함이 과했다는 인상. 그대로 발송하려면 1~2회 톤 재공급이 필요할 것으로 판단됨.
  • Hermes 응답: “발표를 희망하시거나 다루고 싶은 토픽이 있으시면 이 스레드에 남겨주세요. 참석 여부는 :white_check_mark: 로 체크 부탁드립니다. 문의는 DM 주시면 됩니다.”처럼 자주 챙겨야 하는 관용 문구가 자연스럽게 포함됨. 정보 부족(장소·발표자) 부분만 채우면 그대로 사용 가능하다는 인상.

즉시 사용성 점수 차이(OpenClaw 3 vs Hermes 4)는 정보 부족 페널티는 두 도구 동일하나, 톤 재공급 필요성이 OpenClaw에만 추가됨을 반영한다.


데이터 소스결론
정량 점수Hermes가 미세하게 우위 (전체 +1점, 즉시 사용성 +1점, 정확성 동률)
정성 메모”사실상 비슷, 호불호 영역” — 도구 간 변별 약함
자동 기록 (Trajectory)두 도구 모두 외부 도구 0회 호출 — 도구 간 변별 0, 단 마케팅 주장과 실측의 격차를 명시함

세 데이터가 가리키는 결론이 모두 같지 않다. 정량은 변별 시도, 정성은 무차이로 평탄화, 자동 기록은 두 도구 모두 외부 통합을 말로만 하지 실제로는 시도하지 않았다는 사실을 노출했다. 이 사실은 점수만으로는 잡히지 않는다.

특히 OpenClaw는 마케팅에서 “외부 도구 통합이 강력하다”고 주장하는 도구이지만, 실제 1회 trial에서는 외부 호출 0회 + 사전 준비된 샌드박스 데이터(가짜 멤버 명단·채널 활동 기록)에도 접근하지 않았다. 자동 기록 측정이 없었다면 이 격차는 발견되지 않았을 것이다.


채택.

자동 기록(Trajectory) 측정이 점수·정성과는 결이 다른 정보를 만들어 추가 가치가 있음을 확인했다. 단, 본 실험에서는 이 측정의 가치가 “도구 간 변별”이 아니라 **“외부 통합 주장과 실측의 격차 검증”**에 있음이 드러났으므로, 후속 미니 실험에서 이 메트릭은 외부 통합 검증 용도로 재정의되어 운용된다.

남은 8개 미니 실험(P2~P9)에서도 본 메트릭은 매 trial마다 자동 채집되며, 마지막 P9 통합 분석에 입력 데이터로 들어간다.


본 실험은 다음 한계를 명시한다.

  1. N=1 trial: 행사 공지 1건만 측정했다. “한 도구가 글을 더 잘 쓰는 것 같다”는 정성 직관이 모든 글 종류에서 유지되는지는 본 실험으로 답할 수 없다. 후속 미니 실험에서 다른 업무(연사 메일·FAQ·회고 등)에 같은 도구를 시켰을 때 동일 패턴이 나오는지 누적 검증한다.
  2. 소요 시간 측정 무효화: OpenClaw의 입력 인터페이스가 24분 동안 입력을 받지 못하는 결함이 있었다. 이는 도구 자체의 응답 속도가 아니라 입력 화면의 결함이므로, 양 도구의 시간 비교는 본 실험에서 무효 처리했다. 메신저(슬랙·디스코드) 통합이 완료된 시점에 별도 미니 실험으로 재측정한다.
  3. 도구 자체 로그 추출 비대칭: OpenClaw와 Hermes는 외부 도구 사용 기록을 각자 다른 형식으로 저장한다. 본 실험에서는 두 형식을 직접 비교했으나, 추출 절차의 표준화는 본 운용(v2) 단계에서 진행된다.

P2 (함수호출 0회 자동 fail 룰) 진입 예정 — 본 P1에서 발견한 “외부 호출 0회”가 결과만 좋아도 자동 실패로 처리해야 하는가 검증. 진입 시점은 다음 작업 세션, 시간 분리 30분 텀이 가능한 시점에 시작.

P1의 정성 발견(“Hermes가 글을 더 좋은 포맷으로 작성하는 것 같다”)은 별도 가설로 분리해 후속 미니 실험에서 다태스크 누적으로 검증한다. 본 P1 1 trial로는 일반화하지 않는다.