콘텐츠로 이동

[보관] P8. 도구가 어제 한 일을 오늘도 기억하나 (메모리) — 쉬운 버전

통계 용어 없이 쓴 P8 가이드. 고객 페인포인트 1순위 직결.

“어제 시킨 일을 오늘 새 세션 열고 다시 물으면 도구가 기억하고 있나? — 고객들이 가장 많이 불평하는 ‘얘 또 까먹었어’를 직접 측정.”

도구 메모리 측정 두 가지:

  • same-session (같은 세션 안): 한 세션 안에서 앞 발화 정보 회상하나
  • cross-session (세션 간): 세션 닫고 새로 열었을 때도 회상하나

추가 보너스: track-cross (백엔드 간): provider 스위치 후에도 회상되나 (Hermes의 ~/.hermes/memories/가 백엔드 무관하게 살아있나 검증).

각 슬롯마다 4단계 라벨:

  • R1 정확 회상 — 4건 모두 정확
  • R2 부분 회상 — 1~3건 정확, 나머지 missing
  • R3 못 외움 — “기억 안 남” 명시
  • R4 환각틀린 답을 자신있게 (가장 위험!)
  • F1: 두 도구 모두 항상 R1 정확 → 변별 못 함 (그러나 이 자체가 좋은 결과)
  • F2: 두 도구 모두 항상 R3 못 외움 → 메모리 측정 자체 무용 (둘 다 메모리 없음)
  • F3: 앵커 주입이 페르소나 모드 깨짐 (의도적으로 “외워둘게요” 모드 발동시킴)

1단계 — 메모리 앵커 4건 주입 (45분)

섹션 제목: “1단계 — 메모리 앵커 4건 주입 (45분)”

D1 오전 첫 5태스크 안에 자연스럽게 녹임 — 별도 task로 던지지 말 것.

예시 앵커:

#자연스러운 정보어디에 녹임
1”운영팀 PM은 김민지”T1 공지 작성 시 자연스럽게 언급
2”행사 일시: 2026-05-10 19:00”T1·T3
3”메인 연사: 박지원, sazxc@gmail.comT5
4”패널 4명: 박지원·이수정·김재훈·이서연”T6

2단계 — same-session 회상 점검 (Hermes·OpenClaw 각 30분)

섹션 제목: “2단계 — same-session 회상 점검 (Hermes·OpenClaw 각 30분)”

같은 세션 안에서 5태스크 끝난 직후 자연스러운 후속 태스크:

“그 패널 4명한테 다시 메일 한 통씩 보내줘”

  • 도구가 이름을 자동 인용하면 R1
  • 재질문 (“패널이 누구죠?”)하면 R3
  • 틀린 이름을 자신있게 쓰면 R4 ← 가장 위험

라벨 기록.

3단계 — 세션 종료 + 새 세션 (5분)

섹션 제목: “3단계 — 세션 종료 + 새 세션 (5분)”
  • 도구 종료 → 새로 열기
  • 같은 디렉토리, 같은 사용자

4단계 — cross-session 회상 점검 (Hermes·OpenClaw 각 30분)

섹션 제목: “4단계 — cross-session 회상 점검 (Hermes·OpenClaw 각 30분)”

새 세션에서 같은 후속 태스크. 라벨 기록.

5단계 — (옵션) track-cross 회상 (Track B 사용 probe와 합쳐 진행)

섹션 제목: “5단계 — (옵션) track-cross 회상 (Track B 사용 probe와 합쳐 진행)”

provider 스위치 후 같은 후속 태스크. 라벨 기록.

도구same-sessioncross-sessiontrack-cross
HermesR?R?R?
OpenClawR?R?R?

예상 가설:

  • Hermes: 자체 memory 시스템 (~/.hermes/memories/)이 있어 cross 우세 예상
  • OpenClaw: 메모리 미상 — 셋업형이라 자기 명시 등록이 아니면 휘발 가능성
  • Track 간 보존: Hermes는 백엔드 무관하게 메모리 살 거 (검증)
약속OK?이유
C3 격리OK도구 자체 폴더 사용
C4 자연어OK앵커도 자연어 형태로 주입, 회상 점검도 자연어
C5 30분 텀OK점수·메모는 매 라벨 후 기존 흐름대로
C6 비용OK한 트랙 안
C7 3단 채집OKruns/runs.csv memory_label 컬럼 + 메모 + raw 로그
C8 반증OK§2
C9 forkOK정량 라벨 + 메모 보강

추가 위험:

  • 앵커 주입이 의도적이라 들키면 도구가 “외워둘게요” 모드 발동 → 평소 사용과 달라짐. 자연스러운 태스크 흐름에 녹이는 게 핵심.
  • 평가자(나)가 앵커 잊어버릴 수 있음 → runs/memory_anchors.jsonl 신규 파일에 앵커 4건 봉인
  • runs/memory_anchors.jsonl에 4건 기록 완료: ___
도구same-sessioncross-sessiontrack-crossR4 환각 발생?
  • Hermes 강점/약점: ___
  • OpenClaw 강점/약점: ___
  • 환각(R4) 발생 사례: ___ ← 가장 중요한 발견 자리
  • 채택 — I9 메모리 회상을 정식 지표로. R1~R4 라벨 + 슬롯 3개 운영 프로토콜 v1에
  • 폐기 — F1·F2·F3 사유
  • 보류 (v2 4축 분해 — 회상·학습·장거리·충돌) — 본 시리즈 미니 측정만, v2에서 풀버전

참고: 이 P8은 study/14의 A8 권고와 본 세션의 I9 미니 메모리 결정을 함께 다룸. 4축 분해는 v2 본 운용용.

history commit: history/NN-p8-decision.md