[보관] P8. 도구가 어제 한 일을 오늘도 기억하나 (메모리) — 쉬운 버전
통계 용어 없이 쓴 P8 가이드. 고객 페인포인트 1순위 직결.
한 줄 요약
섹션 제목: “한 줄 요약”“어제 시킨 일을 오늘 새 세션 열고 다시 물으면 도구가 기억하고 있나? — 고객들이 가장 많이 불평하는 ‘얘 또 까먹었어’를 직접 측정.”
1. 무엇을 시험하나
섹션 제목: “1. 무엇을 시험하나”도구 메모리 측정 두 가지:
- same-session (같은 세션 안): 한 세션 안에서 앞 발화 정보 회상하나
- cross-session (세션 간): 세션 닫고 새로 열었을 때도 회상하나
추가 보너스: track-cross (백엔드 간): provider 스위치 후에도 회상되나 (Hermes의 ~/.hermes/memories/가 백엔드 무관하게 살아있나 검증).
각 슬롯마다 4단계 라벨:
- R1 정확 회상 — 4건 모두 정확
- R2 부분 회상 — 1~3건 정확, 나머지 missing
- R3 못 외움 — “기억 안 남” 명시
- R4 환각 — 틀린 답을 자신있게 (가장 위험!)
2. 실패 조건 (시작 전)
섹션 제목: “2. 실패 조건 (시작 전)”- F1: 두 도구 모두 항상 R1 정확 → 변별 못 함 (그러나 이 자체가 좋은 결과)
- F2: 두 도구 모두 항상 R3 못 외움 → 메모리 측정 자체 무용 (둘 다 메모리 없음)
- F3: 앵커 주입이 페르소나 모드 깨짐 (의도적으로 “외워둘게요” 모드 발동시킴)
3. 단계 (총 4~5시간)
섹션 제목: “3. 단계 (총 4~5시간)”1단계 — 메모리 앵커 4건 주입 (45분)
섹션 제목: “1단계 — 메모리 앵커 4건 주입 (45분)”D1 오전 첫 5태스크 안에 자연스럽게 녹임 — 별도 task로 던지지 말 것.
예시 앵커:
| # | 자연스러운 정보 | 어디에 녹임 |
|---|---|---|
| 1 | ”운영팀 PM은 김민지” | T1 공지 작성 시 자연스럽게 언급 |
| 2 | ”행사 일시: 2026-05-10 19:00” | T1·T3 |
| 3 | ”메인 연사: 박지원, sazxc@gmail.com” | T5 |
| 4 | ”패널 4명: 박지원·이수정·김재훈·이서연” | T6 |
2단계 — same-session 회상 점검 (Hermes·OpenClaw 각 30분)
섹션 제목: “2단계 — same-session 회상 점검 (Hermes·OpenClaw 각 30분)”같은 세션 안에서 5태스크 끝난 직후 자연스러운 후속 태스크:
“그 패널 4명한테 다시 메일 한 통씩 보내줘”
- 도구가 이름을 자동 인용하면 R1
- 재질문 (“패널이 누구죠?”)하면 R3
- 틀린 이름을 자신있게 쓰면 R4 ← 가장 위험
라벨 기록.
3단계 — 세션 종료 + 새 세션 (5분)
섹션 제목: “3단계 — 세션 종료 + 새 세션 (5분)”- 도구 종료 → 새로 열기
- 같은 디렉토리, 같은 사용자
4단계 — cross-session 회상 점검 (Hermes·OpenClaw 각 30분)
섹션 제목: “4단계 — cross-session 회상 점검 (Hermes·OpenClaw 각 30분)”새 세션에서 같은 후속 태스크. 라벨 기록.
5단계 — (옵션) track-cross 회상 (Track B 사용 probe와 합쳐 진행)
섹션 제목: “5단계 — (옵션) track-cross 회상 (Track B 사용 probe와 합쳐 진행)”provider 스위치 후 같은 후속 태스크. 라벨 기록.
6단계 — 비교·분석 (60분)
섹션 제목: “6단계 — 비교·분석 (60분)”| 도구 | same-session | cross-session | track-cross |
|---|---|---|---|
| Hermes | R? | R? | R? |
| OpenClaw | R? | R? | R? |
예상 가설:
- Hermes: 자체 memory 시스템 (
~/.hermes/memories/)이 있어 cross 우세 예상 - OpenClaw: 메모리 미상 — 셋업형이라 자기 명시 등록이 아니면 휘발 가능성
- Track 간 보존: Hermes는 백엔드 무관하게 메모리 살 거 (검증)
4. 우리 약속
섹션 제목: “4. 우리 약속”| 약속 | OK? | 이유 |
|---|---|---|
| C3 격리 | OK | 도구 자체 폴더 사용 |
| C4 자연어 | OK | 앵커도 자연어 형태로 주입, 회상 점검도 자연어 |
| C5 30분 텀 | OK | 점수·메모는 매 라벨 후 기존 흐름대로 |
| C6 비용 | OK | 한 트랙 안 |
| C7 3단 채집 | OK | runs/runs.csv memory_label 컬럼 + 메모 + raw 로그 |
| C8 반증 | OK | §2 |
| C9 fork | OK | 정량 라벨 + 메모 보강 |
추가 위험:
- 앵커 주입이 의도적이라 들키면 도구가 “외워둘게요” 모드 발동 → 평소 사용과 달라짐. 자연스러운 태스크 흐름에 녹이는 게 핵심.
- 평가자(나)가 앵커 잊어버릴 수 있음 →
runs/memory_anchors.jsonl신규 파일에 앵커 4건 봉인
5. 결과 (실행 후 채움)
섹션 제목: “5. 결과 (실행 후 채움)”5.1 앵커 봉인
섹션 제목: “5.1 앵커 봉인”runs/memory_anchors.jsonl에 4건 기록 완료: ___
5.2 회상 라벨 표
섹션 제목: “5.2 회상 라벨 표”| 도구 | same-session | cross-session | track-cross | R4 환각 발생? |
|---|
5.3 도구별 강약
섹션 제목: “5.3 도구별 강약”- Hermes 강점/약점: ___
- OpenClaw 강점/약점: ___
- 환각(R4) 발생 사례: ___ ← 가장 중요한 발견 자리
6. 결정
섹션 제목: “6. 결정”- 채택 — I9 메모리 회상을 정식 지표로. R1~R4 라벨 + 슬롯 3개 운영 프로토콜 v1에
- 폐기 — F1·F2·F3 사유
- 보류 (v2 4축 분해 — 회상·학습·장거리·충돌) — 본 시리즈 미니 측정만, v2에서 풀버전
참고: 이 P8은 study/14의 A8 권고와 본 세션의 I9 미니 메모리 결정을 함께 다룸. 4축 분해는 v2 본 운용용.
history commit: history/NN-p8-decision.md