E1 실험 상세 — "AI는 나를 기억하는가?"
2026-04-29 / 팀 공유용
실험 배경
섹션 제목: “실험 배경”AI 도구를 쓰는 사람들이 가장 많이 하는 불만:
“어제 알려준 거 왜 또 물어봐?” “내 취향이 안 쌓여.” “매번 처음부터 다시 설명해야 돼.”
이걸 진짜 테스트해보자. AI한테 내 스타일을 알려주고, 대화창을 닫고, 새 창에서 일 시켰을 때 기억하나?
실험 설계
섹션 제목: “실험 설계”비교 대상
섹션 제목: “비교 대상”OpenClaw vs Hermes — 둘 다 속에는 같은 AI 엔진(Claude)이 들어있다. 다른 건 “껍데기(wrapper)“뿐.
가짜 인물 설정 (페르소나)
섹션 제목: “가짜 인물 설정 (페르소나)”“민지” — AI 커뮤니티를 운영하는 비개발자. 코딩 못 함, 자연어로만 지시.
민지의 규칙 3가지
섹션 제목: “민지의 규칙 3가지”| # | 규칙 | 왜 |
|---|---|---|
| 1 | 톤: 캐주얼 반말, 이모지 X | 커뮤니티 분위기가 그럼 |
| 2 | 컨벤션: 공지 끝에 항상 “문의는 #ask 채널” 붙이기 | 안 붙이면 DM 폭탄 맞음 |
| 3 | 제약: 주말 발송 X, 평일 오전 10시 기본 | 멤버들 쉬게 해주려고 |
실험 순서
섹션 제목: “실험 순서”[Session A] 민지가 AI한테 5번에 걸쳐 자기 규칙을 알려줌 ↓[대화창 닫기] = 대화 맥락 완전히 끊김 ↓[Session B] 새 창 열고, 규칙 하나도 안 말하고 이렇게만 시킴: "다음 주 토요일 환영회 공지 써줘" ↓[관찰] AI가 알아서 3가지 규칙을 지키나?Session A에서 민지가 한 말 (5턴)
섹션 제목: “Session A에서 민지가 한 말 (5턴)”| 턴 | 메시지 |
|---|---|
| T1 | ”안녕! 나 민지야. 작은 커뮤니티 운영하는데 가끔 도움 요청할게.” |
| T2 | ”우리 커뮤니티 캐주얼해 — 다 반말이고 이모지 안 써. 원래 그런 분위기야.” |
| T3 | ”공지 많이 쓰는데, 끝에 항상 ‘문의는 #ask 채널’ 붙여. 안 그러면 DM 폭탄 맞아.” |
| T4 | ”발송은 평일 오전 10시 기본. 주말엔 절대 X — 쉬게 해줘야지. 주말 발송 요청 오면 다음 평일로 밀어.” |
| T5 | ”오케이 일단 이 정도. 나중에 또 부탁할게.” |
Session B 태스크 (함정 포함)
섹션 제목: “Session B 태스크 (함정 포함)”“다음 주 토요일 환영회 공지 써줘”
토요일이라고 했다. 규칙 3번(주말 발송 X)을 기억한다면, AI는 이걸 그냥 넘기면 안 된다.
뭘 측정했나
섹션 제목: “뭘 측정했나”| 항목 | 기대하는 반응 |
|---|---|
| 톤 | 반말 + 이모지 없음 |
| 컨벤션 | 공지 끝에 “#ask 채널” 자동으로 붙임 |
| 주말 제약 | 토요일 발송을 피하거나, 최소한 경고 |
| 종합 판정 | 4단계: 능력 없음 / 셋업 안 됨 / 저장됐는데 못 꺼냄 / 정상 작동 |
실제로 일어난 일
섹션 제목: “실제로 일어난 일”시행착오의 연속 — 6번 만에 성공
섹션 제목: “시행착오의 연속 — 6번 만에 성공”제대로 된 측정 1번 하려고 6번 실패했다.
| 시도 | 무슨 일이 있었냐 |
|---|---|
| 1차 | OpenClaw 첫 실행. 근데 이전에 테스트한 흔적이 남아있어서 AI가 이미 민지를 알고 있었음 |
| 2차 | 메모리 1군데 지우고 재시도 → 또 알고 있음. 다른 곳에도 저장되어 있었음 |
| 3차 | 2군데 지움 → 또 알고 있음 |
| 4차 | 3군데 지움 → 또 알고 있음 (!!) |
| 5차 | 겨우 6군데 전부 찾아서 지움 → 드디어 “처음 만난 것처럼” 행동 |
| 6차 | 깨끗한 상태에서 정식 실험 실행.이게 진짜 데이터. |
OpenClaw가 기억을 저장하는 6군데:
| # | 위치 | 뭐가 들어있냐 |
|---|---|---|
| 1 | 대화 세션 폴더 | 대화 기록 jsonl 파일 |
| 2 | 워크스페이스 메모리 | 메모리 파일들 |
| 3 | USER.md | 사용자 프로필 |
| 4 | Claude Code 자동 메모리 | OpenClaw가 내부에서 Claude를 또 띄우는데, 그 Claude가 자기 메모리를 따로 저장 |
| 5 | Claude Code 대화 로그 | 위 Claude의 대화 기록 |
| 6 | (검증) 위 5군데 전부에서 오염 키워드 grep | 잔존 확인 |
이 과정에서 자동 초기화 스크립트(reset-openclaw.sh)를 만들었다. 6군데 백업 + 삭제 + 오염 검증을 한 번에 해준다.
OpenClaw 실험 결과 (Trial 001)
섹션 제목: “OpenClaw 실험 결과 (Trial 001)”Session A — 민지가 규칙을 알려줄 때:
- AI가 매 턴마다 “기억해뒀어”, “USER.md 업데이트 해뒀어”, “저장” 같은 반응
- 실제로 파일 5개를 생성:
user_minji.md,feedback_tone.md,feedback_announcements.md,feedback_send_schedule.md,MEMORY.md - T1에서 이모지를 한 번 썼는데, T2에서 “이모지 X” 규칙 듣고 나서부터는 안 씀
Session B — 새 창에서 “토요일 공지 써줘” 시켰을 때:
- 톤: 반말 유지 (“써봤어”, “채워줘”) → 통과
- #ask 컨벤션: 공지 끝에 자동으로 붙임 → 통과
- 주말 제약: 토요일은 행사 날짜로 두되, 발송은 수요일 오전 10시로 제안 → 통과
특히 인상적이었던 건 — “주말 발송 X”를 “주말 행사 X”로 잘못 해석하지 않았다. “행사는 토요일에 해도 되고, 공지를 보내는 건 평일에 하자”로 정확히 이해.
Hermes 실험 결과 (Trial 006)
섹션 제목: “Hermes 실험 결과 (Trial 006)”Session A — 민지가 규칙을 알려줄 때:
- 매 턴마다 메모리 저장 도구를 호출 (tool_use 4회)
- “오케이, 그 톤으로 갈게”, “기억해뒀어” 반응
- 세션 json에 4개 항목 누적
Session B — 새 창에서 “토요일 공지 써줘” 시켰을 때:
- 톤: 반말 유지 (“안녕 다들~”) → 통과
- #ask 컨벤션: 자동으로 붙임 → 통과
- 주말 제약: 주말 회피, 평일 10시 제안 → 통과
두 도구 비교
섹션 제목: “두 도구 비교”| 항목 | OpenClaw | Hermes |
|---|---|---|
| 기억 능력 | 있음 | 있음 |
| 톤 반영 | 통과 | 통과 |
| #ask 컨벤션 | 통과 | 통과 |
| 주말 제약 | 통과 (회피) | 통과 (회피) |
| 기억 저장 위치 | 6군데 (흩어짐) | 여러 군데 (자체 메모리 + Honcho 라이브러리 + 대화 로그) |
| 초기화 난이도 | 높음 (스크립트 필요) | 중간 |
| 응답 스타일 | 길고 능동적 (날짜 계산까지 해줌) | 짧고 수동적 (사용자한테 결정 넘김) |
| 규칙 해석 깊이 | 높음 (“발송”과 “행사” 구분) | 정확하지만 덜 적극적 |
점수는 둘 다 3/3 만점. 하지만 “어떻게” 기억하는지는 완전히 달랐다.
인사이트 — 이 실험에서 진짜 배운 것
섹션 제목: “인사이트 — 이 실험에서 진짜 배운 것”인사이트 1: 같은 두뇌, 다른 행동
섹션 제목: “인사이트 1: 같은 두뇌, 다른 행동”두 도구 속에는 똑같은 Claude가 들어있다. 그런데 기억하는 방식, 응답 스타일, 파일 저장 구조가 완전히 다르다.
“어떤 AI 모델을 쓰냐”보다 “그 모델을 어떻게 감싸 놨냐(wrapper)“가 사용자 경험을 결정한다.
이건 도구를 고를 때 모델 이름만 보면 안 된다는 뜻이다.
인사이트 2: AI 위에 AI가 올라탄다
섹션 제목: “인사이트 2: AI 위에 AI가 올라탄다”OpenClaw는 일을 시키면 내부에서 Claude Code를 또 띄운다. 그러면 그 Claude Code도 자기 메모리를 따로 만든다.
본체 메모리 1층 + 내부 AI 메모리 1층 = 2층 구조.
사용자는 이걸 모른다. “왜 지웠는데 또 기억하지?” 하는 상황이 벌어짐.
인사이트 3: “깨끗한 시작”이 이렇게 어렵다
섹션 제목: “인사이트 3: “깨끗한 시작”이 이렇게 어렵다”제대로 된 테스트 1번을 위해 6번 실패했다. AI 도구가 데이터를 어디에 저장하는지 전부 파악하는 것 자체가 하나의 과제.
도구를 평가하려면 “이 도구가 데이터를 어디어디에 저장하는지”부터 알아야 한다. 이걸 모르면 실험 자체가 오염됨.
인사이트 4: 기억력 자체는 문제가 아니었다
섹션 제목: “인사이트 4: 기억력 자체는 문제가 아니었다”“AI가 기억을 못 해”라는 불만으로 시작했는데, 실제로는 둘 다 기억했다.
진짜 문제는 기억력이 아니라:
- 기억이 어디에 저장되는지 모름
- 기억을 어떻게 관리하는지 모름
- 이전 기억이 새 작업을 오염시키는지 모름
인사이트 5: 공식 문서를 먼저 읽었어야 했다
섹션 제목: “인사이트 5: 공식 문서를 먼저 읽었어야 했다”이게 가장 뼈아픈 교훈이다.
OpenClaw의 2층 구조, 6군데 저장 위치 — 이런 건 공식 문서를 꼼꼼히 읽었으면 실험하기 전에 알 수 있었던 내용이다. 나는 그걸 시행착오 6번 만에, 실험 관찰로 겨우 알아냈다.
그런데 동시에 이런 생각도 든다:
공식 문서를 읽는 방향으로 시작했으면, 과연 “6군데 전부 비워야 깨끗한 상태가 된다”는 데까지 확인했을까? 문서 읽기는 “이런 기능이 있구나”에서 끝났을 가능성이 높다. 실험을 했기 때문에 **“문서에 적힌 것과 실제 동작 사이의 간극”**까지 발견한 거다.
결론: 둘 다 필요하다.
- 공식 문서 → 도구의 설계 의도와 구조 파악 (출발점)
- 실험 → 문서와 현실의 차이 발견 (검증)
다음 실험(E2)부터는 “공식 문서 1회독”을 실험 시작 전 필수 단계로 넣는다.
실험의 한계 (솔직하게)
섹션 제목: “실험의 한계 (솔직하게)”| 한계 | 설명 |
|---|---|
| n=1 | 도구당 딱 1번. 비율이나 분포는 알 수 없음 |
| 태스크 1개만 | 5개 준비했는데 1개만 실행. 다른 태스크에서 다르게 나올 수 있음 |
| 환경 한정 | macOS + Claude Code 환경에서만 테스트 |
| 시행착오 = 데이터 아님 | 1~5차 시도는 디버깅이지 실험 데이터가 아님. 깨끗한 건 6차뿐 |
| 평가자 1명 | 민지 역할도, 채점도 같은 사람. 편향 가능 |
실질적 산출물
섹션 제목: “실질적 산출물”| 산출물 | 설명 | 다음에 재사용 가능? |
|---|---|---|
| 자동 초기화 스크립트 | OpenClaw 6군데 백업 + 삭제 + 오염 검증 | 바로 사용 가능 |
| 세션 분리 스크립트 | Session A→B 전환 시 대화만 끊고 메모리 유지 | 바로 사용 가능 |
| 동전 던지기 스크립트 | 도구 실행 순서 랜덤화 | 바로 사용 가능 |
| Trial 기록 템플릿 | 1회 실험의 전 과정을 구조화해서 기록 | 바로 사용 가능 |
| 운영 룰 후보 | ”실험 전 공식 문서 1회독 필수” | E2부터 적용 |
다음 단계
섹션 제목: “다음 단계”아직 결정 안 됨. 선택지:
- E1 본 실험 진행 — 같은 실험을 3~5회 반복해서 일관성 확인 (약 1시간)
- E2로 이동 — 외부 연동(슬랙 등) 통증으로 넘어감
- 방향 전환 검토 — 통제된 실험 vs 실제 업무 사용 일기 방식 (project-overview-team-share.md §7 참고)