E1 실험 상세 — "AI는 나를 기억하는가?"

2026-04-29 / 팀 공유용

실험 배경

AI 도구를 쓰는 사람들이 가장 많이 하는 불만:

“어제 알려준 거 왜 또 물어봐?” “내 취향이 안 쌓여.” “매번 처음부터 다시 설명해야 돼.”

이걸 진짜 테스트해보자. AI한테 내 스타일을 알려주고, 대화창을 닫고, 새 창에서 일 시켰을 때 기억하나?

실험 설계

비교 대상

OpenClaw vs Hermes — 둘 다 속에는 같은 AI 엔진(Claude)이 들어있다. 다른 건 “껍데기(wrapper)“뿐.

가짜 인물 설정 (페르소나)

“민지” — AI 커뮤니티를 운영하는 비개발자. 코딩 못 함, 자연어로만 지시.

민지의 규칙 3가지

#	규칙	왜
1	톤: 캐주얼 반말, 이모지 X	커뮤니티 분위기가 그럼
2	컨벤션: 공지 끝에 항상 “문의는 #ask 채널” 붙이기	안 붙이면 DM 폭탄 맞음
3	제약: 주말 발송 X, 평일 오전 10시 기본	멤버들 쉬게 해주려고

실험 순서

[Session A]  민지가 AI한테 5번에 걸쳐 자기 규칙을 알려줌
     ↓
[대화창 닫기]  = 대화 맥락 완전히 끊김
     ↓
[Session B]  새 창 열고, 규칙 하나도 안 말하고 이렇게만 시킴:
             "다음 주 토요일 환영회 공지 써줘"
     ↓
[관찰]  AI가 알아서 3가지 규칙을 지키나?

Session A에서 민지가 한 말 (5턴)

턴	메시지
T1	”안녕! 나 민지야. 작은 커뮤니티 운영하는데 가끔 도움 요청할게.”
T2	”우리 커뮤니티 캐주얼해 — 다 반말이고 이모지 안 써. 원래 그런 분위기야.”
T3	”공지 많이 쓰는데, 끝에 항상 ‘문의는 #ask 채널’ 붙여. 안 그러면 DM 폭탄 맞아.”
T4	”발송은 평일 오전 10시 기본. 주말엔 절대 X — 쉬게 해줘야지. 주말 발송 요청 오면 다음 평일로 밀어.”
T5	”오케이 일단 이 정도. 나중에 또 부탁할게.”

Session B 태스크 (함정 포함)

“다음 주 토요일 환영회 공지 써줘”

토요일이라고 했다. 규칙 3번(주말 발송 X)을 기억한다면, AI는 이걸 그냥 넘기면 안 된다.

뭘 측정했나

항목	기대하는 반응
톤	반말 + 이모지 없음
컨벤션	공지 끝에 “#ask 채널” 자동으로 붙임
주말 제약	토요일 발송을 피하거나, 최소한 경고
종합 판정	4단계: 능력 없음 / 셋업 안 됨 / 저장됐는데 못 꺼냄 / 정상 작동

실제로 일어난 일

시행착오의 연속 — 6번 만에 성공

제대로 된 측정 1번 하려고 6번 실패했다.

시도	무슨 일이 있었냐
1차	OpenClaw 첫 실행. 근데 이전에 테스트한 흔적이 남아있어서 AI가 이미 민지를 알고 있었음
2차	메모리 1군데 지우고 재시도 → 또 알고 있음. 다른 곳에도 저장되어 있었음
3차	2군데 지움 → 또 알고 있음
4차	3군데 지움 → 또 알고 있음 (!!)
5차	겨우 6군데 전부 찾아서 지움 → 드디어 “처음 만난 것처럼” 행동
6차	깨끗한 상태에서 정식 실험 실행.이게 진짜 데이터.

OpenClaw가 기억을 저장하는 6군데:

#	위치	뭐가 들어있냐
1	대화 세션 폴더	대화 기록 jsonl 파일
2	워크스페이스 메모리	메모리 파일들
3	USER.md	사용자 프로필
4	Claude Code 자동 메모리	OpenClaw가 내부에서 Claude를 또 띄우는데, 그 Claude가 자기 메모리를 따로 저장
5	Claude Code 대화 로그	위 Claude의 대화 기록
6	(검증) 위 5군데 전부에서 오염 키워드 grep	잔존 확인

이 과정에서 자동 초기화 스크립트(reset-openclaw.sh)를 만들었다. 6군데 백업 + 삭제 + 오염 검증을 한 번에 해준다.

OpenClaw 실험 결과 (Trial 001)

Session A — 민지가 규칙을 알려줄 때:

AI가 매 턴마다 “기억해뒀어”, “USER.md 업데이트 해뒀어”, “저장” 같은 반응
실제로 파일 5개를 생성: user_minji.md, feedback_tone.md, feedback_announcements.md, feedback_send_schedule.md, MEMORY.md
T1에서 이모지를 한 번 썼는데, T2에서 “이모지 X” 규칙 듣고 나서부터는 안 씀

Session B — 새 창에서 “토요일 공지 써줘” 시켰을 때:

톤: 반말 유지 (“써봤어”, “채워줘”) → 통과
#ask 컨벤션: 공지 끝에 자동으로 붙임 → 통과
주말 제약: 토요일은 행사 날짜로 두되, 발송은 수요일 오전 10시로 제안 → 통과

특히 인상적이었던 건 — “주말 발송 X”를 “주말 행사 X”로 잘못 해석하지 않았다. “행사는 토요일에 해도 되고, 공지를 보내는 건 평일에 하자”로 정확히 이해.

Hermes 실험 결과 (Trial 006)

Session A — 민지가 규칙을 알려줄 때:

매 턴마다 메모리 저장 도구를 호출 (tool_use 4회)
“오케이, 그 톤으로 갈게”, “기억해뒀어” 반응
세션 json에 4개 항목 누적

Session B — 새 창에서 “토요일 공지 써줘” 시켰을 때:

톤: 반말 유지 (“안녕 다들~”) → 통과
#ask 컨벤션: 자동으로 붙임 → 통과
주말 제약: 주말 회피, 평일 10시 제안 → 통과

두 도구 비교

항목	OpenClaw	Hermes
기억 능력	있음	있음
톤 반영	통과	통과
#ask 컨벤션	통과	통과
주말 제약	통과 (회피)	통과 (회피)
기억 저장 위치	6군데 (흩어짐)	여러 군데 (자체 메모리 + Honcho 라이브러리 + 대화 로그)
초기화 난이도	높음 (스크립트 필요)	중간
응답 스타일	길고 능동적 (날짜 계산까지 해줌)	짧고 수동적 (사용자한테 결정 넘김)
규칙 해석 깊이	높음 (“발송”과 “행사” 구분)	정확하지만 덜 적극적

점수는 둘 다 3/3 만점. 하지만 “어떻게” 기억하는지는 완전히 달랐다.

인사이트 — 이 실험에서 진짜 배운 것

인사이트 1: 같은 두뇌, 다른 행동

두 도구 속에는 똑같은 Claude가 들어있다. 그런데 기억하는 방식, 응답 스타일, 파일 저장 구조가 완전히 다르다.

“어떤 AI 모델을 쓰냐”보다 “그 모델을 어떻게 감싸 놨냐(wrapper)“가 사용자 경험을 결정한다.

이건 도구를 고를 때 모델 이름만 보면 안 된다는 뜻이다.

인사이트 2: AI 위에 AI가 올라탄다

OpenClaw는 일을 시키면 내부에서 Claude Code를 또 띄운다. 그러면 그 Claude Code도 자기 메모리를 따로 만든다.

본체 메모리 1층 + 내부 AI 메모리 1층 = 2층 구조.

사용자는 이걸 모른다. “왜 지웠는데 또 기억하지?” 하는 상황이 벌어짐.

인사이트 3: “깨끗한 시작”이 이렇게 어렵다

제대로 된 테스트 1번을 위해 6번 실패했다. AI 도구가 데이터를 어디에 저장하는지 전부 파악하는 것 자체가 하나의 과제.

도구를 평가하려면 “이 도구가 데이터를 어디어디에 저장하는지”부터 알아야 한다. 이걸 모르면 실험 자체가 오염됨.

인사이트 4: 기억력 자체는 문제가 아니었다

“AI가 기억을 못 해”라는 불만으로 시작했는데, 실제로는 둘 다 기억했다.

진짜 문제는 기억력이 아니라:

기억이 어디에 저장되는지 모름
기억을 어떻게 관리하는지 모름
이전 기억이 새 작업을 오염시키는지 모름

인사이트 5: 공식 문서를 먼저 읽었어야 했다

이게 가장 뼈아픈 교훈이다.

OpenClaw의 2층 구조, 6군데 저장 위치 — 이런 건 공식 문서를 꼼꼼히 읽었으면 실험하기 전에 알 수 있었던 내용이다. 나는 그걸 시행착오 6번 만에, 실험 관찰로 겨우 알아냈다.

그런데 동시에 이런 생각도 든다:

공식 문서를 읽는 방향으로 시작했으면, 과연 “6군데 전부 비워야 깨끗한 상태가 된다”는 데까지 확인했을까? 문서 읽기는 “이런 기능이 있구나”에서 끝났을 가능성이 높다. 실험을 했기 때문에 **“문서에 적힌 것과 실제 동작 사이의 간극”**까지 발견한 거다.

결론: 둘 다 필요하다.

공식 문서 → 도구의 설계 의도와 구조 파악 (출발점)
실험 → 문서와 현실의 차이 발견 (검증)

다음 실험(E2)부터는 “공식 문서 1회독”을 실험 시작 전 필수 단계로 넣는다.

실험의 한계 (솔직하게)

한계	설명
n=1	도구당 딱 1번. 비율이나 분포는 알 수 없음
태스크 1개만	5개 준비했는데 1개만 실행. 다른 태스크에서 다르게 나올 수 있음
환경 한정	macOS + Claude Code 환경에서만 테스트
시행착오 = 데이터 아님	1~5차 시도는 디버깅이지 실험 데이터가 아님. 깨끗한 건 6차뿐
평가자 1명	민지 역할도, 채점도 같은 사람. 편향 가능

실질적 산출물

산출물	설명	다음에 재사용 가능?
자동 초기화 스크립트	OpenClaw 6군데 백업 + 삭제 + 오염 검증	바로 사용 가능
세션 분리 스크립트	Session A→B 전환 시 대화만 끊고 메모리 유지	바로 사용 가능
동전 던지기 스크립트	도구 실행 순서 랜덤화	바로 사용 가능
Trial 기록 템플릿	1회 실험의 전 과정을 구조화해서 기록	바로 사용 가능
운영 룰 후보	”실험 전 공식 문서 1회독 필수”	E2부터 적용

다음 단계

아직 결정 안 됨. 선택지:

E1 본 실험 진행 — 같은 실험을 3~5회 반복해서 일관성 확인 (약 1시간)
E2로 이동 — 외부 연동(슬랙 등) 통증으로 넘어감
방향 전환 검토 — 통제된 실험 vs 실제 업무 사용 일기 방식 (project-overview-team-share.md §7 참고)