hamster-lab 프로젝트 — 어디까지 왔고, 뭘 고민하고 있는지
2026-04-29 / 팀 공유용
1. 이 프로젝트가 뭔지
섹션 제목: “1. 이 프로젝트가 뭔지”“AI 비서가 여러 개 있는데, 뭐가 좋은지 어떻게 비교하지?”
블로그 후기? 광고? 다 주관적이다. 그래서 직접 테스트해서 비교하는 방법을 만들자는 프로젝트.
비교 대상은 Hermes vs OpenClaw 두 AI 에이전트 도구. 둘 다 속에는 같은 AI(Claude)가 들어있는데, 감싸는 “껍데기(wrapper)“가 다르다.
2. 지금까지의 흐름
섹션 제목: “2. 지금까지의 흐름”1기: P(Probe) 시리즈 — 설계만 하다 폐기
섹션 제목: “1기: P(Probe) 시리즈 — 설계만 하다 폐기”처음에 P1~P9까지 실험 9개를 기획했다. 비교 항목 8개, 규칙 9개, 리포트 양식까지 꼼꼼하게 설계.
문제: 너무 무거워서 정작 실험을 못 돌렸다. 준비 문서만 43개.
전부 접고 deprecated/ 폴더에 보관.
2기: E(Experience) 시리즈 — 가볍게 재시작
섹션 제목: “2기: E(Experience) 시리즈 — 가볍게 재시작”이번엔 사용자가 진짜 짜증나는 것(통증) 하나 골라서, 작은 실험 하나만 해보는 방식으로 전환.
통증 11개를 목록화하고, 우선순위 높은 3개부터 시작하기로 함.
3. E 시리즈 — 뭐가 있나
섹션 제목: “3. E 시리즈 — 뭐가 있나”순서 확정된 3개
섹션 제목: “순서 확정된 3개”| 순서 | 주제 | 쉽게 말하면 | 상태 |
|---|---|---|---|
| E1 | 메모리 / 기억력 | ”어제 알려준 거 왜 또 물어봐?” | 파일럿 1회 완료 |
| E2 | 외부 연동 | ”슬랙 연결했는데 왜 또 막혀?” | 아직 안 함 |
| E3 | 말투 / 형식 | ”너무 딱딱해” “쓸데없이 길어” | 아직 안 함 |
보류 중인 8개
섹션 제목: “보류 중인 8개”| # | 주제 | 쉽게 말하면 |
|---|---|---|
| 4 | 의도 이해 | ”X 해달랬는데 Y를 함” |
| 3 | 환각 | ”자신 있게 틀려” |
| 5 | 멈춤 시점 | ”안 끝났는데 끝났다고 함” |
| 6 | 일관성 | ”같은 거 시켰는데 다른 답” |
| 8 | 예측 가능성 | ”뭘 할지 모르겠어” |
| 9 | 복잡한 일 | ”처음만 잘하고 무너져” |
| 10 | 거부 | ”왜 이걸 못 하겠대?“ |
| 11 | 온보딩 | ”얘가 뭘 할 수 있는지 모르겠어” |
전부 “AI 쓸 때 짜증나는 것” 목록이다. E3까지 해보고 E4 이후를 정하기로 함.
4. 유일하게 실제로 돌린 실험: E1
섹션 제목: “4. 유일하게 실제로 돌린 실험: E1”질문: AI한테 “나는 이런 사람이야” 알려주고, 창 닫고 새 창에서 일 시키면 기억할까?
방법:
- AI한테 내 스타일을 알려줌 (반말, 이모지 X, 주말 발송 X 등)
- 채팅창을 닫음 (= 대화 기록 끊김)
- 새 창에서 “공지 써줘”만 시킴 — 아까 알려준 거 하나도 안 말함
- AI가 알아서 스타일 맞추나 확인
결과 (도구당 1번씩):
- 둘 다 기억은 했다
- 같은 AI(Claude)인데 껍데기가 다르면 기억 방식도 달랐다
- OpenClaw는 기억을 6군데에 흩어서 저장 — 초기화가 엄청 어려웠다
- 제대로 된 테스트 1번 하려고 시행착오를 6번 했다
5. 이 실험이 다 끝나면 얻는 것
섹션 제목: “5. 이 실험이 다 끝나면 얻는 것”| 층 | 얻는 것 | 비유 |
|---|---|---|
| 겉 | 어떤 도구가 나은지 | 시험 결과 |
| 속 | AI 도구를 비교하는 방법 (지표 + 프로토콜 + 재현 키트) | 시험지 + 채점 기준 |
| 더 속 | 이런 비교 방식이 맞는 건지 | 시험이란 제도 자체의 평가 |
겉으로 보면 도구 비교인데, 실제로는 “AI를 평가하는 프레임워크”를 만드는 프로젝트다.
6. 지금 고민하는 지점 — 현실과의 괴리
섹션 제목: “6. 지금 고민하는 지점 — 현실과의 괴리”실험에서 한 것
섹션 제목: “실험에서 한 것”- 메모리 다 비우고
- 딱 하나만 알려주고
- 깨끗한 상태에서 테스트
- 메모리에 이미 잡다한 게 쌓여 있고
- 슬랙, 캘린더, 노션 동시에 물려 있고
- 사용자마다 쓰는 방식이 다 다르고
- 도구 업데이트되면 동작도 바뀜
변수가 너무 많아서, 깨끗한 실험 결과가 “내 상황”에도 맞을지 보장이 없다.
이 실험이 해줄 수 있는 것 vs 못 해주는 것
섹션 제목: “이 실험이 해줄 수 있는 것 vs 못 해주는 것”| 해줄 수 있는 것 | 못 해주는 것 | |
|---|---|---|
| 기억력 | ”이 도구는 기억 구조가 6군데다” 같은 구조적 발견 | ”내 실제 업무에서 잘 기억할까?” |
| 외부 연동 | ”이 도구는 슬랙 연동 시 이런 식으로 실패한다" | "내 슬랙 워크스페이스에서도 그럴까?” |
| 전반 | 도구의 체질 파악 | 내 환경에서의 실사용 결과 예측 |
비유하면 자동차 충돌 테스트와 같다. 실험실에서 벽에 들이받는 건 현실 사고랑 다르지만, “이 차는 구조적으로 약하다”는 건 알 수 있다. 근데 “내가 출퇴근할 때 안전할까?”는 또 다른 문제.
7. 앞으로의 선택지
섹션 제목: “7. 앞으로의 선택지”| 방향 | 설명 | 장점 | 단점 |
|---|---|---|---|
| A. 지금 방향 유지 | 깨끗한 실험으로 “체질”만 파악. 현실 적용은 각자 판단에 맡김 | 결과가 깔끔하고 재현 가능 | 현실 반영 약함 |
| B. 방향 전환 | 통제된 실험 대신 실제 업무에 두 도구를 일주일씩 써보고 일기 쓰는 식 | 현실 반영 강함 | 변수 통제 포기, 비교가 주관적 |
아직 결정 안 됨. 팀 의견 필요.