콘텐츠로 이동

hamster-lab 프로젝트 — 어디까지 왔고, 뭘 고민하고 있는지

2026-04-29 / 팀 공유용


“AI 비서가 여러 개 있는데, 뭐가 좋은지 어떻게 비교하지?”

블로그 후기? 광고? 다 주관적이다. 그래서 직접 테스트해서 비교하는 방법을 만들자는 프로젝트.

비교 대상은 Hermes vs OpenClaw 두 AI 에이전트 도구. 둘 다 속에는 같은 AI(Claude)가 들어있는데, 감싸는 “껍데기(wrapper)“가 다르다.


1기: P(Probe) 시리즈 — 설계만 하다 폐기

섹션 제목: “1기: P(Probe) 시리즈 — 설계만 하다 폐기”

처음에 P1~P9까지 실험 9개를 기획했다. 비교 항목 8개, 규칙 9개, 리포트 양식까지 꼼꼼하게 설계.

문제: 너무 무거워서 정작 실험을 못 돌렸다. 준비 문서만 43개.

전부 접고 deprecated/ 폴더에 보관.

2기: E(Experience) 시리즈 — 가볍게 재시작

섹션 제목: “2기: E(Experience) 시리즈 — 가볍게 재시작”

이번엔 사용자가 진짜 짜증나는 것(통증) 하나 골라서, 작은 실험 하나만 해보는 방식으로 전환.

통증 11개를 목록화하고, 우선순위 높은 3개부터 시작하기로 함.


순서주제쉽게 말하면상태
E1메모리 / 기억력”어제 알려준 거 왜 또 물어봐?”파일럿 1회 완료
E2외부 연동”슬랙 연결했는데 왜 또 막혀?”아직 안 함
E3말투 / 형식”너무 딱딱해” “쓸데없이 길어”아직 안 함
#주제쉽게 말하면
4의도 이해”X 해달랬는데 Y를 함”
3환각”자신 있게 틀려”
5멈춤 시점”안 끝났는데 끝났다고 함”
6일관성”같은 거 시켰는데 다른 답”
8예측 가능성”뭘 할지 모르겠어”
9복잡한 일”처음만 잘하고 무너져”
10거부”왜 이걸 못 하겠대?“
11온보딩”얘가 뭘 할 수 있는지 모르겠어”

전부 “AI 쓸 때 짜증나는 것” 목록이다. E3까지 해보고 E4 이후를 정하기로 함.


4. 유일하게 실제로 돌린 실험: E1

섹션 제목: “4. 유일하게 실제로 돌린 실험: E1”

질문: AI한테 “나는 이런 사람이야” 알려주고, 창 닫고 새 창에서 일 시키면 기억할까?

방법:

  1. AI한테 내 스타일을 알려줌 (반말, 이모지 X, 주말 발송 X 등)
  2. 채팅창을 닫음 (= 대화 기록 끊김)
  3. 새 창에서 “공지 써줘”만 시킴 — 아까 알려준 거 하나도 안 말함
  4. AI가 알아서 스타일 맞추나 확인

결과 (도구당 1번씩):

  • 둘 다 기억은 했다
  • 같은 AI(Claude)인데 껍데기가 다르면 기억 방식도 달랐다
  • OpenClaw는 기억을 6군데에 흩어서 저장 — 초기화가 엄청 어려웠다
  • 제대로 된 테스트 1번 하려고 시행착오를 6번 했다

얻는 것비유
어떤 도구가 나은지시험 결과
AI 도구를 비교하는 방법 (지표 + 프로토콜 + 재현 키트)시험지 + 채점 기준
더 속이런 비교 방식이 맞는 건지시험이란 제도 자체의 평가

겉으로 보면 도구 비교인데, 실제로는 “AI를 평가하는 프레임워크”를 만드는 프로젝트다.


6. 지금 고민하는 지점 — 현실과의 괴리

섹션 제목: “6. 지금 고민하는 지점 — 현실과의 괴리”
  • 메모리 다 비우고
  • 딱 하나만 알려주고
  • 깨끗한 상태에서 테스트
  • 메모리에 이미 잡다한 게 쌓여 있고
  • 슬랙, 캘린더, 노션 동시에 물려 있고
  • 사용자마다 쓰는 방식이 다 다르고
  • 도구 업데이트되면 동작도 바뀜

변수가 너무 많아서, 깨끗한 실험 결과가 “내 상황”에도 맞을지 보장이 없다.

이 실험이 해줄 수 있는 것 vs 못 해주는 것

섹션 제목: “이 실험이 해줄 수 있는 것 vs 못 해주는 것”
해줄 수 있는 것못 해주는 것
기억력”이 도구는 기억 구조가 6군데다” 같은 구조적 발견”내 실제 업무에서 잘 기억할까?”
외부 연동”이 도구는 슬랙 연동 시 이런 식으로 실패한다""내 슬랙 워크스페이스에서도 그럴까?”
전반도구의 체질 파악내 환경에서의 실사용 결과 예측

비유하면 자동차 충돌 테스트와 같다. 실험실에서 벽에 들이받는 건 현실 사고랑 다르지만, “이 차는 구조적으로 약하다”는 건 알 수 있다. 근데 “내가 출퇴근할 때 안전할까?”는 또 다른 문제.


방향설명장점단점
A. 지금 방향 유지깨끗한 실험으로 “체질”만 파악. 현실 적용은 각자 판단에 맡김결과가 깔끔하고 재현 가능현실 반영 약함
B. 방향 전환통제된 실험 대신 실제 업무에 두 도구를 일주일씩 써보고 일기 쓰는 식현실 반영 강함변수 통제 포기, 비교가 주관적

아직 결정 안 됨. 팀 의견 필요.