hamster-lab 프로젝트 — 어디까지 왔고, 뭘 고민하고 있는지

2026-04-29 / 팀 공유용

1. 이 프로젝트가 뭔지

“AI 비서가 여러 개 있는데, 뭐가 좋은지 어떻게 비교하지?”

블로그 후기? 광고? 다 주관적이다. 그래서 직접 테스트해서 비교하는 방법을 만들자는 프로젝트.

비교 대상은 Hermes vs OpenClaw 두 AI 에이전트 도구. 둘 다 속에는 같은 AI(Claude)가 들어있는데, 감싸는 “껍데기(wrapper)“가 다르다.

처음에 P1~P9까지 실험 9개를 기획했다. 비교 항목 8개, 규칙 9개, 리포트 양식까지 꼼꼼하게 설계.

문제: 너무 무거워서 정작 실험을 못 돌렸다. 준비 문서만 43개.

전부 접고 deprecated/ 폴더에 보관.

이번엔 사용자가 진짜 짜증나는 것(통증) 하나 골라서, 작은 실험 하나만 해보는 방식으로 전환.

통증 11개를 목록화하고, 우선순위 높은 3개부터 시작하기로 함.

순서	주제	쉽게 말하면	상태
E1	메모리 / 기억력	”어제 알려준 거 왜 또 물어봐?”	파일럿 1회 완료
E2	외부 연동	”슬랙 연결했는데 왜 또 막혀?”	아직 안 함
E3	말투 / 형식	”너무 딱딱해” “쓸데없이 길어”	아직 안 함

전부 “AI 쓸 때 짜증나는 것” 목록이다. E3까지 해보고 E4 이후를 정하기로 함.

질문: AI한테 “나는 이런 사람이야” 알려주고, 창 닫고 새 창에서 일 시키면 기억할까?

방법:

결과 (도구당 1번씩):

겉으로 보면 도구 비교인데, 실제로는 “AI를 평가하는 프레임워크”를 만드는 프로젝트다.

변수가 너무 많아서, 깨끗한 실험 결과가 “내 상황”에도 맞을지 보장이 없다.

비유하면 자동차 충돌 테스트와 같다. 실험실에서 벽에 들이받는 건 현실 사고랑 다르지만, “이 차는 구조적으로 약하다”는 건 알 수 있다. 근데 “내가 출퇴근할 때 안전할까?”는 또 다른 문제.

방향	설명	장점	단점
A. 지금 방향 유지	깨끗한 실험으로 “체질”만 파악. 현실 적용은 각자 판단에 맡김	결과가 깔끔하고 재현 가능	현실 반영 약함
B. 방향 전환	통제된 실험 대신 실제 업무에 두 도구를 일주일씩 써보고 일기 쓰는 식	현실 반영 강함	변수 통제 포기, 비교가 주관적

아직 결정 안 됨. 팀 의견 필요.