콘텐츠로 이동
Hamster Lab
검색
Ctrl
K
취소
테마 선택
어두운 테마
밝은 테마
자동
개요
실험 시리즈 (Experiments)
AI 에이전트 통증 랜드스케이프 — E 시리즈 진입 지도
E1
E1. 메모리 — AI는 왜 기억을 못하는가
E1. 시나리오 — Claude Code 보조 + 사용자 실행 가이드 (v0.3)
02-trials
E1. Trial 목록 + 매핑 표
Trial NNN — {tool}
Trial 001 — OpenClaw
Trial 006 — Hermes
Trial EXAMPLE — OpenClaw (샘플)
E1. Trial 누적 분석 (샘플)
E1. 결정 (샘플)
일일 리포트
평가 연구 (Deep Study)
평가 연구 (Deep Study) — 인덱스
01. Trajectory vs Outcome 평가
02. LLM-as-Judge
03. Agent-as-Judge
04. 다층 Rubric (7-25-130)
05. τ-bench와 pass^k
06. GAIA · AgentBench
07. SWE-bench 계열
08. OSWorld · WebArena · Mind2Web
09. Memory Benchmarks — H2 가설의 핵심
10. Tool-use Benchmarks — BFCL · ToolBench · ComplexFuncBench
11. 평가 플랫폼 비교 — LangSmith · Braintrust · Langfuse · Phoenix · Galileo
12. 평가 파이프라인 — Offline · Online · Monitoring
13. 벤치마크 함정 — Berkeley RDI 익스플로잇
14. 이 리서치를 우리는 이렇게 활용한다
리포트
E1 실험 상세 — "AI는 나를 기억하는가?"
hamster-lab 프로젝트 — 어디까지 왔고, 뭘 고민하고 있는지
히스토리 (커밋 로그)
History 인덱스 — E 시리즈
01. E 시리즈 시작
02. E1 시나리오 — OpenClaw CLI 경로·인증 정정
03. E1 시나리오 v0.2 — Claude Code 운영 모드 재작성
04. E1 시나리오 v0.3 — 실행/보조 분리
05. E1 Pilot 결론 — n=1 종결, main study 보류
06. E1 Pilot 재해석 — 공식 docs 기반 F2·F5 정정
보관 (Deprecated)
[보관] Deprecated 문서
daily
[보관] 일일 메모 (Daily Memos)
[보관] P1 Detailed — Trajectory 자동 추출 (A1) 검증
[보관] P1 미니 실험 보고서 — Trajectory 자동 추출 검증
experiments
[보관] 실험 시리즈 (Experiments)
[보관] 실험 시리즈 — 순서·규칙·진입 조건
[보관] 실험 시리즈 — 쉬운 버전
[보관] 평가·통계 용어 풀이 (쉬운 버전)
P1
[보관] P1. Trajectory 자동 추출
[보관] P1. 도구가 어떤 순서로 무엇을 했나 자동 기록 보기 — 쉬운 버전
[보관] P1 Step 1·3 — 트라이얼 실행 가이드 (한 페이지)
[보관] P2. 외부 호출 0번이면 자동 fail 룰 — 쉬운 버전
[보관] P3. 같은 일 3번 시켰을 때 다 잘 했나 — 쉬운 버전
[보관] P4. 자동 분기 기준 완화 (5개 → 3개) — 쉬운 버전
[보관] P5. 결과물 점수 1~5를 *둘로 쪼갬* — 쉬운 버전
[보관] P6. 빠른데 품질 낮은 결과는 따로 셈 (꼼수 차단) — 쉬운 버전
[보관] P7. AI한테 채점 시켜보기 — 쉬운 버전
[보관] P8. 도구가 어제 한 일을 오늘도 기억하나 (메모리) — 쉬운 버전
[보관] P9. 9개 결과 합쳐서 큰 결론 (L1·L2·L3 동시) — 쉬운 버전
history
[보관] 히스토리 인덱스 — 2026-04-27 세션
[보관] 01. README 리뷰 — 프로젝트 입구 점검
[보관] 02. Phase 2 Day 0 진입 시도 — 인터럽트로 잠시 정지
[보관] 03. Hook 설계 옵션 제시 — 모호성 해소
[보관] 04. Hook 설계 결정 — AskUserQuestion 통과
[보관] 05. Hook 구현 1차 — log-event.sh (jq 의존) 실패
[보관] 06. Hook 구현 2차 — python3 기반 재작성
[보관] 07. settings.json에 6개 이벤트 hook 등록
[보관] 08. Hook 실제 fire 검증
[보관] 09. 디렉토리 구조 생성
[보관] 10. 가짜 샌드박스 데이터 생성
[보관] 11. 측정 양식 + 코인토스 스크립트
[보관] 12. 셋업 가이드 1차 작성 (OpenRouter 기준)
[보관] 13. OpenRouter 폐기 결정 — 백엔드 재설계
[보관] 14. Codex 구독 통일로 결정 — 새 C1 확정
[보관] 15. C1·C2·C6 재작성
[보관] 16. 셋업 가이드 갱신
[보관] 17. README 갱신
[보관] 18. 현재 상태 (스냅샷)
[보관] 19. 호환성 검증 프레임워크 작성
[보관] 20. 사용자 외부 작업 가이드 작성 + 세션 종료
[보관] 21 — codex CLI 설치 + 로그인 + 스모크 테스트
[보관] 22 — Hermes 설치 + V2 검증 (Anthropic provider 발견)
[보관] 23 — C1 재설계: 두-트랙 순차 백엔드 (Claude Code → Codex)
[보관] 24. 에이전트 평가 리서치 — 툴/프레임워크/벤치마크/지표 지형도
[보관] 25. 평가 프레임워크 피벗 — 본 산출물을 L2/L3로 재정의
[보관] 25. Astro Starlight 위키 셋업
[보관] 27. Deep Study 시리즈 작성 — `study/` 14장 + 위키 sync 확장
[보관] 25 — 3일 압축 파일럿 + 평가 fork 분기 결정
[보관] 29 — 컨컬런시 테스트 추가 (T_concurrent + T_burst)
[보관] 30. 리포트 샘플 분할 — easy(비개발자용) / detailed(상세) 두 버전
[보관] 31. 실험 시리즈 출범 — `experiments/` 폴더 + 9 probe 순차 계획 (cascade → probe 전환)
[보관] 32. 리포트 샘플 재작성 — Probe 시리즈(P1~P9) 구조 반영
[보관] 33. Probe 종료 cascade에 interim 메모 + CHANGELOG 추가
[보관] 34 — Root cascade: probe 시리즈 전환에 맞춰 root 문서 일괄 갱신
[보관] 35. Naming cascade — EXP-0N → P{N}, CSV 스키마 정합화, 3일 raw 잔재 제거
[보관] 36. `reports/interim/` → `reports/daily/` 리네임
[보관] 37. `daily/`를 사이드바 최상위로 격상
[보관] 38. OpenClaw 설치 시도 — placeholder 패키지 발견 (미완)
[보관] 39 — Easy 짝 doc cascade 완료 + 메모리 스냅샷 결정
[보관] 40. OpenClaw 설치 재개 — V1·V2 PASS, V3 보류 (인터랙티브 auth 필요)
[보관] 41. Compat check Track A 결과 — Hermes·OpenClaw 모두 PASS, P1 진입 가능
[보관] 42. P1 결정 — Trajectory 자동 추출 채택 (외부 통합 검증 메트릭으로 재정의)
[보관] 43. 일관성 sweep — 라이브 문서 cascade 정합화
reports
[보관] 리포트 샘플 카탈로그
[보관] Reports CHANGELOG
[보관] [샘플·상세] AI 에이전트 도입 평가 리포트
[보관] [샘플·쉬운 버전] AI 에이전트, 우리 회사엔 어느 게 맞을까?
root-docs
[보관] Hermes vs OpenClaw 비교 실험 — L2/L3 검증을 위한 첫 사례
[보관] 실험 제약 (Constraints)
[보관] 실험 약속 (제약 C1~C9) — 쉬운 버전
[보관] 03. 리포트 샘플 — `reports/` 폴더로 이동
[보관] 진입 셋업 가이드 (P1 시작 전)
[보관] 호환성 검증 (두-트랙 백엔드)
[보관] 외부 작업 가이드 (사용자 액션 시퀀스)
[보관] 평가 지표 스펙 v0 (L2 산출물 초안)
[보관] 지표 8개 — 쉬운 버전
[보관] 메타 평가 — 접근 자체에 대한 평가 (L3 산출물)
runs
[보관] 체크포인트 점검 결과 (probe 시리즈 단위)
daily-log
[보관] 트랙별 일일 운영 일지
[보관] 사용자 일기 — D 프레이밍 채집
테마 선택
어두운 테마
밝은 테마
자동
[보관] Deprecated 문서
폐기/보관 처리된 과거 문서 모음. 현재 가설·구조와 어긋날 수 있음 (참고용).