09. Memory Benchmarks — H2 가설의 핵심
1. 정의
섹션 제목: “1. 정의”Memory benchmarks는 에이전트가 시간에 걸쳐 정보를 누적·재사용·전이하는 능력을 측정한다. 단일 호출의 컨텍스트 길이가 아니라, 세션을 넘나드는 학습. 이 카테고리는 본 실험의 H2 가설(“Hermes가 반복 학습으로 따라잡거나 역전”) 에 가장 직접적으로 매핑되는 학술 영역이다.
대표 벤치마크:
- MemoryAgentBench (Hu et al., ICLR 2026): 4 능력 분해 — 정확 회상 / 테스트타임 학습 / 장거리 이해 / 충돌 해결.
- Evo-Memory (2025–2026): 스트리밍 + 자기진화 메모리 평가 프레임워크. 학습 곡선 시각화.
- MemoryArena (2025): 멀티세션 의존 태스크. 이전 세션 결과를 반영해야 다음 세션이 풀림.
- AMA-Bench: long-horizon 메모리. 주 단위 시간 척도.
- Memory Gym (JMLR 2024): “endless tasks” — 무한 태스크 스트림에서 메모리 효율 측정.
이 중 본 실험에 가장 깊이 매핑되는 것은 MemoryAgentBench의 4축 분해다.
2. 핵심 메커니즘
섹션 제목: “2. 핵심 메커니즘”2.1 MemoryAgentBench의 4축
섹션 제목: “2.1 MemoryAgentBench의 4축”이 분해가 본 시리즈에서 가장 외울 가치가 큰 한 표:
| # | 능력 | 정의 | 실패 시 증상 |
|---|---|---|---|
| 1 | 정확 회상 (Accurate Retrieval) | 이전에 본 정보를 정확히 다시 찾기 | ”내가 지난주에 X라고 알려줬는데 잊음” |
| 2 | 테스트타임 학습 (Test-time Learning) | 새 정보·패턴을 그 자리에서 흡수해 다음 행동에 반영 | ”교정해줬는데 다음 답변에서 또 같은 실수” |
| 3 | 장거리 이해 (Long-Range Understanding) | 멀리 떨어진 정보를 묶어 추론 | ”맥락 점들이 흩어져 있을 때 잇지 못함” |
| 4 | 충돌 해결 (Conflict Resolution) | 새 정보가 옛 정보와 다를 때 어느 쪽을 택할지 | ”옛 정보 + 새 정보를 둘 다 고집하거나 둘 다 잊음” |
이 4축은 분리 측정 가능하도록 데이터셋이 짜여 있다. 한 모델이 1·3은 강한데 2·4는 약하다 같은 프로파일이 정상 결과.
2.2 평가 데이터의 구조
섹션 제목: “2.2 평가 데이터의 구조”문서·인터랙션 히스토리를 순차 chunks 로 분할 (512 또는 4,096 토큰). 에이전트는 chunks를 시간순으로 받으며 누적적으로 처리. 마지막 단계에서 어느 chunk의 어떤 정보를 회상/사용/충돌해결 해야 하는 질의 가 들어온다.
예시 데이터 흐름:
Step 1: chunk_1 (사용자 프로필 P1)Step 2: chunk_2 (대화 K1)...Step 50: chunk_50 (P1 의 일부 변경 — 새 직장)...Step 100: 질의 "사용자의 현재 직장은?"→ 정답은 50번째 chunk의 새 직장. 1번 chunk만 회상하면 충돌 해결 실패. 50번을 회상해야 정답.
2.3 Evo-Memory — 학습 곡선 평가
섹션 제목: “2.3 Evo-Memory — 학습 곡선 평가”MemoryAgentBench가 능력 분해에 강점이라면, Evo-Memory는 시간축 학습 곡선에 강점.
데이터를 task stream 으로 구성. 에이전트는 t=1, t=2, …의 태스크를 순차 처리. 각 시점의 정확도를 그래프로:
정확도 ↑1.0 │ │ ╱╱── ReMem (강한 학습) │ ╱0.5 │ ╱╱── baseline (정체) │ ╱ └────────────→ task index축: x = 누적 태스크 수, y = 정확도. 기울기가 학습 효율, 고원이 capacity 한계.
이 모양이 정확히 H2 가설이 보고 싶은 그래프다.
2.4 MemoryArena — 의존 태스크
섹션 제목: “2.4 MemoryArena — 의존 태스크”세션 간 명시적 의존성. Session 1에서 사용자가 “내 프로젝트는 X”라고 알려줌. Session 5에서 “내가 말했던 그 프로젝트의 다음 단계는?”을 물음. Session 1을 이해 못 하면 Session 5 풀이 불가.
이 식의 평가는 순차 실행 강제 — 병렬로 무작위 순서 평가 불가. 평가 자체가 시간을 소비.
2.5 메모리 메커니즘 비교 (벤치 외부)
섹션 제목: “2.5 메모리 메커니즘 비교 (벤치 외부)”벤치마크는 모델 능력을 잰다. 그런데 메모리 구현 자체도 다양하다. 두 큰 갈래:
- Context-extension: 컨텍스트 윈도우를 키우거나 RAG로 읽어서 메모리 구현. 매번 다 다시 읽음.
- Self-evolving / parametric: 에이전트가 자기 가중치/스킬/메모리 파일을 갱신. 다시 읽지 않아도 됨.
Hermes가 후자에 가깝다. 스킬 파일 자동 생성 = self-evolving memory의 한 구현.
3. 강점과 약점
섹션 제목: “3. 강점과 약점”| 강점 | 약점 |
|---|---|
| 학습/메모리 분해 — 어느 축에서 약한지 보임 | 세팅이 복잡 — 데이터 chunking, 순차 강제 |
| 학습 곡선 시각화 | 평가 시간 高 |
| Self-evolving memory 도입 자극 | 측정 프레임 의존 — 메모리 구현이 RAG vs 파라미터냐에 따라 점수 의미 다름 |
| H2 가설 같은 시간축 가설에 직결 | 비교적 신생 — 표준화 약함 |
4. 대안과의 비교
섹션 제목: “4. 대안과의 비교”- NIH (Needle in Haystack): 컨텍스트 N 안에 핵심 정보 한 줄을 박고 회상. 단순. 세션 간 메모리 X.
- LongBench / RULER: 긴 컨텍스트 전반 능력. 한 호출 안의 일.
- MemoryAgentBench / Evo-Memory / MemoryArena: 세션 간. 진짜 메모리.
오해 방지: 컨텍스트 길이 ≠ 메모리. 1M 토큰 컨텍스트가 있어도 세션이 끝나면 잊는다. 메모리 는 세션을 넘는 어떤 외부 저장 또는 모델 갱신.
5. 우리 실험에의 적용 — H2 검증의 본격 설계
섹션 제목: “5. 우리 실험에의 적용 — H2 검증의 본격 설계”본 시리즈에서 가장 직접적인 적용 사례. H2를 MemoryAgentBench의 4축으로 분해하면 측정이 명확해진다.
5.1 H2의 4축 재정의
섹션 제목: “5.1 H2의 4축 재정의”| 4축 | Hermes vs OpenClaw 매핑 | 측정 방법 |
|---|---|---|
| 1. 정확 회상 | ”지난주에 알려준 우리 커뮤니티 톤 가이드를 기억하나” | 1주차 후반에 톤 가이드 알려주고, 2주차에 같은 태스크 재실행 — 톤이 그대로인가 |
| 2. 테스트타임 학습 | ”T1 첫 시도에서 민지가 교정한 부분을 다음 시도에 반영하나” | T1 1회차 결과에서 민지 교정사항 N개 → 2회차에서 그 N개가 처음부터 반영된 비율 |
| 3. 장거리 이해 | ”주간 리포트(T9)에서 1주 전 이벤트 + 어제 이벤트를 묶어 패턴화하나” | T9 결과의 정확성·통합도 채점 |
| 4. 충돌 해결 | ”이전엔 ‘AI Agent 밋업’이었는데 이번엔 ‘AI Agent 컨퍼런스’로 이름 바뀜 — 어느 쪽을 쓰나” | 의도적으로 이름·정책 변경 후 다음 태스크 결과 검증 |
5.2 실험 설계 보강
섹션 제목: “5.2 실험 설계 보강”기존 §6의 “반복 가속” 메트릭 대신 4축 별 점수를 도입:
CSV 컬럼 추가:
M1_recall(이번 태스크에서 이전 정보 회상 정확도, 0–1)M2_learn(직전 교정 반영도, 0–1)M3_long(멀리 떨어진 정보 통합도, 0–1)M4_conflict(충돌 정보 처리, 0–1)
매번 4축 모두 측정 X. 태스크별 해당되는 축 만 측정:
| 태스크 | 측정 축 |
|---|---|
| T1 (공지) | M1, M2 |
| T7 (온보딩 DM) | M1, M4 |
| T8 (FAQ 응답) | M1, M2, M4 |
| T9 (주간 리포트) | M3 |
| 나머지 | 선택 |
5.3 Evo-Memory 식 학습 곡선 그리기
섹션 제목: “5.3 Evo-Memory 식 학습 곡선 그리기”Day 별로 도구별 평균 점수(rubric 종합) 를 그래프로 그림:
Day1 ─ Day14Hermes: 3.2 ─ ↗ ─ 4.5 ? (H2 참)OpenClaw: 4.1 ─ → ─ 4.0 ? (정체)기울기 비교가 직접 의 H2 검증.
5.4 Self-evolving memory의 흔적
섹션 제목: “5.4 Self-evolving memory의 흔적”Hermes의 ~/.hermes/skills/ 디렉토리를 매일 스냅샷. 새 스킬 등장 시점·내용을 기록. 어느 태스크가 어떤 스킬 생성을 트리거했는지 mapping. 이건 H3 (“셋업 비용”) 와도 연결 — Hermes는 자동 셋업, OpenClaw는 수동.
6. 더 읽을거리
섹션 제목: “6. 더 읽을거리”- Hu et al., “MemoryAgentBench: Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions” (ICLR 2026) — 4축(회상·학습·장거리·충돌) 분해 벤치의 원 저장소
- “Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory” — 스트리밍 + 학습 곡선 평가 프레임
- “MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks” — 세션 간 명시적 의존 태스크 평가 벤치
- “AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications” — 주 단위 long-horizon 메모리 벤치
- Pleines et al., “Memory Gym” (JMLR 2024) — 무한 태스크 스트림에서 메모리 효율 측정
- Mem0 — OSS 에이전트 메모리 레이어
- LangMem — LangChain 진영의 장기 메모리 SDK
- Letta (구 MemGPT) — 가상 컨텍스트 + 영속 메모리 에이전트 프레임
- Zep — 대화·세션 메모리에 특화된 산업 솔루션
다음 장 미리보기
섹션 제목: “다음 장 미리보기”지금까지의 벤치들이 능력을 봤다면, BFCL·ToolBench는 구체적 함수 호출의 정확성을 본다. 우리 OpenClaw는 통합 강점을 주장 → tool-use 정확도 측정이 H3 검증의 핵심. 10장.
이 장에서 확실히 알아야 하는 것
섹션 제목: “이 장에서 확실히 알아야 하는 것”- MemoryAgentBench 4축 (회상·학습·장거리·충돌) 을 외워서 적을 수 있다.
- 컨텍스트 길이와 메모리의 차이를 한 줄로 말할 수 있다.
- Evo-Memory의 학습 곡선 그래프 모양을 그릴 수 있다.
- Hermes의 self-evolving memory가 어떤 형태(
~/.hermes/skills/) 인지 안다. - 본 실험의 H2를 4축으로 분해하는 매핑 테이블을 떠올릴 수 있다.