09. Memory Benchmarks — H2 가설의 핵심

한 줄: 에이전트가 세션을 넘나들면서 정보를 누적·재사용하는 능력(=장기 기억)을 어떻게 측정하느냐를 다룬 벤치마크들 — 본 실험의 “Hermes가 학습으로 따라잡는가”(H2)와 직결.

비유: 컨텍스트 창은 시험 중 책상 위에 펼쳐둔 노트(단기), 메모리는 시험과 시험 사이에 외워두는 정리 노트(장기). 후자를 어떻게 평가하느냐의 학문.

이 문서에서 챙길 3가지

메모리 평가는 4축으로 분해 가능: 정확 회상 / 테스트타임 학습 / 장거리 이해 / 충돌 해결
학술 평가는 보통 수십~수백 세션에 걸쳐 측정 — 본 실험 14일은 너무 짧음 (학습 징후까지만 잡힘)
본 실험은 정확 회상(이름·설정 기억)에 가중치를 두고, 충돌 해결(“이번 행사는 톤을 바꿔달라”)까지가 현실적 한계

1. 정의

Memory benchmarks는 에이전트가 시간에 걸쳐 정보를 누적·재사용·전이하는 능력을 측정한다. 단일 호출의 컨텍스트 길이가 아니라, 세션을 넘나드는 학습. 이 카테고리는 본 실험의 H2 가설(“Hermes가 반복 학습으로 따라잡거나 역전”) 에 가장 직접적으로 매핑되는 학술 영역이다.

대표 벤치마크:

MemoryAgentBench (Hu et al., ICLR 2026): 4 능력 분해 — 정확 회상 / 테스트타임 학습 / 장거리 이해 / 충돌 해결.
Evo-Memory (2025–2026): 스트리밍 + 자기진화 메모리 평가 프레임워크. 학습 곡선 시각화.
MemoryArena (2025): 멀티세션 의존 태스크. 이전 세션 결과를 반영해야 다음 세션이 풀림.
AMA-Bench: long-horizon 메모리. 주 단위 시간 척도.
Memory Gym (JMLR 2024): “endless tasks” — 무한 태스크 스트림에서 메모리 효율 측정.

이 중 본 실험에 가장 깊이 매핑되는 것은 MemoryAgentBench의 4축 분해다.

2. 핵심 메커니즘

2.1 MemoryAgentBench의 4축

이 분해가 본 시리즈에서 가장 외울 가치가 큰 한 표:

#	능력	정의	실패 시 증상
1	정확 회상 (Accurate Retrieval)	이전에 본 정보를 정확히 다시 찾기	”내가 지난주에 X라고 알려줬는데 잊음”
2	테스트타임 학습 (Test-time Learning)	새 정보·패턴을 그 자리에서 흡수해 다음 행동에 반영	”교정해줬는데 다음 답변에서 또 같은 실수”
3	장거리 이해 (Long-Range Understanding)	멀리 떨어진 정보를 묶어 추론	”맥락 점들이 흩어져 있을 때 잇지 못함”
4	충돌 해결 (Conflict Resolution)	새 정보가 옛 정보와 다를 때 어느 쪽을 택할지	”옛 정보 + 새 정보를 둘 다 고집하거나 둘 다 잊음”

이 4축은 분리 측정 가능하도록 데이터셋이 짜여 있다. 한 모델이 1·3은 강한데 2·4는 약하다 같은 프로파일이 정상 결과.

2.2 평가 데이터의 구조

문서·인터랙션 히스토리를 순차 chunks 로 분할 (512 또는 4,096 토큰). 에이전트는 chunks를 시간순으로 받으며 누적적으로 처리. 마지막 단계에서 어느 chunk의 어떤 정보를 회상/사용/충돌해결 해야 하는 질의 가 들어온다.

예시 데이터 흐름:

Step 1: chunk_1 (사용자 프로필 P1)
Step 2: chunk_2 (대화 K1)
...
Step 50: chunk_50 (P1 의 일부 변경 — 새 직장)
...
Step 100: 질의 "사용자의 현재 직장은?"

→ 정답은 50번째 chunk의 새 직장. 1번 chunk만 회상하면 충돌 해결 실패. 50번을 회상해야 정답.

2.3 Evo-Memory — 학습 곡선 평가

MemoryAgentBench가 능력 분해에 강점이라면, Evo-Memory는 시간축 학습 곡선에 강점.

데이터를 task stream 으로 구성. 에이전트는 t=1, t=2, …의 태스크를 순차 처리. 각 시점의 정확도를 그래프로:

정확도
  ↑
1.0 │
    │      ╱╱── ReMem (강한 학습)
    │     ╱
0.5 │  ╱╱── baseline (정체)
    │ ╱
    └────────────→ task index

축: x = 누적 태스크 수, y = 정확도. 기울기가 학습 효율, 고원이 capacity 한계.

이 모양이 정확히 H2 가설이 보고 싶은 그래프다.

2.4 MemoryArena — 의존 태스크

세션 간 명시적 의존성. Session 1에서 사용자가 “내 프로젝트는 X”라고 알려줌. Session 5에서 “내가 말했던 그 프로젝트의 다음 단계는?”을 물음. Session 1을 이해 못 하면 Session 5 풀이 불가.

이 식의 평가는 순차 실행 강제 — 병렬로 무작위 순서 평가 불가. 평가 자체가 시간을 소비.

2.5 메모리 메커니즘 비교 (벤치 외부)

벤치마크는 모델 능력을 잰다. 그런데 메모리 구현 자체도 다양하다. 두 큰 갈래:

Context-extension: 컨텍스트 윈도우를 키우거나 RAG로 읽어서 메모리 구현. 매번 다 다시 읽음.
Self-evolving / parametric: 에이전트가 자기 가중치/스킬/메모리 파일을 갱신. 다시 읽지 않아도 됨.

Hermes가 후자에 가깝다. 스킬 파일 자동 생성 = self-evolving memory의 한 구현.

3. 강점과 약점

강점	약점
학습/메모리 분해 — 어느 축에서 약한지 보임	세팅이 복잡 — 데이터 chunking, 순차 강제
학습 곡선 시각화	평가 시간 高
Self-evolving memory 도입 자극	측정 프레임 의존 — 메모리 구현이 RAG vs 파라미터냐에 따라 점수 의미 다름
H2 가설 같은 시간축 가설에 직결	비교적 신생 — 표준화 약함

4. 대안과의 비교

NIH (Needle in Haystack): 컨텍스트 N 안에 핵심 정보 한 줄을 박고 회상. 단순. 세션 간 메모리 X.
LongBench / RULER: 긴 컨텍스트 전반 능력. 한 호출 안의 일.
MemoryAgentBench / Evo-Memory / MemoryArena: 세션 간. 진짜 메모리.

오해 방지: 컨텍스트 길이 ≠ 메모리. 1M 토큰 컨텍스트가 있어도 세션이 끝나면 잊는다. 메모리 는 세션을 넘는 어떤 외부 저장 또는 모델 갱신.

5. 우리 실험에의 적용 — H2 검증의 본격 설계

본 시리즈에서 가장 직접적인 적용 사례. H2를 MemoryAgentBench의 4축으로 분해하면 측정이 명확해진다.

5.1 H2의 4축 재정의

4축	Hermes vs OpenClaw 매핑	측정 방법
1. 정확 회상	”지난주에 알려준 우리 커뮤니티 톤 가이드를 기억하나”	1주차 후반에 톤 가이드 알려주고, 2주차에 같은 태스크 재실행 — 톤이 그대로인가
2. 테스트타임 학습	”T1 첫 시도에서 민지가 교정한 부분을 다음 시도에 반영하나”	T1 1회차 결과에서 민지 교정사항 N개 → 2회차에서 그 N개가 처음부터 반영된 비율
3. 장거리 이해	”주간 리포트(T9)에서 1주 전 이벤트 + 어제 이벤트를 묶어 패턴화하나”	T9 결과의 정확성·통합도 채점
4. 충돌 해결	”이전엔 ‘AI Agent 밋업’이었는데 이번엔 ‘AI Agent 컨퍼런스’로 이름 바뀜 — 어느 쪽을 쓰나”	의도적으로 이름·정책 변경 후 다음 태스크 결과 검증

5.2 실험 설계 보강

기존 §6의 “반복 가속” 메트릭 대신 4축 별 점수를 도입:

CSV 컬럼 추가:

M1_recall (이번 태스크에서 이전 정보 회상 정확도, 0–1)
M2_learn (직전 교정 반영도, 0–1)
M3_long (멀리 떨어진 정보 통합도, 0–1)
M4_conflict (충돌 정보 처리, 0–1)

매번 4축 모두 측정 X. 태스크별 해당되는 축 만 측정:

태스크	측정 축
T1 (공지)	M1, M2
T7 (온보딩 DM)	M1, M4
T8 (FAQ 응답)	M1, M2, M4
T9 (주간 리포트)	M3
나머지	선택

5.3 Evo-Memory 식 학습 곡선 그리기

Day 별로 도구별 평균 점수(rubric 종합) 를 그래프로 그림:

         Day1 ─ Day14
Hermes:   3.2 ─ ↗ ─ 4.5 ?  (H2 참)
OpenClaw: 4.1 ─ → ─ 4.0 ?  (정체)

기울기 비교가 직접 의 H2 검증.

5.4 Self-evolving memory의 흔적

Hermes의 ~/.hermes/skills/ 디렉토리를 매일 스냅샷. 새 스킬 등장 시점·내용을 기록. 어느 태스크가 어떤 스킬 생성을 트리거했는지 mapping. 이건 H3 (“셋업 비용”) 와도 연결 — Hermes는 자동 셋업, OpenClaw는 수동.

6. 더 읽을거리

Hu et al., “MemoryAgentBench: Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions” (ICLR 2026) — 4축(회상·학습·장거리·충돌) 분해 벤치의 원 저장소
“Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory” — 스트리밍 + 학습 곡선 평가 프레임
“MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks” — 세션 간 명시적 의존 태스크 평가 벤치
“AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications” — 주 단위 long-horizon 메모리 벤치
Pleines et al., “Memory Gym” (JMLR 2024) — 무한 태스크 스트림에서 메모리 효율 측정
Mem0 — OSS 에이전트 메모리 레이어
LangMem — LangChain 진영의 장기 메모리 SDK
Letta (구 MemGPT) — 가상 컨텍스트 + 영속 메모리 에이전트 프레임
Zep — 대화·세션 메모리에 특화된 산업 솔루션

다음 장 미리보기

지금까지의 벤치들이 능력을 봤다면, BFCL·ToolBench는 구체적 함수 호출의 정확성을 본다. 우리 OpenClaw는 통합 강점을 주장 → tool-use 정확도 측정이 H3 검증의 핵심. 10장.

이 장에서 확실히 알아야 하는 것

MemoryAgentBench 4축 (회상·학습·장거리·충돌) 을 외워서 적을 수 있다.
컨텍스트 길이와 메모리의 차이를 한 줄로 말할 수 있다.
Evo-Memory의 학습 곡선 그래프 모양을 그릴 수 있다.
Hermes의 self-evolving memory가 어떤 형태(~/.hermes/skills/) 인지 안다.
본 실험의 H2를 4축으로 분해하는 매핑 테이블을 떠올릴 수 있다.