콘텐츠로 이동

09. Memory Benchmarks — H2 가설의 핵심

Memory benchmarks는 에이전트가 시간에 걸쳐 정보를 누적·재사용·전이하는 능력을 측정한다. 단일 호출의 컨텍스트 길이가 아니라, 세션을 넘나드는 학습. 이 카테고리는 본 실험의 H2 가설(“Hermes가 반복 학습으로 따라잡거나 역전”) 에 가장 직접적으로 매핑되는 학술 영역이다.

대표 벤치마크:

  • MemoryAgentBench (Hu et al., ICLR 2026): 4 능력 분해 — 정확 회상 / 테스트타임 학습 / 장거리 이해 / 충돌 해결.
  • Evo-Memory (2025–2026): 스트리밍 + 자기진화 메모리 평가 프레임워크. 학습 곡선 시각화.
  • MemoryArena (2025): 멀티세션 의존 태스크. 이전 세션 결과를 반영해야 다음 세션이 풀림.
  • AMA-Bench: long-horizon 메모리. 주 단위 시간 척도.
  • Memory Gym (JMLR 2024): “endless tasks” — 무한 태스크 스트림에서 메모리 효율 측정.

이 중 본 실험에 가장 깊이 매핑되는 것은 MemoryAgentBench의 4축 분해다.

이 분해가 본 시리즈에서 가장 외울 가치가 큰 한 표:

#능력정의실패 시 증상
1정확 회상 (Accurate Retrieval)이전에 본 정보를 정확히 다시 찾기”내가 지난주에 X라고 알려줬는데 잊음”
2테스트타임 학습 (Test-time Learning)새 정보·패턴을 그 자리에서 흡수해 다음 행동에 반영”교정해줬는데 다음 답변에서 또 같은 실수”
3장거리 이해 (Long-Range Understanding)멀리 떨어진 정보를 묶어 추론”맥락 점들이 흩어져 있을 때 잇지 못함”
4충돌 해결 (Conflict Resolution)새 정보가 옛 정보와 다를 때 어느 쪽을 택할지”옛 정보 + 새 정보를 둘 다 고집하거나 둘 다 잊음”

이 4축은 분리 측정 가능하도록 데이터셋이 짜여 있다. 한 모델이 1·3은 강한데 2·4는 약하다 같은 프로파일이 정상 결과.

문서·인터랙션 히스토리를 순차 chunks 로 분할 (512 또는 4,096 토큰). 에이전트는 chunks를 시간순으로 받으며 누적적으로 처리. 마지막 단계에서 어느 chunk의 어떤 정보를 회상/사용/충돌해결 해야 하는 질의 가 들어온다.

예시 데이터 흐름:

Step 1: chunk_1 (사용자 프로필 P1)
Step 2: chunk_2 (대화 K1)
...
Step 50: chunk_50 (P1 의 일부 변경 — 새 직장)
...
Step 100: 질의 "사용자의 현재 직장은?"

→ 정답은 50번째 chunk의 새 직장. 1번 chunk만 회상하면 충돌 해결 실패. 50번을 회상해야 정답.

MemoryAgentBench가 능력 분해에 강점이라면, Evo-Memory는 시간축 학습 곡선에 강점.

데이터를 task stream 으로 구성. 에이전트는 t=1, t=2, …의 태스크를 순차 처리. 각 시점의 정확도를 그래프로:

정확도
1.0 │
│ ╱╱── ReMem (강한 학습)
│ ╱
0.5 │ ╱╱── baseline (정체)
│ ╱
└────────────→ task index

: x = 누적 태스크 수, y = 정확도. 기울기가 학습 효율, 고원이 capacity 한계.

이 모양이 정확히 H2 가설이 보고 싶은 그래프다.

세션 간 명시적 의존성. Session 1에서 사용자가 “내 프로젝트는 X”라고 알려줌. Session 5에서 “내가 말했던 그 프로젝트의 다음 단계는?”을 물음. Session 1을 이해 못 하면 Session 5 풀이 불가.

이 식의 평가는 순차 실행 강제 — 병렬로 무작위 순서 평가 불가. 평가 자체가 시간을 소비.

2.5 메모리 메커니즘 비교 (벤치 외부)

섹션 제목: “2.5 메모리 메커니즘 비교 (벤치 외부)”

벤치마크는 모델 능력을 잰다. 그런데 메모리 구현 자체도 다양하다. 두 큰 갈래:

  • Context-extension: 컨텍스트 윈도우를 키우거나 RAG로 읽어서 메모리 구현. 매번 다 다시 읽음.
  • Self-evolving / parametric: 에이전트가 자기 가중치/스킬/메모리 파일을 갱신. 다시 읽지 않아도 됨.

Hermes가 후자에 가깝다. 스킬 파일 자동 생성 = self-evolving memory의 한 구현.

강점약점
학습/메모리 분해 — 어느 축에서 약한지 보임세팅이 복잡 — 데이터 chunking, 순차 강제
학습 곡선 시각화평가 시간 高
Self-evolving memory 도입 자극측정 프레임 의존 — 메모리 구현이 RAG vs 파라미터냐에 따라 점수 의미 다름
H2 가설 같은 시간축 가설에 직결비교적 신생 — 표준화 약함
  • NIH (Needle in Haystack): 컨텍스트 N 안에 핵심 정보 한 줄을 박고 회상. 단순. 세션 간 메모리 X.
  • LongBench / RULER: 긴 컨텍스트 전반 능력. 한 호출 안의 일.
  • MemoryAgentBench / Evo-Memory / MemoryArena: 세션 간. 진짜 메모리.

오해 방지: 컨텍스트 길이 ≠ 메모리. 1M 토큰 컨텍스트가 있어도 세션이 끝나면 잊는다. 메모리 는 세션을 넘는 어떤 외부 저장 또는 모델 갱신.

5. 우리 실험에의 적용 — H2 검증의 본격 설계

섹션 제목: “5. 우리 실험에의 적용 — H2 검증의 본격 설계”

본 시리즈에서 가장 직접적인 적용 사례. H2를 MemoryAgentBench의 4축으로 분해하면 측정이 명확해진다.

4축Hermes vs OpenClaw 매핑측정 방법
1. 정확 회상”지난주에 알려준 우리 커뮤니티 톤 가이드를 기억하나”1주차 후반에 톤 가이드 알려주고, 2주차에 같은 태스크 재실행 — 톤이 그대로인가
2. 테스트타임 학습”T1 첫 시도에서 민지가 교정한 부분을 다음 시도에 반영하나”T1 1회차 결과에서 민지 교정사항 N개 → 2회차에서 그 N개가 처음부터 반영된 비율
3. 장거리 이해”주간 리포트(T9)에서 1주 전 이벤트 + 어제 이벤트를 묶어 패턴화하나”T9 결과의 정확성·통합도 채점
4. 충돌 해결”이전엔 ‘AI Agent 밋업’이었는데 이번엔 ‘AI Agent 컨퍼런스’로 이름 바뀜 — 어느 쪽을 쓰나”의도적으로 이름·정책 변경 후 다음 태스크 결과 검증

기존 §6의 “반복 가속” 메트릭 대신 4축 별 점수를 도입:

CSV 컬럼 추가:

  • M1_recall (이번 태스크에서 이전 정보 회상 정확도, 0–1)
  • M2_learn (직전 교정 반영도, 0–1)
  • M3_long (멀리 떨어진 정보 통합도, 0–1)
  • M4_conflict (충돌 정보 처리, 0–1)

매번 4축 모두 측정 X. 태스크별 해당되는 축 만 측정:

태스크측정 축
T1 (공지)M1, M2
T7 (온보딩 DM)M1, M4
T8 (FAQ 응답)M1, M2, M4
T9 (주간 리포트)M3
나머지선택

5.3 Evo-Memory 식 학습 곡선 그리기

섹션 제목: “5.3 Evo-Memory 식 학습 곡선 그리기”

Day 별로 도구별 평균 점수(rubric 종합) 를 그래프로 그림:

Day1 ─ Day14
Hermes: 3.2 ─ ↗ ─ 4.5 ? (H2 참)
OpenClaw: 4.1 ─ → ─ 4.0 ? (정체)

기울기 비교가 직접 의 H2 검증.

Hermes의 ~/.hermes/skills/ 디렉토리를 매일 스냅샷. 새 스킬 등장 시점·내용을 기록. 어느 태스크가 어떤 스킬 생성을 트리거했는지 mapping. 이건 H3 (“셋업 비용”) 와도 연결 — Hermes는 자동 셋업, OpenClaw는 수동.


지금까지의 벤치들이 능력을 봤다면, BFCL·ToolBench는 구체적 함수 호출의 정확성을 본다. 우리 OpenClaw는 통합 강점을 주장 → tool-use 정확도 측정이 H3 검증의 핵심. 10장.

이 장에서 확실히 알아야 하는 것

섹션 제목: “이 장에서 확실히 알아야 하는 것”
  • MemoryAgentBench 4축 (회상·학습·장거리·충돌) 을 외워서 적을 수 있다.
  • 컨텍스트 길이와 메모리의 차이를 한 줄로 말할 수 있다.
  • Evo-Memory의 학습 곡선 그래프 모양을 그릴 수 있다.
  • Hermes의 self-evolving memory가 어떤 형태(~/.hermes/skills/) 인지 안다.
  • 본 실험의 H2를 4축으로 분해하는 매핑 테이블을 떠올릴 수 있다.