[보관] 23 — C1 재설계: 두-트랙 순차 백엔드 (Claude Code → Codex)
시각: 2026-04-28 ~11:35 KST 컨텍스트: Hermes 설치가 Anthropic provider로 끝난 것을 사용자가 의도적 변경으로 전환
무엇이 있었나
섹션 제목: “무엇이 있었나”V2 검증에서 provider: anthropic 발견 → AI가 두 가지 선택지 제시:
- (A) C1 복구: hermes를 codex provider로 재설정
- (B) C1 변경 수용: hermes를 Claude Code 백엔드로 두고 평가 디자인 재정의
사용자 결정 (요약):
“검증 내용을 바꾸자 claude code로. claude code 먼저하고, 그 다음에 codex로 모델 바꿔서도 테스트 해볼꺼야.”
→ 단순 (B)가 아니라 두-트랙 순차 실행으로 확장.
새 C1 정의:
| 트랙 | 백엔드 | 양쪽 도구 |
|---|---|---|
| Track A (1차) | Claude Code (Anthropic OAuth) | Hermes + OpenClaw 모두 Anthropic backend |
| Track B (2차) | Codex (ChatGPT 구독, gpt-5.5) | Track A 완주 후 동일 도구·태스크를 Codex로 스위치 재실행 |
왜 그렇게 갔나
섹션 제목: “왜 그렇게 갔나”- 순수 비교 보존: 한 트랙 안에서는 백엔드 고정 → Hermes vs OpenClaw 비교에서 LLM 변량이 들어가지 않음. 인과 분리는 그대로 유지.
- LLM 변량 보너스 데이터: 트랙 A↔B 차이를 측정하면 동일 에이전트의 LLM 의존성을 정량화 가능. 원래 실험 목적(에이전트 비교)과 별개의 부가 산출물.
- 현실적 정합성: Hermes는 설치 즉시 Claude Code OAuth를 자동 import → Anthropic backend가 Hermes의 “기본 지원” 백엔드에 속함. Codex도 별도 provider로 명시 지원. 두 백엔드 모두 Hermes 1급 시민.
- Codex CLI는 트랙 B에서만 핵심: Track A 동안 codex CLI는 별도 도구로 켜둘 필요 없음 (혹은 켜두되 사용 안 함). Track B 진입 시 양쪽 도구의 provider만 codex로 스위치.
- 사용자가 직접 한 결정: AI는 (A)를 권장했지만 사용자가 (B+) 변형을 명시적으로 선택. 평가 내러티브(“Claude 에이전트 비교”)가 본래 표현과 더 가까워지는 부수효과.
무엇이 남았나
섹션 제목: “무엇이 남았나”문서 cascade (이번 턴에 같이 처리):
02-constraints.md— C1 두-트랙 정의로 재작성, C2 어댑터 트랙 폐기, C6 두 구독 동시 운영 명시01-experiment-design.md— §4 환경 격리 변경 없음, §8 일정 = Track A 14일 + Track B 7일 = 21일로 확장04-day0-setup.md— STEP 순서 변경: ChatGPT/Codex CLI는 Track B 직전으로 미루고, Day 0에선 Anthropic Claude Code 가입·인증·hermes provider=anthropic 검증을 우선05-compat-check.md— V1·V2를 백엔드별(Anthropic/Codex) 두 라인으로 확장, 분기 매트릭스도 트랙별로06-user-walkthrough.md— STEP 1~5 순서 재배열 (Anthropic 먼저, Codex 후속)README.md— 모델 통일 섹션을 두-트랙 설명으로 교체
운영상 후속 항목:
- Track A 시작 전: OpenClaw가 Anthropic backend 지원하는지 V1·V2 확인 필요. 미지원이면 Track A에서 OpenClaw 빠짐 (또는 일시적으로 OpenAI 호환 어댑터 검토 — 단 새 C1 하에서는 어댑터 자작 트랙은 기본 폐기 상태)
- Track B 시작 전: 양쪽 도구를 codex provider로 스위치하는 절차를 별도로 문서화 (
hermes auth login등) - 비용 = ChatGPT Plus + Anthropic Claude Code 두 구독 동시 운영 비용. 단, 트랙 분리 실행이라 동시 부하는 없음 → 각 트랙 기간만 구독 활성화하는 옵션도 가능
- 비교 공정성 리스크: Track B는 Track A의 학습/스킬을 그대로 들고 시작 → “Hermes 학습 효과 측정”이 Track B에서는 의미 흐려짐. Track B는 메모리 초기화하고 시작할지, 그대로 가져갈지 별도 결정 필요 (다음 세션에서)