콘텐츠로 이동

[보관] 23 — C1 재설계: 두-트랙 순차 백엔드 (Claude Code → Codex)

시각: 2026-04-28 ~11:35 KST 컨텍스트: Hermes 설치가 Anthropic provider로 끝난 것을 사용자가 의도적 변경으로 전환

V2 검증에서 provider: anthropic 발견 → AI가 두 가지 선택지 제시:

  • (A) C1 복구: hermes를 codex provider로 재설정
  • (B) C1 변경 수용: hermes를 Claude Code 백엔드로 두고 평가 디자인 재정의

사용자 결정 (요약):

“검증 내용을 바꾸자 claude code로. claude code 먼저하고, 그 다음에 codex로 모델 바꿔서도 테스트 해볼꺼야.”

→ 단순 (B)가 아니라 두-트랙 순차 실행으로 확장.

새 C1 정의:

트랙백엔드양쪽 도구
Track A (1차)Claude Code (Anthropic OAuth)Hermes + OpenClaw 모두 Anthropic backend
Track B (2차)Codex (ChatGPT 구독, gpt-5.5)Track A 완주 후 동일 도구·태스크를 Codex로 스위치 재실행
  • 순수 비교 보존: 한 트랙 안에서는 백엔드 고정 → Hermes vs OpenClaw 비교에서 LLM 변량이 들어가지 않음. 인과 분리는 그대로 유지.
  • LLM 변량 보너스 데이터: 트랙 A↔B 차이를 측정하면 동일 에이전트의 LLM 의존성을 정량화 가능. 원래 실험 목적(에이전트 비교)과 별개의 부가 산출물.
  • 현실적 정합성: Hermes는 설치 즉시 Claude Code OAuth를 자동 import → Anthropic backend가 Hermes의 “기본 지원” 백엔드에 속함. Codex도 별도 provider로 명시 지원. 두 백엔드 모두 Hermes 1급 시민.
  • Codex CLI는 트랙 B에서만 핵심: Track A 동안 codex CLI는 별도 도구로 켜둘 필요 없음 (혹은 켜두되 사용 안 함). Track B 진입 시 양쪽 도구의 provider만 codex로 스위치.
  • 사용자가 직접 한 결정: AI는 (A)를 권장했지만 사용자가 (B+) 변형을 명시적으로 선택. 평가 내러티브(“Claude 에이전트 비교”)가 본래 표현과 더 가까워지는 부수효과.

문서 cascade (이번 턴에 같이 처리):

  • 02-constraints.md — C1 두-트랙 정의로 재작성, C2 어댑터 트랙 폐기, C6 두 구독 동시 운영 명시
  • 01-experiment-design.md — §4 환경 격리 변경 없음, §8 일정 = Track A 14일 + Track B 7일 = 21일로 확장
  • 04-day0-setup.md — STEP 순서 변경: ChatGPT/Codex CLI는 Track B 직전으로 미루고, Day 0에선 Anthropic Claude Code 가입·인증·hermes provider=anthropic 검증을 우선
  • 05-compat-check.md — V1·V2를 백엔드별(Anthropic/Codex) 두 라인으로 확장, 분기 매트릭스도 트랙별로
  • 06-user-walkthrough.md — STEP 1~5 순서 재배열 (Anthropic 먼저, Codex 후속)
  • README.md — 모델 통일 섹션을 두-트랙 설명으로 교체

운영상 후속 항목:

  • Track A 시작 전: OpenClaw가 Anthropic backend 지원하는지 V1·V2 확인 필요. 미지원이면 Track A에서 OpenClaw 빠짐 (또는 일시적으로 OpenAI 호환 어댑터 검토 — 단 새 C1 하에서는 어댑터 자작 트랙은 기본 폐기 상태)
  • Track B 시작 전: 양쪽 도구를 codex provider로 스위치하는 절차를 별도로 문서화 (hermes auth login 등)
  • 비용 = ChatGPT Plus + Anthropic Claude Code 두 구독 동시 운영 비용. 단, 트랙 분리 실행이라 동시 부하는 없음 → 각 트랙 기간만 구독 활성화하는 옵션도 가능
  • 비교 공정성 리스크: Track B는 Track A의 학습/스킬을 그대로 들고 시작 → “Hermes 학습 효과 측정”이 Track B에서는 의미 흐려짐. Track B는 메모리 초기화하고 시작할지, 그대로 가져갈지 별도 결정 필요 (다음 세션에서)