콘텐츠로 이동

[보관] 29 — 컨컬런시 테스트 추가 (T_concurrent + T_burst)

시각: 2026-04-28 ~12:30 KST 컨텍스트: 3일 파일럿 cascade 직후, 사용자가 새 평가 축 추가

사용자 요청: “동시 다발적으로 보내는거 테스트해보고 싶어” → AI가 (a) rate-limit burst와 (b) multi-task 병행 두 갈래 제시 → 사용자 결정: 둘 다 채택.

추가된 항목:

종류형태어디에 들어가나
T_concurrent한 도구에 다른 카테고리 태스크 3개를 한 메시지로 던짐 (예: T1+T3+T7). 도구가 어떻게 처리하는지 라벨 4단계새 태스크 카테고리 D, 페르소나 모드 OK
T_burst도구별로 짧은 시간(예: 1분)에 N=10·20·50개 동일 요청 병렬 송신 → 429·throttle 행동인프라 테스트, 페르소나 모드 외부, 스크립트(scripts/burst_test.sh), main 측정 종료 후 마지막 1회

새 지표 I8. 컨컬런시 견고성:

  • C1 모두 완료 / C2 직렬 처리 / C3 일부 누락·혼동 / C4 실패 의 4단계 라벨
  • T_concurrent 결과에서 산출. runs/runs.csv concurrency_label 컬럼 추가
  • 자가 재측정 ICC ≥ 0.7 기대 (단순 분류)
  • 민지 페르소나 핵심 고통 = 컨텍스트 스위칭. 멀티 채널·멀티 이벤트 동시 운영. T_concurrent는 이 페인포인트와 정합.
  • 학습형 vs 셋업형이 컨텍스트 스위칭에서 다르게 무너지는지가 새 변별축. 단발 태스크에서는 안 잡히는 신호.
  • T_burst와 분리한 이유: rate-limit 한도 도달은 같은 5시간 윈도우 안 후속 측정을 모두 오염시킴. 따라서 main 측정 완료 후 D3 늦은 오후 마지막에만 1회. L1 결정에 반영 안 함, 부록 데이터로만.
  • C4(페르소나 모드 강제) 예외: T_burst는 스크립트 호출이 본질이라 자연어 모드로 실행 불가 → 명시적 예외 조항 추가.

이번 턴 cascade:

  • 01-experiment-design.md §6에 카테고리 D(T_concurrent + T_burst) 추가, §9 일정에 D2 오후·D3 늦은 오후 슬롯 추가
  • 02-constraints.md C4에 T_burst 예외, C5에 컨컬런시 측정 분리 명시
  • 07-indicator-spec.md에 I8 6칸 + T_burst 분리 박스 추가
  • 03-sample-report.md §0 핵심 표 + §5.1 사망/생존 표에 I8 행 추가, §7 부록에 F. T_burst 인프라 데이터
  • runs/runs.csv 헤더 확장: track, repeat_pass3_std, assets_count, concurrency_label, note_id 추가
  • runs/burst.csv 신규 (T_burst 결과)
  • scripts/burst_test.sh 신규 — 스텁만 작성, 실제 병렬 송신/응답 수집/p50·p95 latency/429 추적 로직은 미구현 (D3 늦은 오후 실행 직전에 채울 것)

운영상 후속:

  • burst_test.sh 본체 미구현. D3 시점에 도구별 호출 형태(hermes/openclaw/codex CLI)에 맞춰 채워야 함
  • I8 W6의 “직렬 처리 vs 혼동” 라벨 모호성 — D2 오후 첫 측정 직전 라벨 가이드라인 한 줄 더 정제 필요
  • T_concurrent를 data/의 어느 시뮬레이션 데이터에 매칭할지 — D2 오전에 코인토스 후 결정
  • C·E framing 보류 결정(history/28)은 그대로. T_concurrent·T_burst가 framing E(행동 추적)와 가까워 보이지만, passive metric이 아니라 능동 시험이라 별 카테고리
  • T_burst가 한 번이라도 한도 초과하면 그 5시간 후속 작업(예: 다음 날 아침 분석 LLM-as-judge 호출) 차단 → D3 모든 작업이 D3 늦은 오후 burst 전에 끝나 있어야 함. 일정 정렬 강제.
  • I8 자가 재측정만으로는 신뢰성 약함. v2 본 운용에서 평가자 2인 라벨 일치 검증으로 격상.
  • T_concurrent의 “3개 태스크”가 항상 같은 3개여야 비교 가능 — D2 오후 시작 전 코인토스로 한 번 정해 봉인 (그 후 양쪽 도구·양쪽 트랙에서 같은 묶음 반복).