[보관] 29 — 컨컬런시 테스트 추가 (T_concurrent + T_burst)
시각: 2026-04-28 ~12:30 KST 컨텍스트: 3일 파일럿 cascade 직후, 사용자가 새 평가 축 추가
무엇이 있었나
섹션 제목: “무엇이 있었나”사용자 요청: “동시 다발적으로 보내는거 테스트해보고 싶어” → AI가 (a) rate-limit burst와 (b) multi-task 병행 두 갈래 제시 → 사용자 결정: 둘 다 채택.
추가된 항목:
| 종류 | 형태 | 어디에 들어가나 |
|---|---|---|
| T_concurrent | 한 도구에 다른 카테고리 태스크 3개를 한 메시지로 던짐 (예: T1+T3+T7). 도구가 어떻게 처리하는지 라벨 4단계 | 새 태스크 카테고리 D, 페르소나 모드 OK |
| T_burst | 도구별로 짧은 시간(예: 1분)에 N=10·20·50개 동일 요청 병렬 송신 → 429·throttle 행동 | 인프라 테스트, 페르소나 모드 외부, 스크립트(scripts/burst_test.sh), main 측정 종료 후 마지막 1회 |
새 지표 I8. 컨컬런시 견고성:
- C1 모두 완료 / C2 직렬 처리 / C3 일부 누락·혼동 / C4 실패 의 4단계 라벨
- T_concurrent 결과에서 산출.
runs/runs.csvconcurrency_label컬럼 추가 - 자가 재측정 ICC ≥ 0.7 기대 (단순 분류)
왜 그렇게 갔나
섹션 제목: “왜 그렇게 갔나”- 민지 페르소나 핵심 고통 = 컨텍스트 스위칭. 멀티 채널·멀티 이벤트 동시 운영. T_concurrent는 이 페인포인트와 정합.
- 학습형 vs 셋업형이 컨텍스트 스위칭에서 다르게 무너지는지가 새 변별축. 단발 태스크에서는 안 잡히는 신호.
- T_burst와 분리한 이유: rate-limit 한도 도달은 같은 5시간 윈도우 안 후속 측정을 모두 오염시킴. 따라서 main 측정 완료 후 D3 늦은 오후 마지막에만 1회. L1 결정에 반영 안 함, 부록 데이터로만.
- C4(페르소나 모드 강제) 예외: T_burst는 스크립트 호출이 본질이라 자연어 모드로 실행 불가 → 명시적 예외 조항 추가.
무엇이 남았나
섹션 제목: “무엇이 남았나”이번 턴 cascade:
01-experiment-design.md§6에 카테고리 D(T_concurrent + T_burst) 추가, §9 일정에 D2 오후·D3 늦은 오후 슬롯 추가02-constraints.mdC4에 T_burst 예외, C5에 컨컬런시 측정 분리 명시07-indicator-spec.md에 I8 6칸 + T_burst 분리 박스 추가03-sample-report.md§0 핵심 표 + §5.1 사망/생존 표에 I8 행 추가, §7 부록에 F. T_burst 인프라 데이터runs/runs.csv헤더 확장:track,repeat_pass3_std,assets_count,concurrency_label,note_id추가runs/burst.csv신규 (T_burst 결과)scripts/burst_test.sh신규 — 스텁만 작성, 실제 병렬 송신/응답 수집/p50·p95 latency/429 추적 로직은 미구현 (D3 늦은 오후 실행 직전에 채울 것)
운영상 후속:
burst_test.sh본체 미구현. D3 시점에 도구별 호출 형태(hermes/openclaw/codex CLI)에 맞춰 채워야 함- I8 W6의 “직렬 처리 vs 혼동” 라벨 모호성 — D2 오후 첫 측정 직전 라벨 가이드라인 한 줄 더 정제 필요
- T_concurrent를
data/의 어느 시뮬레이션 데이터에 매칭할지 — D2 오전에 코인토스 후 결정 - C·E framing 보류 결정(history/28)은 그대로. T_concurrent·T_burst가 framing E(행동 추적)와 가까워 보이지만, passive metric이 아니라 능동 시험이라 별 카테고리
알려진 위험
섹션 제목: “알려진 위험”- T_burst가 한 번이라도 한도 초과하면 그 5시간 후속 작업(예: 다음 날 아침 분석 LLM-as-judge 호출) 차단 → D3 모든 작업이 D3 늦은 오후 burst 전에 끝나 있어야 함. 일정 정렬 강제.
- I8 자가 재측정만으로는 신뢰성 약함. v2 본 운용에서 평가자 2인 라벨 일치 검증으로 격상.
- T_concurrent의 “3개 태스크”가 항상 같은 3개여야 비교 가능 — D2 오후 시작 전 코인토스로 한 번 정해 봉인 (그 후 양쪽 도구·양쪽 트랙에서 같은 묶음 반복).