[보관] 지표 8개 — 쉬운 버전
통계 용어 없이 쓴 8개 지표 풀이. 깊이 있는 메소드 버전은
07-indicator-spec.md, 용어 풀이는experiments/glossary-easy.md.
한 줄 요약
섹션 제목: “한 줄 요약”“도구를 비교할 때 무엇을 셀 것인가 8가지. 각 지표마다 6가지 질문에 답해야 의미 있는 측정. probe 시리즈 끝에 4종 실패 조건 통과한 것만 v1으로 격상.”
6가지 질문 (지표마다 다 채워야)
섹션 제목: “6가지 질문 (지표마다 다 채워야)”| 칸 | 질문 | 비면 위험 |
|---|---|---|
| W1. 무엇을 잡나 | 메모로는 못 잡는 어떤 신호? | 다른 지표와 중복 |
| W2. 어떻게 측정 | 누가 재든 같은 숫자 나오게 정확한 룰 | 측정자마다 달라짐 |
| W3. 어떻게 채집 | 수동? 자동 로그? 둘 다? | 채집 자체가 부담 |
| W4. 믿을 만한가 | 두 번 매겨서 비슷한가 | 결과 못 믿음 |
| W5. 변별력 있나 | 두 도구 차이가 진짜 보이나 | ”둘 다 비슷”으로 죽음 |
| W6. 함정 있나 | 이 지표만의 편향 | 노이즈 따라감 |
각 지표는 위 6칸을 모두 채움. 한 칸이라도 비면 “측정 불가”로 간주.
I1. 도달 시간 (TTC)
섹션 제목: “I1. 도달 시간 (TTC)”“도구한테 자연어로 시켰을 때 결과물 나올 때까지 걸린 시간(초)“
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 사용자 체감 답답함의 1차 측정 |
| W2 | 첫 지시 입력부터 결과물 출력까지 (초). 자리 이탈 시간 제외. 스톱워치 수동 |
| W3 | 사용자 수동 + Claude Code hook 타임스탬프(보조). 두 값 차이 크면 수동 우선 |
| W4 | 다음 probe 진입 전 raw 1건 다시 보고 시간 재추출 → ±5% 이내면 통과 |
| W5 | 두 도구 시간 차이가 표준편차 이상이어야 변별 인정 |
| W6 | 응답이 길수록 자연히 시간 길어짐 → 결과물 점수(I5)랑 같이 봐야 함 |
I2. 개입 횟수
섹션 제목: “I2. 개입 횟수”“한 방에 못 알아들어서 추가로 말한 횟수”
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 자연어 이해도 직접 측정 |
| W2 | 첫 지시 후 추가로 입력한 수정·재지시 횟수. “응” 같은 단순 확인 제외. 도구가 되묻는 질문에 답한 것은 포함 (= 한 방에 못 알아들었다는 뜻) |
| W3 | raw 로그에서 사용자 발화 수 카운트 |
| W4 | 다음 probe 진입 전 같은 raw로 재카운트 → ±1 이내 |
| W5 | 같은 태스크 1회차 vs P3의 3회차에서 횟수가 줄어드는 패턴이 도구별로 다른가 |
| W6 | 도구가 자체로 자주 되묻는 스타일이면 점수 부풀려짐 → 별도 카운트 |
I3. 셋업 비용 (분)
섹션 제목: “I3. 셋업 비용 (분)”“비개발자가 도구 쓸 수 있게 만드는 데 든 시간”
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 비개발자 페르소나엔 결정적 — 이 시간이 길면 도입 자체 불가 |
| W2 | P1 시작 전에 스킬 추가·통합 설정·프롬프트 정비에 쓴 분 단위 시간. 도구 사용 자체는 제외. 스톱워치 수동 |
| W3 | 사용자 수동 기록 + 화면 녹화(사후 검증용) |
| W4 | 다음 probe 진입 전 화면 녹화 보고 재측정 → ±10% 이내 (자가 추정이라 신뢰성 낮음 인정) |
| W5 | 도구별 0분 vs N분 같은 큰 차이가 기대됨. 차이 안 나면 그 자체가 강한 신호 |
| W6 | ”셋업”의 정의 모호 → 사전 정의: ① 스킬·명령어 등록 ② 외부 통합 ③ 프롬프트 설정. Hermes는 자동 학습이라 0으로 잡히지만 학습 시간이 다른 곳에 숨음 → I7과 묶어 해석 |
I4. 셋업 가능 여부 (Y/도움/N)
섹션 제목: “I4. 셋업 가능 여부 (Y/도움/N)”“비개발자 혼자 셋업했나 vs 도움 받았나 vs 못했나”
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 진입장벽의 이진 표현 |
| W2 | P1 시작 전 셋업 완료 시점에 라벨: Y (단독 완료) / 도움 (1~3회 외부 도움) / N (단독 실패) |
| W3 | 사용자 자기 평가. “도움” 케이스는 누구·몇 분 도움받았는지 메모 동반 |
| W4 | 자가 평가 + 화면 녹화 재시청해 라벨 재확인. 1명 평가라 외부 검증 어려움 → 일기로 보완 |
| W5 | 두 도구 같은 라벨이면 정보가치 0. 갈리면 강력한 발견 |
| W6 | ”도움”의 정의가 모호 → 도움 카탈로그(08 §4): 검색·문서는 Y, 사람한테 채팅 질문은 도움, 사람이 직접 해주면 N |
I5. 결과물 품질 (1~5)
섹션 제목: “I5. 결과물 품질 (1~5)”“결과물이 그대로 쓸 만한가 5점부터 1점까지”
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 빠른데 품질 나쁘면 무가치 — I1만으로 못 잡는 것 |
| W2 | 5: 그대로 발송 가능 / 4: 1 |
| W3 | 결과물에서 도구 표시 제거 후 평가자 즉시 채점. 다음 probe 진입 전 5건 무작위로 익명·셔플 후 재채점 → 비교 |
| W4 | 자가 재측정이 비슷하지 않으면(임계 미만) 루브릭 재정의 후 재채점. 진짜 두 사람 비교는 v2에서 |
| W5 | 같은 태스크에 두 도구 점수 분포가 비슷하면 죽임. 이 지표가 가장 죽기 쉬움 |
| W6 | ”정성을 정량으로 가장한” 가장 위험한 지표. 사실 오류(객관) + 톤 적합성(주관) 합쳤다 한 점수 — P5에서 두 차원으로 분해 검토 |
I6. pass^3 일관성 (P3에서 정의 확정)
섹션 제목: “I6. pass^3 일관성 (P3에서 정의 확정)”“같은 일 3번 시켰을 때 다 잘 했나”
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 학습 량 측정은 본 시리즈에선 불가. 학습의 징후(일관성)로 대체 |
| W2 | P3 (pass^3)에서 핵심 5태스크 중 2개를 도구별로 3회 연속 (30분 내). 매 회 I5 점수 기록. 지표 = 점수 들쭉날쭉 정도(보조) + 3번 다 ≥4점인 비율(주, P3 채택 시) |
| W3 | I5 데이터에서 자동 계산 |
| W4 | I5의 자가 재측정 신뢰성에 의존. 별도 검증 없음 |
| W5 | 도구별 일관성 차이가 의미 있으면 PASS. 둘 다 100%면 “둘 다 일관”이라는 강한 발견 |
| W6 | 같은 태스크 반복 시 평가자가 익숙해져 채점이 후해질 수 있음 → 매 회 raw만 보고 채점, 이전 점수 차단 |
I7. 누적 자산 (probe 시리즈 미측정, v2 후보)
섹션 제목: “I7. 누적 자산 (probe 시리즈 미측정, v2 후보)”“도구가 시간 지나며 자체 자산을 얼마나 쌓나” — 본 시리즈에선 측정 안 함 (study/14 R1 권고)
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 학습형 vs 셋업형의 본질 — Hermes는 자동 생성, OpenClaw는 사용자 수동 추가 |
| W2 | (v2 본 운용에서 측정) Hermes 자동 생성 스킬 수 / OpenClaw 수동 추가 스킬 수. probe 시리즈 9~11일에선 누적량이 작아 의미 없음 |
| W3 | (v2) ~/.hermes/skills/, ~/.openclaw/skills/ 디렉토리 스캔 |
| W4 | (v2) 단순 카운트라 자동 통과 기대 |
| W5 | 두 도구가 다른 형태로 자산 쌓아 직접 비교 어려움 — 절대 수보다 “이 자산이 시간 단축에 기여했나”의 상관이 본 신호 |
| W6 | 자산 수가 많다고 좋은 게 아님 (= 노이즈 자산 가능). I6과 곱해서 “단위 자산당 시간 단축”으로 정규화 권장 |
I8. 컨컬런시 견고성 (4단계 라벨)
섹션 제목: “I8. 컨컬런시 견고성 (4단계 라벨)”“한 메시지에 다른 태스크 3개 한꺼번에 던졌을 때 어떻게 무너지나”
| 칸 | 일상어 풀이 |
|---|---|
| W1 | 민지 페르소나 핵심 고통(컨텍스트 스위칭)에 직결. 학습형 vs 셋업형이 멀티태스크에서 다르게 무너지는지 변별축 |
| W2 | T_concurrent — Track A·B 각각 1 probe에서 도구별 1회. 한 메시지로 다른 카테고리 태스크 3개 (예: T1+T3+T7). 라벨: C1 모두 완료 / C2 직렬 처리 (도구가 자기 의지로 순서대로) / C3 일부 누락·혼동 / C4 실패 |
| W3 | 평가자가 결과물 보고 라벨 결정. CSV에 concurrency_label 컬럼, T_concurrent 행만 |
| W4 | 자가 재측정. 4단계 분류라 일치도 높을 거 기대 |
| W5 | 두 도구 같은 라벨이면 변별 못 함. 갈리면 강한 발견 — 컨텍스트 스위칭에서 학습형이 우세인지 셋업형이 우세인지 답 |
| W6 | ”직렬 처리”를 “혼동”으로 잘못 라벨 가능 — 도구가 명시적으로 “순서대로 처리할게요” 했으면 C2, 안내 없이 결과만 섞이면 C3. 메모로 동반 보강 |
별도 부록: T_burst — 인프라 측정. 도구별로 짧은 시간에 N=10·20·50개 동시 요청 → 한도 도달·throttle 행동. 모든 probe·main 측정·L1·L2·L3 작성 끝난 후 마지막 1회. 결과는 부록 F로만, L1 결정에 안 반영.
사망·생존·수정·승격 (4가지 분류)
섹션 제목: “사망·생존·수정·승격 (4가지 분류)”각 probe 종료 직후·다음 probe 진입 전·P9 통합 분석 시 8개 지표를 분류:
| 분류 | 조건 | 액션 |
|---|---|---|
| 생존 | 신뢰성·변별력 둘 다 통과 | v1에 그대로 |
| 수정 | 둘 중 하나 실패하지만 W6 함정에 걸린 거 같음 | 정의 보정 후 다음 probe·Track B에서 재시도 |
| 사망 | 둘 다 실패, 또는 메모와 정반대 결론 | v1에서 제거. 사망 사유 리포트에 기록 |
| 승격 | 사전엔 없었는데 메모·raw에서 반복 등장 | v2 후보로 등록 |
probe 종료 직후 5개 이상 사망 → 자동 분기 트리거: 다음 probe를 메모 비중 70%로 전환 (P4 채택 시 임계 3개로 완화).
본 페이지 vs 07-indicator-spec.md (메소드 버전)
섹션 제목: “본 페이지 vs 07-indicator-spec.md (메소드 버전)”| 본 페이지 (쉬운) | 07-indicator-spec.md (메소드) |
|---|---|
| 8개 지표를 일상어로 풀이 | TTC·κ·ICC·σ 등 정확 정의 |
| 빠른 의사결정용 | 학술·재현 키트 정확성 |
정의 충돌 시 메소드 버전 우선.