콘텐츠로 이동

[보관] 지표 8개 — 쉬운 버전

통계 용어 없이 쓴 8개 지표 풀이. 깊이 있는 메소드 버전은 07-indicator-spec.md, 용어 풀이는 experiments/glossary-easy.md.

한 줄 요약

“도구를 비교할 때 무엇을 셀 것인가 8가지. 각 지표마다 6가지 질문에 답해야 의미 있는 측정. probe 시리즈 끝에 4종 실패 조건 통과한 것만 v1으로 격상.”

6가지 질문 (지표마다 다 채워야)

칸	질문	비면 위험
W1. 무엇을 잡나	메모로는 못 잡는 어떤 신호?	다른 지표와 중복
W2. 어떻게 측정	누가 재든 같은 숫자 나오게 정확한 룰	측정자마다 달라짐
W3. 어떻게 채집	수동? 자동 로그? 둘 다?	채집 자체가 부담
W4. 믿을 만한가	두 번 매겨서 비슷한가	결과 못 믿음
W5. 변별력 있나	두 도구 차이가 진짜 보이나	”둘 다 비슷”으로 죽음
W6. 함정 있나	이 지표만의 편향	노이즈 따라감

각 지표는 위 6칸을 모두 채움. 한 칸이라도 비면 “측정 불가”로 간주.

I1. 도달 시간 (TTC)

“도구한테 자연어로 시켰을 때 결과물 나올 때까지 걸린 시간(초)“

칸	일상어 풀이
W1	사용자 체감 답답함의 1차 측정
W2	첫 지시 입력부터 결과물 출력까지 (초). 자리 이탈 시간 제외. 스톱워치 수동
W3	사용자 수동 + Claude Code hook 타임스탬프(보조). 두 값 차이 크면 수동 우선
W4	다음 probe 진입 전 raw 1건 다시 보고 시간 재추출 → ±5% 이내면 통과
W5	두 도구 시간 차이가 표준편차 이상이어야 변별 인정
W6	응답이 길수록 자연히 시간 길어짐 → 결과물 점수(I5)랑 같이 봐야 함

I2. 개입 횟수

“한 방에 못 알아들어서 추가로 말한 횟수”

칸	일상어 풀이
W1	자연어 이해도 직접 측정
W2	첫 지시 후 추가로 입력한 수정·재지시 횟수. “응” 같은 단순 확인 제외. 도구가 되묻는 질문에 답한 것은 포함 (= 한 방에 못 알아들었다는 뜻)
W3	raw 로그에서 사용자 발화 수 카운트
W4	다음 probe 진입 전 같은 raw로 재카운트 → ±1 이내
W5	같은 태스크 1회차 vs P3의 3회차에서 횟수가 줄어드는 패턴이 도구별로 다른가
W6	도구가 자체로 자주 되묻는 스타일이면 점수 부풀려짐 → 별도 카운트

I3. 셋업 비용 (분)

“비개발자가 도구 쓸 수 있게 만드는 데 든 시간”

칸	일상어 풀이
W1	비개발자 페르소나엔 결정적 — 이 시간이 길면 도입 자체 불가
W2	P1 시작 전에 스킬 추가·통합 설정·프롬프트 정비에 쓴 분 단위 시간. 도구 사용 자체는 제외. 스톱워치 수동
W3	사용자 수동 기록 + 화면 녹화(사후 검증용)
W4	다음 probe 진입 전 화면 녹화 보고 재측정 → ±10% 이내 (자가 추정이라 신뢰성 낮음 인정)
W5	도구별 0분 vs N분 같은 큰 차이가 기대됨. 차이 안 나면 그 자체가 강한 신호
W6	”셋업”의 정의 모호 → 사전 정의: ① 스킬·명령어 등록 ② 외부 통합 ③ 프롬프트 설정. Hermes는 자동 학습이라 0으로 잡히지만 학습 시간이 다른 곳에 숨음 → I7과 묶어 해석

I4. 셋업 가능 여부 (Y/도움/N)

“비개발자 혼자 셋업했나 vs 도움 받았나 vs 못했나”

칸	일상어 풀이
W1	진입장벽의 이진 표현
W2	P1 시작 전 셋업 완료 시점에 라벨: Y (단독 완료) / 도움 (1~3회 외부 도움) / N (단독 실패)
W3	사용자 자기 평가. “도움” 케이스는 누구·몇 분 도움받았는지 메모 동반
W4	자가 평가 + 화면 녹화 재시청해 라벨 재확인. 1명 평가라 외부 검증 어려움 → 일기로 보완
W5	두 도구 같은 라벨이면 정보가치 0. 갈리면 강력한 발견
W6	”도움”의 정의가 모호 → 도움 카탈로그(`08` §4): 검색·문서는 Y, 사람한테 채팅 질문은 도움, 사람이 직접 해주면 N

I5. 결과물 품질 (1~5)

“결과물이 그대로 쓸 만한가 5점부터 1점까지”

칸	일상어 풀이
W1	빠른데 품질 나쁘면 무가치 — I1만으로 못 잡는 것
W2	5: 그대로 발송 가능 / 4: 1~~2어절 다듬기 / 3: 1~~2문단 재작성 / 2: 절반 이상 재작성 / 1: 폐기
W3	결과물에서 도구 표시 제거 후 평가자 즉시 채점. 다음 probe 진입 전 5건 무작위로 익명·셔플 후 재채점 → 비교
W4	자가 재측정이 비슷하지 않으면(임계 미만) 루브릭 재정의 후 재채점. 진짜 두 사람 비교는 v2에서
W5	같은 태스크에 두 도구 점수 분포가 비슷하면 죽임. 이 지표가 가장 죽기 쉬움
W6	”정성을 정량으로 가장한” 가장 위험한 지표. 사실 오류(객관) + 톤 적합성(주관) 합쳤다 한 점수 — P5에서 두 차원으로 분해 검토

I6. pass^3 일관성 (P3에서 정의 확정)

“같은 일 3번 시켰을 때 다 잘 했나”

칸	일상어 풀이
W1	학습 량 측정은 본 시리즈에선 불가. 학습의 징후(일관성)로 대체
W2	P3 (pass^3)에서 핵심 5태스크 중 2개를 도구별로 3회 연속 (30분 내). 매 회 I5 점수 기록. 지표 = 점수 들쭉날쭉 정도(보조) + 3번 다 ≥4점인 비율(주, P3 채택 시)
W3	I5 데이터에서 자동 계산
W4	I5의 자가 재측정 신뢰성에 의존. 별도 검증 없음
W5	도구별 일관성 차이가 의미 있으면 PASS. 둘 다 100%면 “둘 다 일관”이라는 강한 발견
W6	같은 태스크 반복 시 평가자가 익숙해져 채점이 후해질 수 있음 → 매 회 raw만 보고 채점, 이전 점수 차단

I7. 누적 자산 (probe 시리즈 미측정, v2 후보)

“도구가 시간 지나며 자체 자산을 얼마나 쌓나” — 본 시리즈에선 측정 안 함 (study/14 R1 권고)

칸	일상어 풀이
W1	학습형 vs 셋업형의 본질 — Hermes는 자동 생성, OpenClaw는 사용자 수동 추가
W2	(v2 본 운용에서 측정) Hermes 자동 생성 스킬 수 / OpenClaw 수동 추가 스킬 수. probe 시리즈 9~11일에선 누적량이 작아 의미 없음
W3	(v2) `~/.hermes/skills/`, `~/.openclaw/skills/` 디렉토리 스캔
W4	(v2) 단순 카운트라 자동 통과 기대
W5	두 도구가 다른 형태로 자산 쌓아 직접 비교 어려움 — 절대 수보다 “이 자산이 시간 단축에 기여했나”의 상관이 본 신호
W6	자산 수가 많다고 좋은 게 아님 (= 노이즈 자산 가능). I6과 곱해서 “단위 자산당 시간 단축”으로 정규화 권장

I8. 컨컬런시 견고성 (4단계 라벨)

“한 메시지에 다른 태스크 3개 한꺼번에 던졌을 때 어떻게 무너지나”

칸	일상어 풀이
W1	민지 페르소나 핵심 고통(컨텍스트 스위칭)에 직결. 학습형 vs 셋업형이 멀티태스크에서 다르게 무너지는지 변별축
W2	T_concurrent — Track A·B 각각 1 probe에서 도구별 1회. 한 메시지로 다른 카테고리 태스크 3개 (예: T1+T3+T7). 라벨: C1 모두 완료 / C2 직렬 처리 (도구가 자기 의지로 순서대로) / C3 일부 누락·혼동 / C4 실패
W3	평가자가 결과물 보고 라벨 결정. CSV에 `concurrency_label` 컬럼, T_concurrent 행만
W4	자가 재측정. 4단계 분류라 일치도 높을 거 기대
W5	두 도구 같은 라벨이면 변별 못 함. 갈리면 강한 발견 — 컨텍스트 스위칭에서 학습형이 우세인지 셋업형이 우세인지 답
W6	”직렬 처리”를 “혼동”으로 잘못 라벨 가능 — 도구가 명시적으로 “순서대로 처리할게요” 했으면 C2, 안내 없이 결과만 섞이면 C3. 메모로 동반 보강

별도 부록: T_burst — 인프라 측정. 도구별로 짧은 시간에 N=10·20·50개 동시 요청 → 한도 도달·throttle 행동. 모든 probe·main 측정·L1·L2·L3 작성 끝난 후 마지막 1회. 결과는 부록 F로만, L1 결정에 안 반영.

사망·생존·수정·승격 (4가지 분류)

각 probe 종료 직후·다음 probe 진입 전·P9 통합 분석 시 8개 지표를 분류:

분류	조건	액션
생존	신뢰성·변별력 둘 다 통과	v1에 그대로
수정	둘 중 하나 실패하지만 W6 함정에 걸린 거 같음	정의 보정 후 다음 probe·Track B에서 재시도
사망	둘 다 실패, 또는 메모와 정반대 결론	v1에서 제거. 사망 사유 리포트에 기록
승격	사전엔 없었는데 메모·raw에서 반복 등장	v2 후보로 등록

probe 종료 직후 5개 이상 사망 → 자동 분기 트리거: 다음 probe를 메모 비중 70%로 전환 (P4 채택 시 임계 3개로 완화).

본 페이지 vs `07-indicator-spec.md` (메소드 버전)

본 페이지 (쉬운)	`07-indicator-spec.md` (메소드)
8개 지표를 일상어로 풀이	TTC·κ·ICC·σ 등 정확 정의
빠른 의사결정용	학술·재현 키트 정확성

정의 충돌 시 메소드 버전 우선.