콘텐츠로 이동

[보관] 지표 8개 — 쉬운 버전

통계 용어 없이 쓴 8개 지표 풀이. 깊이 있는 메소드 버전은 07-indicator-spec.md, 용어 풀이는 experiments/glossary-easy.md.

“도구를 비교할 때 무엇을 셀 것인가 8가지. 각 지표마다 6가지 질문에 답해야 의미 있는 측정. probe 시리즈 끝에 4종 실패 조건 통과한 것만 v1으로 격상.”


6가지 질문 (지표마다 다 채워야)

섹션 제목: “6가지 질문 (지표마다 다 채워야)”
질문비면 위험
W1. 무엇을 잡나메모로는 못 잡는 어떤 신호?다른 지표와 중복
W2. 어떻게 측정누가 재든 같은 숫자 나오게 정확한 룰측정자마다 달라짐
W3. 어떻게 채집수동? 자동 로그? 둘 다?채집 자체가 부담
W4. 믿을 만한가두 번 매겨서 비슷한가결과 못 믿음
W5. 변별력 있나두 도구 차이가 진짜 보이나”둘 다 비슷”으로 죽음
W6. 함정 있나이 지표만의 편향노이즈 따라감

각 지표는 위 6칸을 모두 채움. 한 칸이라도 비면 “측정 불가”로 간주.


“도구한테 자연어로 시켰을 때 결과물 나올 때까지 걸린 시간(초)“

일상어 풀이
W1사용자 체감 답답함의 1차 측정
W2첫 지시 입력부터 결과물 출력까지 (초). 자리 이탈 시간 제외. 스톱워치 수동
W3사용자 수동 + Claude Code hook 타임스탬프(보조). 두 값 차이 크면 수동 우선
W4다음 probe 진입 전 raw 1건 다시 보고 시간 재추출 → ±5% 이내면 통과
W5두 도구 시간 차이가 표준편차 이상이어야 변별 인정
W6응답이 길수록 자연히 시간 길어짐 → 결과물 점수(I5)랑 같이 봐야 함

“한 방에 못 알아들어서 추가로 말한 횟수

일상어 풀이
W1자연어 이해도 직접 측정
W2첫 지시 후 추가로 입력한 수정·재지시 횟수. “응” 같은 단순 확인 제외. 도구가 되묻는 질문에 답한 것은 포함 (= 한 방에 못 알아들었다는 뜻)
W3raw 로그에서 사용자 발화 수 카운트
W4다음 probe 진입 전 같은 raw로 재카운트 → ±1 이내
W5같은 태스크 1회차 vs P3의 3회차에서 횟수가 줄어드는 패턴이 도구별로 다른가
W6도구가 자체로 자주 되묻는 스타일이면 점수 부풀려짐 → 별도 카운트

“비개발자가 도구 쓸 수 있게 만드는 데 든 시간”

일상어 풀이
W1비개발자 페르소나엔 결정적 — 이 시간이 길면 도입 자체 불가
W2P1 시작 전에 스킬 추가·통합 설정·프롬프트 정비에 쓴 분 단위 시간. 도구 사용 자체는 제외. 스톱워치 수동
W3사용자 수동 기록 + 화면 녹화(사후 검증용)
W4다음 probe 진입 전 화면 녹화 보고 재측정 → ±10% 이내 (자가 추정이라 신뢰성 낮음 인정)
W5도구별 0분 vs N분 같은 큰 차이가 기대됨. 차이 안 나면 그 자체가 강한 신호
W6”셋업”의 정의 모호 → 사전 정의: ① 스킬·명령어 등록 ② 외부 통합 ③ 프롬프트 설정. Hermes는 자동 학습이라 0으로 잡히지만 학습 시간이 다른 곳에 숨음 → I7과 묶어 해석

“비개발자 혼자 셋업했나 vs 도움 받았나 vs 못했나”

일상어 풀이
W1진입장벽의 이진 표현
W2P1 시작 전 셋업 완료 시점에 라벨: Y (단독 완료) / 도움 (1~3회 외부 도움) / N (단독 실패)
W3사용자 자기 평가. “도움” 케이스는 누구·몇 분 도움받았는지 메모 동반
W4자가 평가 + 화면 녹화 재시청해 라벨 재확인. 1명 평가라 외부 검증 어려움 → 일기로 보완
W5두 도구 같은 라벨이면 정보가치 0. 갈리면 강력한 발견
W6”도움”의 정의가 모호 → 도움 카탈로그(08 §4): 검색·문서는 Y, 사람한테 채팅 질문은 도움, 사람이 직접 해주면 N

“결과물이 그대로 쓸 만한가 5점부터 1점까지”

일상어 풀이
W1빠른데 품질 나쁘면 무가치 — I1만으로 못 잡는 것
W25: 그대로 발송 가능 / 4: 12어절 다듬기 / 3: 12문단 재작성 / 2: 절반 이상 재작성 / 1: 폐기
W3결과물에서 도구 표시 제거 후 평가자 즉시 채점. 다음 probe 진입 전 5건 무작위로 익명·셔플 후 재채점 → 비교
W4자가 재측정이 비슷하지 않으면(임계 미만) 루브릭 재정의 후 재채점. 진짜 두 사람 비교는 v2에서
W5같은 태스크에 두 도구 점수 분포가 비슷하면 죽임. 이 지표가 가장 죽기 쉬움
W6”정성을 정량으로 가장한” 가장 위험한 지표. 사실 오류(객관) + 톤 적합성(주관) 합쳤다 한 점수 — P5에서 두 차원으로 분해 검토

I6. pass^3 일관성 (P3에서 정의 확정)

섹션 제목: “I6. pass^3 일관성 (P3에서 정의 확정)”

“같은 일 3번 시켰을 때 다 잘 했나”

일상어 풀이
W1학습 측정은 본 시리즈에선 불가. 학습의 징후(일관성)로 대체
W2P3 (pass^3)에서 핵심 5태스크 중 2개를 도구별로 3회 연속 (30분 내). 매 회 I5 점수 기록. 지표 = 점수 들쭉날쭉 정도(보조) + 3번 다 ≥4점인 비율(주, P3 채택 시)
W3I5 데이터에서 자동 계산
W4I5의 자가 재측정 신뢰성에 의존. 별도 검증 없음
W5도구별 일관성 차이가 의미 있으면 PASS. 둘 다 100%면 “둘 다 일관”이라는 강한 발견
W6같은 태스크 반복 시 평가자가 익숙해져 채점이 후해질 수 있음 → 매 회 raw만 보고 채점, 이전 점수 차단

I7. 누적 자산 (probe 시리즈 미측정, v2 후보)

섹션 제목: “I7. 누적 자산 (probe 시리즈 미측정, v2 후보)”

“도구가 시간 지나며 자체 자산을 얼마나 쌓나” — 본 시리즈에선 측정 안 함 (study/14 R1 권고)

일상어 풀이
W1학습형 vs 셋업형의 본질 — Hermes는 자동 생성, OpenClaw는 사용자 수동 추가
W2(v2 본 운용에서 측정) Hermes 자동 생성 스킬 수 / OpenClaw 수동 추가 스킬 수. probe 시리즈 9~11일에선 누적량이 작아 의미 없음
W3(v2) ~/.hermes/skills/, ~/.openclaw/skills/ 디렉토리 스캔
W4(v2) 단순 카운트라 자동 통과 기대
W5두 도구가 다른 형태로 자산 쌓아 직접 비교 어려움 — 절대 수보다 “이 자산이 시간 단축에 기여했나”의 상관이 본 신호
W6자산 수가 많다고 좋은 게 아님 (= 노이즈 자산 가능). I6과 곱해서 “단위 자산당 시간 단축”으로 정규화 권장

I8. 컨컬런시 견고성 (4단계 라벨)

섹션 제목: “I8. 컨컬런시 견고성 (4단계 라벨)”

“한 메시지에 다른 태스크 3개 한꺼번에 던졌을 때 어떻게 무너지나”

일상어 풀이
W1민지 페르소나 핵심 고통(컨텍스트 스위칭)에 직결. 학습형 vs 셋업형이 멀티태스크에서 다르게 무너지는지 변별축
W2T_concurrent — Track A·B 각각 1 probe에서 도구별 1회. 한 메시지로 다른 카테고리 태스크 3개 (예: T1+T3+T7). 라벨: C1 모두 완료 / C2 직렬 처리 (도구가 자기 의지로 순서대로) / C3 일부 누락·혼동 / C4 실패
W3평가자가 결과물 보고 라벨 결정. CSV에 concurrency_label 컬럼, T_concurrent 행만
W4자가 재측정. 4단계 분류라 일치도 높을 거 기대
W5두 도구 같은 라벨이면 변별 못 함. 갈리면 강한 발견 — 컨텍스트 스위칭에서 학습형이 우세인지 셋업형이 우세인지 답
W6”직렬 처리”를 “혼동”으로 잘못 라벨 가능 — 도구가 명시적으로 “순서대로 처리할게요” 했으면 C2, 안내 없이 결과만 섞이면 C3. 메모로 동반 보강

별도 부록: T_burst — 인프라 측정. 도구별로 짧은 시간에 N=10·20·50개 동시 요청 → 한도 도달·throttle 행동. 모든 probe·main 측정·L1·L2·L3 작성 끝난 마지막 1회. 결과는 부록 F로만, L1 결정에 안 반영.


사망·생존·수정·승격 (4가지 분류)

섹션 제목: “사망·생존·수정·승격 (4가지 분류)”

각 probe 종료 직후·다음 probe 진입 전·P9 통합 분석 시 8개 지표를 분류:

분류조건액션
생존신뢰성·변별력 둘 다 통과v1에 그대로
수정둘 중 하나 실패하지만 W6 함정에 걸린 거 같음정의 보정 후 다음 probe·Track B에서 재시도
사망둘 다 실패, 또는 메모와 정반대 결론v1에서 제거. 사망 사유 리포트에 기록
승격사전엔 없었는데 메모·raw에서 반복 등장v2 후보로 등록

probe 종료 직후 5개 이상 사망 → 자동 분기 트리거: 다음 probe를 메모 비중 70%로 전환 (P4 채택 시 임계 3개로 완화).


본 페이지 vs 07-indicator-spec.md (메소드 버전)

섹션 제목: “본 페이지 vs 07-indicator-spec.md (메소드 버전)”
본 페이지 (쉬운)07-indicator-spec.md (메소드)
8개 지표를 일상어로 풀이TTC·κ·ICC·σ 등 정확 정의
빠른 의사결정용학술·재현 키트 정확성

정의 충돌 시 메소드 버전 우선.