AI 에이전트 통증 랜드스케이프 — E 시리즈 진입 지도
상태: 초안 (v0.1). 본 시리즈는 발전형 — 11개 클러스터 분류·우선순위·진입 순서는 모두 시작점이지 고정 명세가 아님. E_n 진행 중 발견에 따라 자유롭게 재정렬·재정의 (단 변경 시
history/에 commit).
배경 및 목적
섹션 제목: “배경 및 목적”AI 에이전트를 쓰는 사람들이 자주 토로하는 통증(“왜 AI가 기억을 못해”, “왜 슬랙 연동을 이렇게 못해”, “자신 있게 틀려”) — 이 통증을 측정 가능한 실험으로 변환하는 것이 본 시리즈의 목적이다.
본 E(experience-driven) 시리즈는 사용자 통증을 실험 단위로 삼는다. 11개 통증 클러스터 중 사용자 발화에 직접 닿는 것부터 순차 실험화한다. 측정 도구·메트릭·룰은 통증 검증의 도구이지 그 자체가 검증 대상이 아니다.
본 랜드스케이프 문서가 끝나면:
- E 시리즈에 어떤 실험이 들어가고 어떤 순서로 가는지 한 페이지에 박힘
- 각 E_n이 어느 통증을 검증하는지 사전에 명시 → 사후 가설 점프 차단
- 본 페르소나(민지·커뮤니티 운영) 외 청중에게도 시리즈 의도 전달 가능
업무 수행
섹션 제목: “업무 수행”본 페이지가 다루는 11개 통증 클러스터를 §부록 A에 카드 형태로 보존. E_n 진입 시 해당 카드 → experiments/E{n}/00-plan.md로 확장.
각 E_n 공식 템플릿: 배경 및 목적 / 의의 / 업무 수행 / 결과 비교 매트릭스 4섹션. C-제약·반증 조건은 부록으로. 비교 매트릭스 행은 사전 정의 행 + 사후 발견 행 분리 표시 (사후 합리화 가시화).
결과 비교 매트릭스 — 우선순위 결정
섹션 제목: “결과 비교 매트릭스 — 우선순위 결정”| # | 통증 클러스터 | 사용자 직접 발화? | 페르소나 적합도 | 측정 난이도 | 진입 순서 |
|---|---|---|---|---|---|
| 1 | 메모리 / 연속성 | 직접 | 높 | 중 | E1 |
| 2 | 외부 통합 / 도구 사용 | 직접 | 높 | 중 | E2 |
| 7 | 톤 / 형식 / 커뮤니케이션 | 직접 | 높 | 낮 | E3 |
| 4 | 의도 이해 / 시작 정렬 | 간접 | 높 | 높 | E4 후보 |
| 3 | 신뢰성 / 환각 | 간접 | 중 | 높 | 보류 |
| 5 | 멈춤 시점 / 종료 판단 | 간접 | 중 | 중 | 보류 |
| 6 | 일관성 / 재현성 | 간접 | 중 | 높 | 보류 |
| 8 | 예측 가능성 / 통제 | 간접 | 중 | 중 | 보류 |
| 9 | 다단계 / 장기 task | 간접 | 중 | 높 | 보류 |
| 10 | 거부 / 경계 | 간접 | 낮 | 중 | 보류 |
| 11 | 발견 가능성 / 온보딩 | 간접 | 중 | 중 | 보류 |
진입 룰: E1–E3 결과 보고 E4 이후 결정. 트리식 — 앞 E의 결과가 다음 E 설계를 흔들면 보류 클러스터를 끌어올릴 수 있음.
부록 A. 통증 클러스터 카드 (11개)
섹션 제목: “부록 A. 통증 클러스터 카드 (11개)”각 카드 = [원시 발화 / 진짜 질문 / 세부 분기]. E_n 진입 시 해당 카드를 시작점으로 §배경 및 목적 확장.
1. 메모리 / 연속성
섹션 제목: “1. 메모리 / 연속성”- 원시 발화: “왜 기억을 못해”, “어제 알려준 거 또 설명해야 돼”, “내 취향이 안 쌓여”
- 진짜 질문: 무엇이 누적되어야 하고, 언제 꺼내야 하나
- 세부 분기: 세션 간 망각 / 같은 세션 안에서 망각(컨텍스트 윈도우) / 페르소나 누적 안 됨 / 메모리는 있는데 발동 안 됨
2. 외부 통합 / 도구 사용
섹션 제목: “2. 외부 통합 / 도구 사용”- 원시 발화: “왜 슬랙 연동을 이렇게 못해”, “권한 한 번 걸면 다음에 또 막혀”, “API 호출 실패하면 그냥 멈춤”
- 진짜 질문: 능력 부재 / setup 부재 / 판단 부재 / 복원력 부재 중 어디가 실패점
- 세부 분기: 인증·권한 / 호출 파라미터 변환 / 에러 복원 / 호출 해야 함을 인식
3. 신뢰성 / 환각
섹션 제목: “3. 신뢰성 / 환각”- 원시 발화: “자신 있게 틀려”, “있지도 않은 함수를 부르네”, “확인 없이 그냥 만들어내”
- 진짜 질문: 모르는 걸 모른다고 말하는 능력은 어떻게 측정·교정하나
- 세부 분기: 사실 환각 / 코드 환각(존재하지 않는 API) / 합의 환각 (“우리가 그렇게 정했지” 거짓 회상)
4. 의도 이해 / 시작 시점 정렬
섹션 제목: “4. 의도 이해 / 시작 시점 정렬”- 원시 발화: “내 말을 못 알아들어”, “X 해달랬는데 Y를 함”, “예시 하나만 줬는데 왜 그렇게 일반화했어”
- 진짜 질문: 모호한 자연어 → 행동 변환의 어디서 미스가 발생하나
- 세부 분기: 첫 턴 의도 파악 / 암묵적 제약(말 안 한 것) / 예시 일반화 / 페르소나 추정
5. 멈춤 시점 / 종료 판단
섹션 제목: “5. 멈춤 시점 / 종료 판단”- 원시 발화: “너무 일찍 멈춰” / “너무 멀리 갔어”, “끝났다고 말하지 마, 안 끝났는데”
- 진짜 질문: “충분히 했다”의 신호를 도구가 어떻게 감지하나
- 세부 분기: 조기 종료 / 과잉 진행 / 완료 주장 vs 실제 완료 / 중간 멈춤(갈피 잃음)
6. 일관성 / 재현성
섹션 제목: “6. 일관성 / 재현성”- 원시 발화: “같은 거 시켰는데 다른 답이 나와”, “어제 됐는데 오늘 안 돼”, “버전 올렸더니 갑자기 다르게 행동”
- 진짜 질문: 비결정성을 어디까지 허용하고 어디부터 버그로 보나
- 세부 분기: 같은 입력 분산 / 시간 경과 후 변화 / 모델 버전 차이 / 컨텍스트 누출
7. 톤 / 형식 / 커뮤니케이션
섹션 제목: “7. 톤 / 형식 / 커뮤니케이션”- 원시 발화: “너무 사근사근해” / “너무 딱딱해”, “마크다운으로 답하지 마”, “쓸데없이 길어”
- 진짜 질문: 출력 형식 제어가 지속적으로 되나, 한 번 지시하면 유지되나
- 세부 분기: 길이 / 포맷(마크다운·번호) / 톤(반말·존댓말·이모지) / 사과·아첨 / 자기 부정
8. 예측 가능성 / 통제
섹션 제목: “8. 예측 가능성 / 통제”- 원시 발화: “돌리기 전에 뭐 할지 모르겠어”, “중간에 멈출 수가 없어”, “뭐 했는지 다시 보기 어려워”
- 진짜 질문: 사용자가 행동 전·중·후 어느 시점에 개입·감사 가능한가
- 세부 분기: 사전 가시성 / 실행 중 개입 / 사후 감사 / 거부·확인 인터페이스
9. 다단계 / 장기 task
섹션 제목: “9. 다단계 / 장기 task”- 원시 발화: “복잡한 일은 못 해”, “처음 1단계만 잘하고 무너져”, “전체 목표를 잊어버려”
- 진짜 질문: task 길이·단계 수와 성공률의 관계, 어느 길이부터 무너지나
- 세부 분기: 계획 수립 / 계획 실행 / 중간 점검 / 부분 실패 후 재계획
10. 거부 / 경계 (Over-/Under-refusal)
섹션 제목: “10. 거부 / 경계 (Over-/Under-refusal)”- 원시 발화: “왜 이거를 못 하겠대” / “이건 거부해야 하는 거 아니야?”
- 진짜 질문: 거부의 기준이 일관적이고 사용자 맥락에 적응하나
- 세부 분기: 과잉 거부 / 과소 거부 / 맥락 없는 거부 / 거부 사유 설명
11. 발견 가능성 / 온보딩
섹션 제목: “11. 발견 가능성 / 온보딩”- 원시 발화: “얘가 뭘 할 수 있는지 모르겠어”, “어떻게 말해야 잘 되는지 감이 안 와”, “좋은 사용 사례를 모르겠어”
- 진짜 질문: 도구의 능력 표면이 사용자에게 보이는가, 사용법을 어떻게 학습시키나
- 세부 분기: 능력 광고 / 좋은 프롬프트 모델 / 실패 모드 학습 / 페르소나별 가이드
부록 B. 시리즈 운영 룰
섹션 제목: “부록 B. 시리즈 운영 룰”- 각 E_n은 4섹션 형식 공식 템플릿 — 메인 깨끗하게, 방법론 디테일은 부록
- 비교 매트릭스: 사전 정의 행 + 사후 발견 행(
[+]마크) 분리 - 진입 전 본 페이지 우선순위 표에 진입 일자 기록
- 결정(채택/폐기/보류) 시
history/NN-e{n}-decision.md신규 +history/00-index.md갱신