콘텐츠로 이동

AI 에이전트 통증 랜드스케이프 — E 시리즈 진입 지도

상태: 초안 (v0.1). 본 시리즈는 발전형 — 11개 클러스터 분류·우선순위·진입 순서는 모두 시작점이지 고정 명세가 아님. E_n 진행 중 발견에 따라 자유롭게 재정렬·재정의 (단 변경 시 history/에 commit).

배경 및 목적

AI 에이전트를 쓰는 사람들이 자주 토로하는 통증(“왜 AI가 기억을 못해”, “왜 슬랙 연동을 이렇게 못해”, “자신 있게 틀려”) — 이 통증을 측정 가능한 실험으로 변환하는 것이 본 시리즈의 목적이다.

본 E(experience-driven) 시리즈는 사용자 통증을 실험 단위로 삼는다. 11개 통증 클러스터 중 사용자 발화에 직접 닿는 것부터 순차 실험화한다. 측정 도구·메트릭·룰은 통증 검증의 도구이지 그 자체가 검증 대상이 아니다.

의의

본 랜드스케이프 문서가 끝나면:

E 시리즈에 어떤 실험이 들어가고 어떤 순서로 가는지 한 페이지에 박힘
각 E_n이 어느 통증을 검증하는지 사전에 명시 → 사후 가설 점프 차단
본 페르소나(민지·커뮤니티 운영) 외 청중에게도 시리즈 의도 전달 가능

업무 수행

본 페이지가 다루는 11개 통증 클러스터를 §부록 A에 카드 형태로 보존. E_n 진입 시 해당 카드 → experiments/E{n}/00-plan.md로 확장.

각 E_n 공식 템플릿: 배경 및 목적 / 의의 / 업무 수행 / 결과 비교 매트릭스 4섹션. C-제약·반증 조건은 부록으로. 비교 매트릭스 행은 사전 정의 행 + 사후 발견 행 분리 표시 (사후 합리화 가시화).

결과 비교 매트릭스 — 우선순위 결정

#	통증 클러스터	사용자 직접 발화?	페르소나 적합도	측정 난이도	진입 순서
1	메모리 / 연속성	직접	높	중	E1
2	외부 통합 / 도구 사용	직접	높	중	E2
7	톤 / 형식 / 커뮤니케이션	직접	높	낮	E3
4	의도 이해 / 시작 정렬	간접	높	높	E4 후보
3	신뢰성 / 환각	간접	중	높	보류
5	멈춤 시점 / 종료 판단	간접	중	중	보류
6	일관성 / 재현성	간접	중	높	보류
8	예측 가능성 / 통제	간접	중	중	보류
9	다단계 / 장기 task	간접	중	높	보류
10	거부 / 경계	간접	낮	중	보류
11	발견 가능성 / 온보딩	간접	중	중	보류

진입 룰: E1–E3 결과 보고 E4 이후 결정. 트리식 — 앞 E의 결과가 다음 E 설계를 흔들면 보류 클러스터를 끌어올릴 수 있음.

부록 A. 통증 클러스터 카드 (11개)

각 카드 = [원시 발화 / 진짜 질문 / 세부 분기]. E_n 진입 시 해당 카드를 시작점으로 §배경 및 목적 확장.

1. 메모리 / 연속성

원시 발화: “왜 기억을 못해”, “어제 알려준 거 또 설명해야 돼”, “내 취향이 안 쌓여”
진짜 질문: 무엇이 누적되어야 하고, 언제 꺼내야 하나
세부 분기: 세션 간 망각 / 같은 세션 안에서 망각(컨텍스트 윈도우) / 페르소나 누적 안 됨 / 메모리는 있는데 발동 안 됨

2. 외부 통합 / 도구 사용

원시 발화: “왜 슬랙 연동을 이렇게 못해”, “권한 한 번 걸면 다음에 또 막혀”, “API 호출 실패하면 그냥 멈춤”
진짜 질문: 능력 부재 / setup 부재 / 판단 부재 / 복원력 부재 중 어디가 실패점
세부 분기: 인증·권한 / 호출 파라미터 변환 / 에러 복원 / 호출 해야 함을 인식

3. 신뢰성 / 환각

원시 발화: “자신 있게 틀려”, “있지도 않은 함수를 부르네”, “확인 없이 그냥 만들어내”
진짜 질문: 모르는 걸 모른다고 말하는 능력은 어떻게 측정·교정하나
세부 분기: 사실 환각 / 코드 환각(존재하지 않는 API) / 합의 환각 (“우리가 그렇게 정했지” 거짓 회상)

4. 의도 이해 / 시작 시점 정렬

원시 발화: “내 말을 못 알아들어”, “X 해달랬는데 Y를 함”, “예시 하나만 줬는데 왜 그렇게 일반화했어”
진짜 질문: 모호한 자연어 → 행동 변환의 어디서 미스가 발생하나
세부 분기: 첫 턴 의도 파악 / 암묵적 제약(말 안 한 것) / 예시 일반화 / 페르소나 추정

5. 멈춤 시점 / 종료 판단

원시 발화: “너무 일찍 멈춰” / “너무 멀리 갔어”, “끝났다고 말하지 마, 안 끝났는데”
진짜 질문: “충분히 했다”의 신호를 도구가 어떻게 감지하나
세부 분기: 조기 종료 / 과잉 진행 / 완료 주장 vs 실제 완료 / 중간 멈춤(갈피 잃음)

6. 일관성 / 재현성

원시 발화: “같은 거 시켰는데 다른 답이 나와”, “어제 됐는데 오늘 안 돼”, “버전 올렸더니 갑자기 다르게 행동”
진짜 질문: 비결정성을 어디까지 허용하고 어디부터 버그로 보나
세부 분기: 같은 입력 분산 / 시간 경과 후 변화 / 모델 버전 차이 / 컨텍스트 누출

7. 톤 / 형식 / 커뮤니케이션

원시 발화: “너무 사근사근해” / “너무 딱딱해”, “마크다운으로 답하지 마”, “쓸데없이 길어”
진짜 질문: 출력 형식 제어가 지속적으로 되나, 한 번 지시하면 유지되나
세부 분기: 길이 / 포맷(마크다운·번호) / 톤(반말·존댓말·이모지) / 사과·아첨 / 자기 부정

8. 예측 가능성 / 통제

원시 발화: “돌리기 전에 뭐 할지 모르겠어”, “중간에 멈출 수가 없어”, “뭐 했는지 다시 보기 어려워”
진짜 질문: 사용자가 행동 전·중·후 어느 시점에 개입·감사 가능한가
세부 분기: 사전 가시성 / 실행 중 개입 / 사후 감사 / 거부·확인 인터페이스

9. 다단계 / 장기 task

원시 발화: “복잡한 일은 못 해”, “처음 1단계만 잘하고 무너져”, “전체 목표를 잊어버려”
진짜 질문: task 길이·단계 수와 성공률의 관계, 어느 길이부터 무너지나
세부 분기: 계획 수립 / 계획 실행 / 중간 점검 / 부분 실패 후 재계획

10. 거부 / 경계 (Over-/Under-refusal)

원시 발화: “왜 이거를 못 하겠대” / “이건 거부해야 하는 거 아니야?”
진짜 질문: 거부의 기준이 일관적이고 사용자 맥락에 적응하나
세부 분기: 과잉 거부 / 과소 거부 / 맥락 없는 거부 / 거부 사유 설명

11. 발견 가능성 / 온보딩

원시 발화: “얘가 뭘 할 수 있는지 모르겠어”, “어떻게 말해야 잘 되는지 감이 안 와”, “좋은 사용 사례를 모르겠어”
진짜 질문: 도구의 능력 표면이 사용자에게 보이는가, 사용법을 어떻게 학습시키나
세부 분기: 능력 광고 / 좋은 프롬프트 모델 / 실패 모드 학습 / 페르소나별 가이드

부록 B. 시리즈 운영 룰

각 E_n은 4섹션 형식 공식 템플릿 — 메인 깨끗하게, 방법론 디테일은 부록
비교 매트릭스: 사전 정의 행 + 사후 발견 행([+] 마크) 분리
진입 전 본 페이지 우선순위 표에 진입 일자 기록
결정(채택/폐기/보류) 시 history/NN-e{n}-decision.md 신규 + history/00-index.md 갱신