11. 평가 플랫폼 비교 — LangSmith · Braintrust · Langfuse · Phoenix · Galileo
1. 정의
섹션 제목: “1. 정의”벤치마크는 데이터셋 + 채점 규칙 이고, 평가 플랫폼은 벤치마크를 굴리고 trace를 저장하고 결과를 시각화하는 인프라 다. 둘은 다른 층위.
본 장은 산업에서 가장 자주 비교되는 5개 플랫폼을 우리 실험 관점에서 정리한다.
| 플랫폼 | 주력 | 오픈소스? | 호스팅 |
|---|---|---|---|
| LangSmith (LangChain) | trace + 평가, 프레임 무관 | X (proprietary) | SaaS |
| Braintrust | 평가 우선, code/model/human 3종 grader | X | SaaS |
| Langfuse | tracing + prompt mgmt, dev-first | O (Apache 2.0) | Self-host or SaaS |
| Arize Phoenix | tracing, ML 모니터링 헤리티지 | O (Elastic) | Self-host or SaaS (Arize) |
| Galileo | hallucination 탐지 + agent trace | X | SaaS |
추가로 DeepEval (pytest-style eval framework, OSS), Maxim, Adaline 등이 있으나 위 5개가 시장 중심.
2. 핵심 메커니즘 (공통 추상)
섹션 제목: “2. 핵심 메커니즘 (공통 추상)”대부분의 플랫폼이 같은 추상 을 공유한다.
2.1 Trace / Span 모델
섹션 제목: “2.1 Trace / Span 모델”Trace (한 사용자 요청의 전체) └─ Span (LLM call) — 입력/출력/모델/토큰 └─ Span (Tool call) — 함수명/인자/결과 └─ Span (Retrieval) — 쿼리/문서 └─ ...OpenTelemetry-style. 거의 모든 플랫폼이 OTLP 호환.
Span attributes: 모델, latency, 토큰, cost, error, custom metadata.
이 데이터 구조 하나가 trace 평가, 비용 추적, latency 분석, 디버깅 모두를 받쳐줌.
2.2 평가 (Evaluation)
섹션 제목: “2.2 평가 (Evaluation)”플랫폼이 제공하는 평가 형태:
- Code-based: regex, exact match, JSON validity 등 deterministic
- Model-based: LLM-as-judge (2장)
- Human: UI에서 휴먼이 클릭으로 라벨링
- Online evaluation: 프로덕션 trace 일부에 평가자 자동 실행
- Offline evaluation: 데이터셋 + 평가자 = 회귀 테스트
플랫폼별 차별점:
- LangSmith: LangGraph 통합 우월, 데이터셋 관리 강.
- Braintrust: Eval-first. Pytest 스타일 (
braintrust eval). 빠른 반복 강조. - Langfuse: Self-host 가능 + 풍부한 SDK. 가격 통제 가능.
- Phoenix: 시각화 (UMAP·embeddings projection) 강. 모니터링 헤리티지.
- Galileo: 내장 hallucination metric (factuality, groundedness).
2.3 데이터셋 관리
섹션 제목: “2.3 데이터셋 관리”평가 = 데이터셋(input + 기대 output) + 평가자(grader) + 실행자(에이전트). 플랫폼은 데이터셋을 버전 관리 하고 결과를 시계열 비교 함.
LangSmith: dataset → “experiment” 단위로 한 번 실행 → 결과 비교 UI. Braintrust: 비슷, “trial” 단위 + diff view 강함.
2.4 인간 라벨링 워크플로
섹션 제목: “2.4 인간 라벨링 워크플로”프로덕션 trace 중 일부를 human-review 큐에 넣고, 도메인 SME 가 라벨링. 라벨 → 평가 데이터셋으로 부메랑. 이 루프가 LLM-as-judge calibration의 표준 워크플로 (2장과 결합).
3. 플랫폼별 특징
섹션 제목: “3. 플랫폼별 특징”3.1 LangSmith
섹션 제목: “3.1 LangSmith”- 프레임워크 무관 (LangGraph, custom Python, …)
- Full trajectory 캡처가 강점 — agent의 step-by-step을 그대로 본다
- 가격: 호스팅 SaaS, 사용량 과금
- LangChain 에코 통합 (LangGraph 셋업 시 한 줄 환경변수)
- 단점: Vendor lock-in, OSS 아님
3.2 Braintrust
섹션 제목: “3.2 Braintrust”- “Eval is a first-class citizen” 철학
- Code/model/human 3종 grader 결합 가이드
- Eval CLI:
braintrust eval my_eval.py→ diff 보고 push - 가격: SaaS 구독
- Trace 시각화는 보통 — eval 우선
- 단점: 모니터링·dashboards는 약함
3.3 Langfuse
섹션 제목: “3.3 Langfuse”- 100% OSS (Apache 2.0). Self-host 가능
- SDK 풍부 (Python, JS/TS, …)
- Tracing + prompt mgmt + eval 통합
- Mid-size 팀의 비용 통제 답
- 단점: SaaS 폴리시·신뢰 면에선 LangSmith·Braintrust 대비 보수적 도입
3.4 Arize Phoenix
섹션 제목: “3.4 Arize Phoenix”- ML 모니터링 회사 (Arize) 의 OSS LLM eval 도구
- Embedding projection (UMAP) 으로 클러스터·드리프트 시각화 강함
- 자체 호스팅 + Arize 클라우드 두 모드
- 단점: Agent-specific 메트릭 내장 폭은 좁음
3.5 Galileo
섹션 제목: “3.5 Galileo”- Hallucination 탐지 metric 내장 (Context Adherence, Tool Selection Quality 등)
- Agent trace 지원
- SaaS, 엔터프라이즈 영업
- 단점: 메트릭 폭은 좁고, 복잡 multi-step agent 워크플로엔 유연성 ↓
4. 비교 매트릭스
섹션 제목: “4. 비교 매트릭스”| 특성 | LangSmith | Braintrust | Langfuse | Phoenix | Galileo |
|---|---|---|---|---|---|
| 오픈소스 | X | X | O | O | X |
| Eval-first | 중 | 高 | 중 | 중 | 중 |
| Trace 풍부 | 高 | 중 | 高 | 高 | 중 |
| Self-host | X | X | O | O | X |
| 인간 라벨링 UI | 있음 | 있음 | 있음 | 약함 | 있음 |
| 내장 agent 메트릭 | 풍부 | 풍부 | 보통 | 약함 | 특화(환각) |
| 통합 (OTel) | O | O | O | O | O |
| 가격 | $$ | $$ | OSS or $ | OSS or $$ | $$$ |
5. 우리 실험에의 적용
섹션 제목: “5. 우리 실험에의 적용”본 실험은 2 도구 × 14일 × 10태스크 = 280 trial. 매우 작은 N. 산업 플랫폼을 전부 도입할 필요 없다.
5.1 도입 안 하는 길 (현 상태 유지)
섹션 제목: “5.1 도입 안 하는 길 (현 상태 유지)”이미 우리는:
- Hook 로그 →
logs/history-${TOOL}.jsonl(trace) - CSV 채점 양식 (eval 결과)
history/폴더 (decision log)
이 자체가 최소 평가 플랫폼 의 역할을 한다. 280 trial 규모에 추가 인프라 도입은 과투자.
5.2 도입한다면 — Langfuse (self-host)
섹션 제목: “5.2 도입한다면 — Langfuse (self-host)”만약 도입한다면 Langfuse가 적합:
- 100% OSS — 우리 실험의 재현 가능성 가치와 정렬 (산출물 #3 “재현 가능 셋업 가이드”)
- Self-host → 데이터 외부 전송 X (페르소나 모드 위반 우려 차단)
- Trace + eval + dataset 모두 갖춘 단일 도구
- Hook 로그를 Langfuse SDK로 export 변환만 하면 됨
도입 가치는 후속 실험 에서 분명. 본 실험에선 hook 로그로 충분.
5.3 LangSmith / Braintrust — 본 실험엔 부적절
섹션 제목: “5.3 LangSmith / Braintrust — 본 실험엔 부적절”이 둘은 SaaS만 가능. 우리의 가짜 샌드박스 데이터·페르소나 정보가 외부 서버로 나감. 또 실험 산출물 중 “재현 셋업 가이드” 가 SaaS 의존이 되면 다른 사람이 따라할 때 비용 부담.
5.4 Phoenix·Galileo — 강점이 우리 영역과 안 맞음
섹션 제목: “5.4 Phoenix·Galileo — 강점이 우리 영역과 안 맞음”- Phoenix의 embedding projection은 우리 실험의 작은 N 에선 의미 없음
- Galileo의 hallucination 특화는 우리 정성 평가에 부분적으론 유용하나 SaaS 가격이 부담
5.5 결정 — 도입 안 함, Langfuse는 후속 실험 후보
섹션 제목: “5.5 결정 — 도입 안 함, Langfuse는 후속 실험 후보”- 본 실험: 현 hook + CSV + history/ 유지
- Langfuse는 다음 실험 (자동 평가 파이프라인) 에서 도입 검토
6. 더 읽을거리
섹션 제목: “6. 더 읽을거리”- LangSmith Evaluation 공식 페이지 — LangChain 진영의 trace + 평가 SaaS, full trajectory 캡처 강점
- Braintrust, “Evaluating Agents” 블로그 — eval-first 철학과 code/model/human 3종 grader 결합 가이드
- Langfuse 공식 문서 — 100% OSS(Apache 2.0) self-host 가능한 trace + prompt mgmt + eval 통합 도구
- Arize Phoenix 문서 — ML 모니터링 헤리티지의 OSS LLM observability + UMAP 임베딩 시각화
- Galileo Agent Eval Framework 블로그 — hallucination 탐지 특화 SaaS, 7-25-130 rubric 분류 출처
- DeepEval (Confident AI) — OSS pytest-style LLM eval 프레임워크, 에이전트 가이드 별도 제공
다음 장 미리보기
섹션 제목: “다음 장 미리보기”플랫폼은 어떻게 굴리나 이고, 파이프라인은 언제 무엇을 굴리나 다. Offline → Online → Monitoring 의 3단계 파이프라인 설계. 12장.
이 장에서 확실히 알아야 하는 것
섹션 제목: “이 장에서 확실히 알아야 하는 것”- Trace / Span 추상이 무엇인지 그릴 수 있다.
- LangSmith / Braintrust / Langfuse / Phoenix / Galileo 의 주력 차이 를 한 문장씩 말할 수 있다.
- 본 실험에 도입을 권하지 않는 이유 (작은 N + 데이터 외부 전송 우려) 를 안다.
- 도입한다면 Langfuse를 권하는 이유 (OSS, self-host, 재현성)를 안다.