11. 평가 플랫폼 비교 — LangSmith · Braintrust · Langfuse · Phoenix · Galileo

한 줄: 벤치마크가 시험 문제집이라면, 평가 플랫폼은 시험을 굴리고·답안 저장하고·점수 시각화해주는 인프라(SaaS 또는 셀프호스트). 직접 만들 필요 없게.

비유: 시험을 직접 만들 수도 있지만, 학원·LMS를 쓰면 문항 관리·자동 채점·통계 그래프·이상치 알람이 다 따라옴. 평가 플랫폼이 그 LMS.

이 문서에서 챙길 3가지

5개 주력: LangSmith / Braintrust / Langfuse(OSS) / Phoenix(OSS) / Galileo — 같은 추상이지만 강조점·가격·오픈소스 여부가 다름
공통 추상: trace 저장 → 데이터셋 묶음 → 평가자(코드·모델·인간) → 대시보드
본 실험은 14일 × 280건 규모라 직접 CSV·hook으로도 충분 — 플랫폼은 v2 이후 검토

1. 정의

벤치마크는 데이터셋 + 채점 규칙 이고, 평가 플랫폼은 벤치마크를 굴리고 trace를 저장하고 결과를 시각화하는 인프라 다. 둘은 다른 층위.

본 장은 산업에서 가장 자주 비교되는 5개 플랫폼을 우리 실험 관점에서 정리한다.

플랫폼	주력	오픈소스?	호스팅
LangSmith (LangChain)	trace + 평가, 프레임 무관	X (proprietary)	SaaS
Braintrust	평가 우선, code/model/human 3종 grader	X	SaaS
Langfuse	tracing + prompt mgmt, dev-first	O (Apache 2.0)	Self-host or SaaS
Arize Phoenix	tracing, ML 모니터링 헤리티지	O (Elastic)	Self-host or SaaS (Arize)
Galileo	hallucination 탐지 + agent trace	X	SaaS

추가로 DeepEval (pytest-style eval framework, OSS), Maxim, Adaline 등이 있으나 위 5개가 시장 중심.

2. 핵심 메커니즘 (공통 추상)

대부분의 플랫폼이 같은 추상 을 공유한다.

2.1 Trace / Span 모델

Trace (한 사용자 요청의 전체)
 └─ Span (LLM call) — 입력/출력/모델/토큰
 └─ Span (Tool call) — 함수명/인자/결과
 └─ Span (Retrieval) — 쿼리/문서
 └─ ...

OpenTelemetry-style. 거의 모든 플랫폼이 OTLP 호환.

Span attributes: 모델, latency, 토큰, cost, error, custom metadata.

이 데이터 구조 하나가 trace 평가, 비용 추적, latency 분석, 디버깅 모두를 받쳐줌.

2.2 평가 (Evaluation)

플랫폼이 제공하는 평가 형태:

Code-based: regex, exact match, JSON validity 등 deterministic
Model-based: LLM-as-judge (2장)
Human: UI에서 휴먼이 클릭으로 라벨링
Online evaluation: 프로덕션 trace 일부에 평가자 자동 실행
Offline evaluation: 데이터셋 + 평가자 = 회귀 테스트

플랫폼별 차별점:

LangSmith: LangGraph 통합 우월, 데이터셋 관리 강.
Braintrust: Eval-first. Pytest 스타일 (braintrust eval). 빠른 반복 강조.
Langfuse: Self-host 가능 + 풍부한 SDK. 가격 통제 가능.
Phoenix: 시각화 (UMAP·embeddings projection) 강. 모니터링 헤리티지.
Galileo: 내장 hallucination metric (factuality, groundedness).

2.3 데이터셋 관리

평가 = 데이터셋(input + 기대 output) + 평가자(grader) + 실행자(에이전트). 플랫폼은 데이터셋을 버전 관리 하고 결과를 시계열 비교 함.

LangSmith: dataset → “experiment” 단위로 한 번 실행 → 결과 비교 UI. Braintrust: 비슷, “trial” 단위 + diff view 강함.

2.4 인간 라벨링 워크플로

프로덕션 trace 중 일부를 human-review 큐에 넣고, 도메인 SME 가 라벨링. 라벨 → 평가 데이터셋으로 부메랑. 이 루프가 LLM-as-judge calibration의 표준 워크플로 (2장과 결합).

3. 플랫폼별 특징

3.1 LangSmith

프레임워크 무관 (LangGraph, custom Python, …)
Full trajectory 캡처가 강점 — agent의 step-by-step을 그대로 본다
가격: 호스팅 SaaS, 사용량 과금
LangChain 에코 통합 (LangGraph 셋업 시 한 줄 환경변수)
단점: Vendor lock-in, OSS 아님

3.2 Braintrust

“Eval is a first-class citizen” 철학
Code/model/human 3종 grader 결합 가이드
Eval CLI: braintrust eval my_eval.py → diff 보고 push
가격: SaaS 구독
Trace 시각화는 보통 — eval 우선
단점: 모니터링·dashboards는 약함

3.3 Langfuse

100% OSS (Apache 2.0). Self-host 가능
SDK 풍부 (Python, JS/TS, …)
Tracing + prompt mgmt + eval 통합
Mid-size 팀의 비용 통제 답
단점: SaaS 폴리시·신뢰 면에선 LangSmith·Braintrust 대비 보수적 도입

3.4 Arize Phoenix

ML 모니터링 회사 (Arize) 의 OSS LLM eval 도구
Embedding projection (UMAP) 으로 클러스터·드리프트 시각화 강함
자체 호스팅 + Arize 클라우드 두 모드
단점: Agent-specific 메트릭 내장 폭은 좁음

3.5 Galileo

Hallucination 탐지 metric 내장 (Context Adherence, Tool Selection Quality 등)
Agent trace 지원
SaaS, 엔터프라이즈 영업
단점: 메트릭 폭은 좁고, 복잡 multi-step agent 워크플로엔 유연성 ↓

4. 비교 매트릭스

특성	LangSmith	Braintrust	Langfuse	Phoenix	Galileo
오픈소스	X	X	O	O	X
Eval-first	중	高	중	중	중
Trace 풍부	高	중	高	高	중
Self-host	X	X	O	O	X
인간 라벨링 UI	있음	있음	있음	약함	있음
내장 agent 메트릭	풍부	풍부	보통	약함	특화(환각)
통합 (OTel)	O	O	O	O	O
가격	$$	$$	OSS or $	OSS or $$	$$$

5. 우리 실험에의 적용

본 실험은 2 도구 × 14일 × 10태스크 = 280 trial. 매우 작은 N. 산업 플랫폼을 전부 도입할 필요 없다.

5.1 도입 안 하는 길 (현 상태 유지)

이미 우리는:

Hook 로그 → logs/history-${TOOL}.jsonl (trace)
CSV 채점 양식 (eval 결과)
history/ 폴더 (decision log)

이 자체가 최소 평가 플랫폼 의 역할을 한다. 280 trial 규모에 추가 인프라 도입은 과투자.

5.2 도입한다면 — Langfuse (self-host)

만약 도입한다면 Langfuse가 적합:

100% OSS — 우리 실험의 재현 가능성 가치와 정렬 (산출물 #3 “재현 가능 셋업 가이드”)
Self-host → 데이터 외부 전송 X (페르소나 모드 위반 우려 차단)
Trace + eval + dataset 모두 갖춘 단일 도구
Hook 로그를 Langfuse SDK로 export 변환만 하면 됨

도입 가치는 후속 실험 에서 분명. 본 실험에선 hook 로그로 충분.

5.3 LangSmith / Braintrust — 본 실험엔 부적절

이 둘은 SaaS만 가능. 우리의 가짜 샌드박스 데이터·페르소나 정보가 외부 서버로 나감. 또 실험 산출물 중 “재현 셋업 가이드” 가 SaaS 의존이 되면 다른 사람이 따라할 때 비용 부담.

5.4 Phoenix·Galileo — 강점이 우리 영역과 안 맞음

Phoenix의 embedding projection은 우리 실험의 작은 N 에선 의미 없음
Galileo의 hallucination 특화는 우리 정성 평가에 부분적으론 유용하나 SaaS 가격이 부담

5.5 결정 — 도입 안 함, Langfuse는 후속 실험 후보

본 실험: 현 hook + CSV + history/ 유지
Langfuse는 다음 실험 (자동 평가 파이프라인) 에서 도입 검토

6. 더 읽을거리

LangSmith Evaluation 공식 페이지 — LangChain 진영의 trace + 평가 SaaS, full trajectory 캡처 강점
Braintrust, “Evaluating Agents” 블로그 — eval-first 철학과 code/model/human 3종 grader 결합 가이드
Langfuse 공식 문서 — 100% OSS(Apache 2.0) self-host 가능한 trace + prompt mgmt + eval 통합 도구
Arize Phoenix 문서 — ML 모니터링 헤리티지의 OSS LLM observability + UMAP 임베딩 시각화
Galileo Agent Eval Framework 블로그 — hallucination 탐지 특화 SaaS, 7-25-130 rubric 분류 출처
DeepEval (Confident AI) — OSS pytest-style LLM eval 프레임워크, 에이전트 가이드 별도 제공

다음 장 미리보기

플랫폼은 어떻게 굴리나 이고, 파이프라인은 언제 무엇을 굴리나 다. Offline → Online → Monitoring 의 3단계 파이프라인 설계. 12장.

이 장에서 확실히 알아야 하는 것

Trace / Span 추상이 무엇인지 그릴 수 있다.
LangSmith / Braintrust / Langfuse / Phoenix / Galileo 의 주력 차이 를 한 문장씩 말할 수 있다.
본 실험에 도입을 권하지 않는 이유 (작은 N + 데이터 외부 전송 우려) 를 안다.
도입한다면 Langfuse를 권하는 이유 (OSS, self-host, 재현성)를 안다.