콘텐츠로 이동

11. 평가 플랫폼 비교 — LangSmith · Braintrust · Langfuse · Phoenix · Galileo

벤치마크는 데이터셋 + 채점 규칙 이고, 평가 플랫폼은 벤치마크를 굴리고 trace를 저장하고 결과를 시각화하는 인프라 다. 둘은 다른 층위.

본 장은 산업에서 가장 자주 비교되는 5개 플랫폼을 우리 실험 관점에서 정리한다.

플랫폼주력오픈소스?호스팅
LangSmith (LangChain)trace + 평가, 프레임 무관X (proprietary)SaaS
Braintrust평가 우선, code/model/human 3종 graderXSaaS
Langfusetracing + prompt mgmt, dev-firstO (Apache 2.0)Self-host or SaaS
Arize Phoenixtracing, ML 모니터링 헤리티지O (Elastic)Self-host or SaaS (Arize)
Galileohallucination 탐지 + agent traceXSaaS

추가로 DeepEval (pytest-style eval framework, OSS), Maxim, Adaline 등이 있으나 위 5개가 시장 중심.

대부분의 플랫폼이 같은 추상 을 공유한다.

Trace (한 사용자 요청의 전체)
└─ Span (LLM call) — 입력/출력/모델/토큰
└─ Span (Tool call) — 함수명/인자/결과
└─ Span (Retrieval) — 쿼리/문서
└─ ...

OpenTelemetry-style. 거의 모든 플랫폼이 OTLP 호환.

Span attributes: 모델, latency, 토큰, cost, error, custom metadata.

이 데이터 구조 하나가 trace 평가, 비용 추적, latency 분석, 디버깅 모두를 받쳐줌.

플랫폼이 제공하는 평가 형태:

  • Code-based: regex, exact match, JSON validity 등 deterministic
  • Model-based: LLM-as-judge (2장)
  • Human: UI에서 휴먼이 클릭으로 라벨링
  • Online evaluation: 프로덕션 trace 일부에 평가자 자동 실행
  • Offline evaluation: 데이터셋 + 평가자 = 회귀 테스트

플랫폼별 차별점:

  • LangSmith: LangGraph 통합 우월, 데이터셋 관리 강.
  • Braintrust: Eval-first. Pytest 스타일 (braintrust eval). 빠른 반복 강조.
  • Langfuse: Self-host 가능 + 풍부한 SDK. 가격 통제 가능.
  • Phoenix: 시각화 (UMAP·embeddings projection) 강. 모니터링 헤리티지.
  • Galileo: 내장 hallucination metric (factuality, groundedness).

평가 = 데이터셋(input + 기대 output) + 평가자(grader) + 실행자(에이전트). 플랫폼은 데이터셋을 버전 관리 하고 결과를 시계열 비교 함.

LangSmith: dataset → “experiment” 단위로 한 번 실행 → 결과 비교 UI. Braintrust: 비슷, “trial” 단위 + diff view 강함.

프로덕션 trace 중 일부를 human-review 큐에 넣고, 도메인 SME 가 라벨링. 라벨 → 평가 데이터셋으로 부메랑. 이 루프가 LLM-as-judge calibration의 표준 워크플로 (2장과 결합).

  • 프레임워크 무관 (LangGraph, custom Python, …)
  • Full trajectory 캡처가 강점 — agent의 step-by-step을 그대로 본다
  • 가격: 호스팅 SaaS, 사용량 과금
  • LangChain 에코 통합 (LangGraph 셋업 시 한 줄 환경변수)
  • 단점: Vendor lock-in, OSS 아님
  • “Eval is a first-class citizen” 철학
  • Code/model/human 3종 grader 결합 가이드
  • Eval CLI: braintrust eval my_eval.py → diff 보고 push
  • 가격: SaaS 구독
  • Trace 시각화는 보통 — eval 우선
  • 단점: 모니터링·dashboards는 약함
  • 100% OSS (Apache 2.0). Self-host 가능
  • SDK 풍부 (Python, JS/TS, …)
  • Tracing + prompt mgmt + eval 통합
  • Mid-size 팀의 비용 통제
  • 단점: SaaS 폴리시·신뢰 면에선 LangSmith·Braintrust 대비 보수적 도입
  • ML 모니터링 회사 (Arize) 의 OSS LLM eval 도구
  • Embedding projection (UMAP) 으로 클러스터·드리프트 시각화 강함
  • 자체 호스팅 + Arize 클라우드 두 모드
  • 단점: Agent-specific 메트릭 내장 폭은 좁음
  • Hallucination 탐지 metric 내장 (Context Adherence, Tool Selection Quality 등)
  • Agent trace 지원
  • SaaS, 엔터프라이즈 영업
  • 단점: 메트릭 폭은 좁고, 복잡 multi-step agent 워크플로엔 유연성 ↓
특성LangSmithBraintrustLangfusePhoenixGalileo
오픈소스XXOOX
Eval-first
Trace 풍부
Self-hostXXOOX
인간 라벨링 UI있음있음있음약함있음
내장 agent 메트릭풍부풍부보통약함특화(환각)
통합 (OTel)OOOOO
가격$$$$OSS or $OSS or $$$$$

본 실험은 2 도구 × 14일 × 10태스크 = 280 trial. 매우 작은 N. 산업 플랫폼을 전부 도입할 필요 없다.

5.1 도입 안 하는 길 (현 상태 유지)

섹션 제목: “5.1 도입 안 하는 길 (현 상태 유지)”

이미 우리는:

  • Hook 로그 → logs/history-${TOOL}.jsonl (trace)
  • CSV 채점 양식 (eval 결과)
  • history/ 폴더 (decision log)

이 자체가 최소 평가 플랫폼 의 역할을 한다. 280 trial 규모에 추가 인프라 도입은 과투자.

5.2 도입한다면 — Langfuse (self-host)

섹션 제목: “5.2 도입한다면 — Langfuse (self-host)”

만약 도입한다면 Langfuse가 적합:

  • 100% OSS — 우리 실험의 재현 가능성 가치와 정렬 (산출물 #3 “재현 가능 셋업 가이드”)
  • Self-host → 데이터 외부 전송 X (페르소나 모드 위반 우려 차단)
  • Trace + eval + dataset 모두 갖춘 단일 도구
  • Hook 로그를 Langfuse SDK로 export 변환만 하면 됨

도입 가치는 후속 실험 에서 분명. 본 실험에선 hook 로그로 충분.

5.3 LangSmith / Braintrust — 본 실험엔 부적절

섹션 제목: “5.3 LangSmith / Braintrust — 본 실험엔 부적절”

이 둘은 SaaS만 가능. 우리의 가짜 샌드박스 데이터·페르소나 정보가 외부 서버로 나감. 또 실험 산출물 중 “재현 셋업 가이드” 가 SaaS 의존이 되면 다른 사람이 따라할 때 비용 부담.

5.4 Phoenix·Galileo — 강점이 우리 영역과 안 맞음

섹션 제목: “5.4 Phoenix·Galileo — 강점이 우리 영역과 안 맞음”
  • Phoenix의 embedding projection은 우리 실험의 작은 N 에선 의미 없음
  • Galileo의 hallucination 특화는 우리 정성 평가에 부분적으론 유용하나 SaaS 가격이 부담

5.5 결정 — 도입 안 함, Langfuse는 후속 실험 후보

섹션 제목: “5.5 결정 — 도입 안 함, Langfuse는 후속 실험 후보”
  • 본 실험: 현 hook + CSV + history/ 유지
  • Langfuse는 다음 실험 (자동 평가 파이프라인) 에서 도입 검토

플랫폼은 어떻게 굴리나 이고, 파이프라인은 언제 무엇을 굴리나 다. Offline → Online → Monitoring 의 3단계 파이프라인 설계. 12장.

이 장에서 확실히 알아야 하는 것

섹션 제목: “이 장에서 확실히 알아야 하는 것”
  • Trace / Span 추상이 무엇인지 그릴 수 있다.
  • LangSmith / Braintrust / Langfuse / Phoenix / Galileo 의 주력 차이 를 한 문장씩 말할 수 있다.
  • 본 실험에 도입을 권하지 않는 이유 (작은 N + 데이터 외부 전송 우려) 를 안다.
  • 도입한다면 Langfuse를 권하는 이유 (OSS, self-host, 재현성)를 안다.