최근 1년 당근 데이터가치화팀의 mcp 활용
당근 데이터가치화팀이 지난 1년간 사내 데이터 도구 6개를 data-mcp 한 계층으로 묶고, 구성원이 Claude Code에서 자연어로 데이터를 조회하는 환경으로 옮겨 간 회고.
요약
당근의 중앙 데이터 조직인 데이터가치화팀이 2025년 한 해 동안 산발적으로 시도하던 AI 활용을 2026년에 data-mcp라는 사내 플랫폼으로 통합했다.
사내 데이터 도구 6종을 MCP(Model Context Protocol, LLM이 외부 도구를 호출하는 표준) 서버로 묶었고, 구성원은 이제 Claude Code에 MCP를 연결해 자연어로 데이터를 탐색한다.
동시에 팀의 역할은 산출물(쿼리·대시보드)을 직접 만들어 전달하는 일에서, 셀프서비스 환경의 신뢰 기반(지표 정의·리니지·권한·검증)을 설계하는 일로 옮겨갔다.
배경
당근 데이터가치화팀은 데이터 파이프라인, 지표 플랫폼 KarrotMetrics, 실험 플랫폼, 데이터 포털, 데이터 거버넌스를 담당하는 중앙 조직이다.
2025년의 AI 활용은 흩어져 있었다. 개발 프로젝트에서는 Claude Code(Anthropic의 터미널형 코딩 에이전트)로 빠른 프로토타이핑을 하고, BigQuery API 작성이나 재귀 쿼리에 활용했다. 데이터 품질 이슈가 나면 AI에게 리니지 정보를 정리시켜 영향 범위를 파악했고, 파이프라인 실패의 원인 좁히기에도 AI를 끼웠다. 각자 워크플로우에서 Claude·ChatGPT를 실험적으로 쓰는 식이었다.
여기서 두 가지 문제가 보였다. 하나는 LLM에 사내 데이터 접근을 직접 열어주는 방식. 권한 범위·지표 정의·최신성을 무시한 답이 그대로 의사결정에 쓰일 수 있다. 다른 하나는 도구가 흩어진 채로는 셀프서비스가 늘어날수록 기반 부실이 그대로 드러난다는 점이다. 같은 이름의 지표라도 어떤 팀은 '전체 거래'로, 어떤 팀은 '결제 완료된 거래'로 계산하는 경우가 그런 차이다.
접근: data-mcp로 사내 도구를 MCP 계층에 묶기
팀은 사내 데이터 도구를 MCP 서버로 노출시키고, LLM이 그 서버를 통해서만 데이터에 닿도록 하는 data-mcp를 직접 구축했다. 현재 운영 중인 6개 MCP 서버는 다음과 같다.
- BigQuery MCP: 사내 데이터 웨어하우스에 자연어로 질의
- Lineage MCP: 테이블·컬럼의 의존 관계와 영향 범위 조회 (테이블 수정 영향도 분석, 데이터 품질 이슈 추적에 사용)
- KarrotMetrics MCP: 전사 지표를 자연어로 조회·트렌드 파악
- Superset MCP: 대시보드와 차트 데이터에 LLM 접근
- Event MCP: 이벤트 로깅 정보 조회·탐색
- Experiment MCP: 진행 중인 실험과 결과 지표 조회
data-mcp 계층이 담당하는 역할은 세 가지다.
- 라우팅: LLM이 전체 스키마를 뒤져 엉뚱한 쿼리를 만들지 않도록, 어떤 데이터 소스에 어떻게 접근할지 MCP가 먼저 결정한다.
- 인증과 권한: 사용자의 권한 범위 안에서만 데이터를 조회한다. 권한 바깥에서는 AI가 답을 지어내는 대신 답이 없다고 말하게 한다.
- 도메인 지식 결합: 지표 정의·오너·최신성을 MCP에 함께 담아, 자연어 질의가 조직 규칙이 반영된 접근이 되도록 한다.
이 계층이 제대로 돌아가려면 아래 기반이 먼저 단단해야 한다는 게 팀이 절감한 부분이다. 파이프라인 운영 절차의 체계화, 지표 정의의 일관성, 메타데이터 정리. 그리고 권한 관리, 컬럼 레벨 리니지, 품질 추적. 6가지가 모두 깔려 있어야 AI가 정확한 답을 만들 수 있다. KarrotMetrics에서 지표 정의·계산 로직을 하나의 소스로 통합하고 코드로 관리해 둔 작업, 컬럼 단위 리니지를 추적해 둔 작업이 여기서 그대로 자산이 됐다.
데이터 제품을 만드는 방식도 함께 바뀌었다. 기존에는 UI만 설계했다면, 이제는 "LLM이 이 기능을 어떻게 호출할 것인가"도 함께 설계한다. 실험 플랫폼에 지표 기능을 추가할 때 UI뿐 아니라 MCP로도 생성·수정 가능하게 열되, 잘못된 수정이 들어가지 않도록 검증·승인 레이어를 함께 설계하는 식이다. 데이터 제품의 표면이 UI 하나에서 UI + LLM 인터페이스 두 격으로 늘었다.
결과와 다음 단계
구성원은 Claude Code에 MCP를 연결해 데이터를 탐색하면서 개발하는 것이 일상이 됐다. data-mcp를 통해 다른 팀의 AI 에이전트들이 사내 데이터를 활용하는 사례도 늘고 있고, 데이터 거버넌스 정책이 AI 기능 개발과 직접 연결되고 있다.
업무 분포도 옮겨갔다. 데이터 엔지니어는 파이프라인 구현보다 구조 설계와 운영 판단의 비중이 커졌다. 분석가는 대시보드 제작보다 질문 설계와 결과 해석의 비중이 커졌다. 관리자 역할은 산출물 관리보다 검증 체계와 실행 원칙 설계 쪽으로 무게가 옮겨갔다. 팀이 정리한 표현으로는 "답을 대신 만들어주는 팀"에서 "답이 신뢰 가능하게 만들어질 수 있는 환경을 구축하는 팀"으로의 이동이다.
2026년의 작업은 흩어진 시도들을 하나의 흐름으로 묶는 것이다. 진행 중인 항목은 data-mcp 인증 체계 개선, 여러 MCP 서버의 사용성 개선, AI 에이전트가 신뢰 가능한 데이터를 기반으로 동작하도록 거버넌스 강화 세 가지. 팀이 계속 다루는 축은 구성원의 AI 활용 방식, 플랫폼에 내장될 AI 경험, 신뢰 가능한 데이터 기반, 조직 전체의 데이터 사용 문화 네 가지로 정리된다.
참고
- 원문: 모두가 데이터를 다루는 AI 시대, 지난 1년간 데이터 팀은 어떻게 달라졌을까? — 당근 테크 블로그
- 채용: Software Engineer, Data / Data Analytics Engineer