무신사의 VLMOps 어드민 — 상품 분류 검증·실험·평가 통합 도구
무신사 데이터 오퍼레이션팀이 VLM 추론·검증·골든셋·평가를 한 어드민에 통합해, 데이터 검증 시간을 기존 대비 54% 단축한 사례.
요약
무신사가 VLM 기반 상품 메타데이터 추출에 필요한 Human-in-the-loop 작업을 VLMOps 어드민으로 통합. DO팀이 엔지니어 도움 없이 모델 교체·프롬프트 변경·Batch inference·검증·골든셋 승격·모델 평가를 웹 UI에서 직접 수행. 결과: 데이터 검증 시간 기존 대비 54% 단축, MLE팀은 모델 연구에 집중.
내용
무신사는 상품 카테고리 분류와 속성 추출을 자동화하기 위해 멀티모달 ML 모델 → VLM(Visual Language Model)으로 옮겨가는 중. VLM은 사전학습 덕에 별도 학습 없이 prompt engineering만으로 결과를 얻고 "추론 → 평가 → 프롬프트 조정 → 재추론" 이터레이션이 빠르다는 게 장점. 그러나 사전학습 지식만으로는 서비스 맥락이 채워지지 않아 사람의 검증·교정이 필수.
검증이 필요한 실제 예: 데님 재킷과 니트 스웨터가 결합된 상품을 AI는 니트 비중이 크다는 이유로 '니트 스웨터'로 분류하지만, 사람은 브랜드 의도·착용 방식·서비스 맥락을 보고 '데님 재킷'을 더 적합하다고 판단. 한쪽 민소매·한쪽 반소매 디자인은 기존 소매 기장 속성으로 잡히지 않아 '언발란스 소매' 같은 새 속성을 택소노미에 추가하기도 함.
이 검증을 데이터 오퍼레이션(DO)팀이 MLE와 협업해 수행하는데, 이터레이션이 빨라질수록 매번 다른 결과를 검토해야 해 검증 작업이 누적. 전용 도구가 없어 오픈소스 라벨링 툴이나 스프레드시트를 매번 새로 세팅, 골든셋이 프로젝트마다 흩어져 중복 검증과 재사용 불가. 모델 교체·프롬프트 변경마다 엔지니어 지원이 필요해 DO팀의 자율성도 제약. 이 병목을 한 어드민으로 묶는 것이 출발점.
해결 / 접근
Flywheel 구조 — 모델/프롬프트 → 추론 → 검증·리뷰 → 골든셋 → 모델 평가
이전 실험 결과가 다음 실험의 출발점이 되는 순환을 어드민 한 곳에서 진행.
모델·프롬프트 관리
- DO팀이 웹 UI에서 직접 모델·프롬프트 등록·변경, 엔지니어 커뮤니케이션 없이 실험 준비
- OpenAI·Google 외부 API + 무신사 내부 추론 모델 API 모두 연동
- 대규모 검증용 데이터에는 Batch inference API 사용
오토필 추론
- 등록된 모델·프롬프트 조합을 선택하면 추론 결과가 pre-label로 자동 생성
- 같은 데이터에 여러 조합을 돌려 결과 비교 가능
검증·리뷰
- 작업자/검수자 권한 분리, 검수자가 작업 현황 실시간 확인
- 두 가지 뷰 — Spread view(개별 아이템 집중 검토), Grid view(여러 아이템을 한눈에 비교, 다중 선택·다중 수정)
골든셋 관리
- 작업 + 검수 2단계를 통과한 데이터가 자동으로 골든셋(Golden Set)으로 승격
- 골든셋은 전역 자산으로 여러 프로젝트에서 공유, 다음 검증 작업에서 자동 제외돼 중복 비용 차단
모델 평가
- 골든셋을 정답셋으로 두고 매칭 데이터에 대해 카테고리별 정확도·정밀도·재현율·F1 자동 산출
- 모델·프롬프트 조합 간 결과를 한 화면에서 비교, 프롬프트 실험 성과를 실시간 검증
- 이전: MLE가 평가 코드를 직접 수정·작성, 프로젝트별 평가 기준이 달라 일관 해석 곤란
결과 / 참고
- 데이터 검증 시간 기존 대비 약 54% 단축
- 협업 효율 — DO팀이 도메인 지식 기반으로 실험을 주도, MLE팀은 모델 연구·최적화에 집중
- AI 검증 프로세스 자동화 — 서비스 모델 생성 메타데이터를 AI 검증으로 평가, 신뢰도 낮으면 VLMOps 어드민으로 전달, 사람 검수 결과를 검증·재학습에 반영하는 검증→검수→재학습 선순환
- 출처: 무신사 테크 (Medium)
- 작성팀: 데이터 오퍼레이션팀(서정민), 검색 엔지니어링팀(박준건)
- 적용 대상: 상품 메타데이터 추출 (카테고리·속성), 향후 사내 다양한 AI 과제로 확장 예정