무신사의 VLMOps 어드민 — 상품 분류 검증·실험·평가 통합 도구

요약

무신사가 VLM 기반 상품 메타데이터 추출에 필요한 Human-in-the-loop 작업을 VLMOps 어드민으로 통합. DO팀이 엔지니어 도움 없이 모델 교체·프롬프트 변경·Batch inference·검증·골든셋 승격·모델 평가를 웹 UI에서 직접 수행. 결과: 데이터 검증 시간 기존 대비 54% 단축, MLE팀은 모델 연구에 집중.

내용

무신사는 상품 카테고리 분류와 속성 추출을 자동화하기 위해 멀티모달 ML 모델 → VLM(Visual Language Model)으로 옮겨가는 중. VLM은 사전학습 덕에 별도 학습 없이 prompt engineering만으로 결과를 얻고 "추론 → 평가 → 프롬프트 조정 → 재추론" 이터레이션이 빠르다는 게 장점. 그러나 사전학습 지식만으로는 서비스 맥락이 채워지지 않아 사람의 검증·교정이 필수.

검증이 필요한 실제 예: 데님 재킷과 니트 스웨터가 결합된 상품을 AI는 니트 비중이 크다는 이유로 '니트 스웨터'로 분류하지만, 사람은 브랜드 의도·착용 방식·서비스 맥락을 보고 '데님 재킷'을 더 적합하다고 판단. 한쪽 민소매·한쪽 반소매 디자인은 기존 소매 기장 속성으로 잡히지 않아 '언발란스 소매' 같은 새 속성을 택소노미에 추가하기도 함.

이 검증을 데이터 오퍼레이션(DO)팀이 MLE와 협업해 수행하는데, 이터레이션이 빨라질수록 매번 다른 결과를 검토해야 해 검증 작업이 누적. 전용 도구가 없어 오픈소스 라벨링 툴이나 스프레드시트를 매번 새로 세팅, 골든셋이 프로젝트마다 흩어져 중복 검증과 재사용 불가. 모델 교체·프롬프트 변경마다 엔지니어 지원이 필요해 DO팀의 자율성도 제약. 이 병목을 한 어드민으로 묶는 것이 출발점.

해결 / 접근

Flywheel 구조 — 모델/프롬프트 → 추론 → 검증·리뷰 → 골든셋 → 모델 평가
이전 실험 결과가 다음 실험의 출발점이 되는 순환을 어드민 한 곳에서 진행.

모델·프롬프트 관리

DO팀이 웹 UI에서 직접 모델·프롬프트 등록·변경, 엔지니어 커뮤니케이션 없이 실험 준비
OpenAI·Google 외부 API + 무신사 내부 추론 모델 API 모두 연동
대규모 검증용 데이터에는 Batch inference API 사용

오토필 추론

등록된 모델·프롬프트 조합을 선택하면 추론 결과가 pre-label로 자동 생성
같은 데이터에 여러 조합을 돌려 결과 비교 가능

검증·리뷰

작업자/검수자 권한 분리, 검수자가 작업 현황 실시간 확인
두 가지 뷰 — Spread view(개별 아이템 집중 검토), Grid view(여러 아이템을 한눈에 비교, 다중 선택·다중 수정)

골든셋 관리

작업 + 검수 2단계를 통과한 데이터가 자동으로 골든셋(Golden Set)으로 승격
골든셋은 전역 자산으로 여러 프로젝트에서 공유, 다음 검증 작업에서 자동 제외돼 중복 비용 차단

모델 평가

골든셋을 정답셋으로 두고 매칭 데이터에 대해 카테고리별 정확도·정밀도·재현율·F1 자동 산출
모델·프롬프트 조합 간 결과를 한 화면에서 비교, 프롬프트 실험 성과를 실시간 검증
이전: MLE가 평가 코드를 직접 수정·작성, 프로젝트별 평가 기준이 달라 일관 해석 곤란

결과 / 참고

데이터 검증 시간 기존 대비 약 54% 단축
협업 효율 — DO팀이 도메인 지식 기반으로 실험을 주도, MLE팀은 모델 연구·최적화에 집중
AI 검증 프로세스 자동화 — 서비스 모델 생성 메타데이터를 AI 검증으로 평가, 신뢰도 낮으면 VLMOps 어드민으로 전달, 사람 검수 결과를 검증·재학습에 반영하는 검증→검수→재학습 선순환
출처: 무신사 테크 (Medium)
작성팀: 데이터 오퍼레이션팀(서정민), 검색 엔지니어링팀(박준건)
적용 대상: 상품 메타데이터 추출 (카테고리·속성), 향후 사내 다양한 AI 과제로 확장 예정

요약

내용

해결 / 접근

모델·프롬프트 관리

DO팀이 웹 UI에서 직접 모델·프롬프트 등록·변경, 엔지니어 커뮤니케이션 없이 실험 준비
OpenAI·Google 외부 API + 무신사 내부 추론 모델 API 모두 연동
대규모 검증용 데이터에는 Batch inference API 사용

오토필 추론

등록된 모델·프롬프트 조합을 선택하면 추론 결과가 pre-label로 자동 생성
같은 데이터에 여러 조합을 돌려 결과 비교 가능

검증·리뷰

작업자/검수자 권한 분리, 검수자가 작업 현황 실시간 확인
두 가지 뷰 — Spread view(개별 아이템 집중 검토), Grid view(여러 아이템을 한눈에 비교, 다중 선택·다중 수정)

골든셋 관리

작업 + 검수 2단계를 통과한 데이터가 자동으로 골든셋(Golden Set)으로 승격
골든셋은 전역 자산으로 여러 프로젝트에서 공유, 다음 검증 작업에서 자동 제외돼 중복 비용 차단

모델 평가

골든셋을 정답셋으로 두고 매칭 데이터에 대해 카테고리별 정확도·정밀도·재현율·F1 자동 산출
모델·프롬프트 조합 간 결과를 한 화면에서 비교, 프롬프트 실험 성과를 실시간 검증
이전: MLE가 평가 코드를 직접 수정·작성, 프로젝트별 평가 기준이 달라 일관 해석 곤란

결과 / 참고

데이터 검증 시간 기존 대비 약 54% 단축
협업 효율 — DO팀이 도메인 지식 기반으로 실험을 주도, MLE팀은 모델 연구·최적화에 집중
AI 검증 프로세스 자동화 — 서비스 모델 생성 메타데이터를 AI 검증으로 평가, 신뢰도 낮으면 VLMOps 어드민으로 전달, 사람 검수 결과를 검증·재학습에 반영하는 검증→검수→재학습 선순환
출처: 무신사 테크 (Medium)
작성팀: 데이터 오퍼레이션팀(서정민), 검색 엔지니어링팀(박준건)
적용 대상: 상품 메타데이터 추출 (카테고리·속성), 향후 사내 다양한 AI 과제로 확장 예정

무신사의 VLMOps 어드민 — 상품 분류 검증·실험·평가 통합 도구

요약

내용

해결 / 접근

결과 / 참고

댓글 0

무신사의 VLMOps 어드민 — 상품 분류 검증·실험·평가 통합 도구

요약

내용

해결 / 접근

결과 / 참고

댓글 0