무신사의 Qwen3 기반 AI 후기 요약 기능 도입기
무신사가 후기 10만 개 상품의 정보 과부하 해결을 위해 Qwen3-VL-8B 자체 구동 + 9단계 후처리 + 아더컬러 폴백 구조를 도입, Phase 1 만족도 84.6%
요약
무신사가 상품 후기가 10만 건에 이르는 정보 과부하를 풀기 위해 AI 후기 요약 기능을 도입. 자체 서버에서 Qwen3-VL-8B-Instruct를 돌려 긍부정 880만 건·키워드 2,100만 건을 처리하고, 9단계 후처리와 신상품용 폴백 구조까지 더해 Phase 1 첫 주 사용자 만족도 84.6% 기록.
내용
상품 상세 페이지의 후기 영역은 구매 결정에 직접 닿는 공간. 그러나 한 줄에 3초씩 잡아도 10만 개를 다 읽으려면 약 83시간(3일 반)이 걸리는 양이라, 후기가 많을수록 "이 바지 허벅지 넉넉한가요?" 같은 단순 질문에 닿기까지 수십 개를 스크롤해야 하는 역설이 발생.
PM·PD·Core 엔지니어링이 함께 붙어 푼 문제. 모델 호출은 파이프라인의 일부일 뿐이고, 요약 포맷·커버리지·후처리·UX·파트너 관계까지 결정해야 했던 것이 출발점.
해결 / 접근
요약 포맷 — 두 가지 병행
- 키워드 요약 (의류 전용): 사이즈·핏·소재·두께감 등 의류 12개 키워드별 한 줄 정리
- 장단점 요약 (전 카테고리): 좋은 점 최대 3개 + 참고할 점 최대 2개. 생활용품·뷰티는 키워드로 쪼개기 어려움
사용자 리서치에서 신중한 사용자는 장단점 정독, 빠른 판단 사용자는 키워드 스캔을 선호 → 의류 상품은 두 방식 모두, 그 외엔 장단점만 노출.
Priority Fallback (커버리지 확장)
신상품은 후기 부족으로 요약 최소 조건 미달 → 무신사의 '아더 컬러'(같은 옷 다른 색상 묶음) 활용.
- Priority 1: 해당 상품 자체 후기로 요약
- Priority 2: 아더 컬러 전체 후기로 요약 (검정 후기 3개 + 흰색·네이비·그레이·베이지 합쳐 수백 건)
자체 후기가 쌓이면 자동으로 Priority 1로 전환. 별도 전환 로직 없이 우선순위 기반 동작 → 신상품도 출시 직후 요약 제공.
모델 선택 — Qwen3-VL-8B-Instruct
GPT·Gemini 같은 상용 API는 긍부정 880만 건 + 키워드 2,100만 건 처리에 비용이 안 맞아 자체 서버 구동 가능한 오픈소스에서 Qwen3-VL-8B-Instruct 선정.
프롬프트 — 추상화된 템플릿
작은 모델에 "소재가 부드럽고 착용감이 좋아요" 같은 구체적 few-shot 예시를 넣었더니 거의 그대로 복사 → 수백 개 상품에 동일 문장 반복. 방향을 바꿔 구조만 제공.
- [속성]이 [평가]해요 (단순)
- [속성] 덕분에 [결과]해요 (인과)
- [기대/가격] 대비 [평가]해요 (비교)
결론: 작은 모델에서 구체적 예시는 복사를 유발, 추상적 템플릿은 변주를 유발.
9단계 후처리 파이프라인
프롬프트 규칙만으론 부족. 한자 제거·치환 → 접두어 제거 → 해요체 필터링 → 문장부호 정규화 → 문법 교정 → 60자 제한 → 색상 언급 제거 → 긍부정 균형 검증 → 결과 정렬. 이후에도 추가 검수, 통과한 것만 노출.
단점 표현 — 쿠션어 적용
플랫폼 딜레마(파트너사 우려 vs 고객 신뢰). 결정: 단점은 숨기지 않되 표현을 완화. "일부 후기에서는~", "드물지만~"으로 톤 조절. 파트너 38명 사전 설문에서 후기 맥락 왜곡·부정적 노출 우려가 가장 컸던 결과 반영.
UX — 신뢰감 설계
- 상품 상세 최상단에 'AI 후기 요약 보기' 숏컷 배치
- 요약을 후기 리스트 최상단에 두어 사용자가 스크롤로 원본과 교차 검증 가능
- Blue(데이터·신뢰) + Purple(생성·창의) 컬러 시스템, 로딩 시 그라데이션 좌→우 흐름, 완성 시 고정. 타이핑 모션으로 대화형 AI UI 패턴 차용
결과 / 참고
- Phase 1 배포 첫 주 사용자 만족도 약 84.6%
- 처리 규모: 긍부정 분석 880만 건 + 키워드 분석 2,100만 건
- 작성 주체: 무신사 Product 본부 PM 박소정·PD 이루나, Core 엔지니어링 본부 박성준
- 향후: Phase 2에서 키워드별 심화 요약 예정
- 피드백 수집: 요약 하단 '도움이 됐어요/별로예요' 버튼, '별로예요' 선택 시 객관식·주관식으로 사유 수집 → 모델·검수 기준 개선에 직접 반영
- 출처: MUSINSA techblog (Medium)