"힘세고 강한 아침"을 넘어: 번역등 단순작업에 대한 평가 기준 세우기
무신사 주문개발팀이 GPT-4o-mini · TranslateGemma 27B(Q6) · gpt-oss:20b를 100점 채점으로 비교, 패션 도메인 용어·구어체·한글 잔존에서 TranslateGemma가 우위
요약
무신사가 리뷰 번역 운영 모델을 GPT-4o-mini에서 온프레미스 오픈 모델로 교체할지 검토. 정량 50 + 정성 50 채점 체계로 한국어 리뷰 11건을 한→일·한→영 번역해 3개 모델 비교. 도메인 용어 의미 보존(오리털→ダウンジャケット), 맨투맨 같은 패션 용어, ㅋㅋ 같은 구어체 잔존 여부에서 TranslateGemma 27B(Q6)가 사고 포인트가 가장 적음.
내용
무신사는 그동안 GPT-4o-mini로 리뷰 번역을 운영. 도입 난이도와 안정성 측면에서 합리적 선택이었으나, 글로벌 문장량이 늘면서 운영 관점 빈틈이 누적 — 패션 도메인 단어가 다른 의미로 바뀌거나 음차로 흘러가는 패턴, 영어·일어 문장에 ㅋㅋ가 잔존하는 검수 의심 포인트, 매월 늘어나는 API 호출 비용.
비교 후보로 등장한 게 2026-01-15에 Google이 발표한 번역 특화 오픈 모델 TranslateGemma. 4B/12B/27B 체급 제공, "번역에 특화"라는 점이 키. 추가로 같은 OpenAI 계열의 비슷한 파라미터 규모 공개 모델인 gpt-oss:20b를 비교 대상에 포함.
이커머스 번역의 까다로운 지점은 일반 번역과 다름 — 용어가 곧 검색·CS와 연결되고, 브랜드·고유명사는 번역이 아니라 보존이며, 리뷰는 ㅋㅋ/ㅠㅠ/줄임말 같은 구어체 비중이 높음. 양자화(Q6)는 모델 가중치를 더 작은 비트로 압축해 메모리·서버 비용을 줄이는 기법, 27B(Q6)는 운영 가능한 자원 안에서 품질 하락을 크게 느끼지 않는 균형점.
해결 / 접근
채점 체계 (100점)
- 정량 50점: 미번역(한글 잔존) 15 / 오역·환각 15 / 안정성(실패·재시도) 10 / 속도·운영성 10
- 정성 50점: 특수 표현·구어체 20 / 용어·브랜드·고유명사 15 / 자연스러움·번역투 15
- 데이터: 실제 유저 한국어 리뷰 11건 (평균 583자), 한→일·한→영 번역
- 비교: TranslateGemma 27B(Q6) / GPT-4o-mini / gpt-oss:20b
케이스 1 — 용어/브랜드: "오리털 패딩"
- GPT-4o-mini → "オリタルパディング" (오리털 패딩 음차, 의미 전달 X) + "餅のない"(떡이 없다) 같은 환각
- TranslateGemma → "ダウンジャケット" (의미 살림), "ムタンダード" (한글 잔존 없이 브랜드 보존)
- gpt-oss:20b → "ダックファー" (덕 퍼, 의미 오역), 무탠다드가 한글 그대로 잔존
케이스 2 — 패션 도메인 단어: "맨투맨"
- GPT-4o-mini → "マンツーマン" (1:1·개인 지도 의미로 완전 전환), キビ(기장 번역 실패), ピット(핏 오역)
- TranslateGemma → "スウェット" (스웨트셔츠 일반 표현)
- 단어 하나로 의미가 완전히 바뀌는 케이스
케이스 3 — 구어체: "ㅋㅋ"
- GPT-4o-mini (영어) → "did levitation jumps dozens of times ㅋㅋ" (한글 잔존 + "공중부양 점프" 직역)
- TranslateGemma (영어) → "so I jumped up and down like I was floating in the air!" (문장 리듬 안에서 자연스럽게 처리)
- gpt-oss:20b (일본어) → 일본어 문장에 ㅋㅋ 잔존
케이스 4 — 자연스러움: "딸램", "고급스러워용"
- GPT-4o-mini → "娘ラム" (딸+의미없는 음차, 일본어에 없는 단어), "高級感用" (-용 어미가 用으로 붙어 "고급감 용도?"로 읽힘)
- TranslateGemma → "娘が…", "イエベ(イエローベース)" (웜톤을 일본어권 표현으로 풀이)
감점 패턴 정리
- 도메인 용어에서 가장 크게 갈림 — 의미 번역 vs 음차 vs 의미 오역
- 한글 잔존은 "어색함"이 아니라 "검수 안 했다"는 운영 사고로 인식
- 구어체 처리는 삭제·잔존이 아니라 문장 리듬 안에서의 풀이가 핵심
결과 / 참고
- TranslateGemma 27B(Q6)가 한글 잔존·의미 붕괴 같은 사고 포인트가 가장 적음, 용어·구어체·가독성에서 이커머스 문장처럼 다루는 일관성 우위
- GPT-4o-mini는 빠르고 안정적이며 도입 난이도 낮아 초기 선택으로는 합리적, 다만 서비스 규모가 커지며 비용·리스크 관점에서 교체 검토 가치 발생
- 작성자는 ML 개발자가 아닌 주문 도메인 백엔드 개발자 — 운영에서 번역이 안전하게 굴러가는 관점으로 정리
- TranslateGemma: 4B/12B/27B 체급, Q6 양자화로 속도-품질 균형
- 출처: 무신사 MSS-E Order (양치수), 2026
- 참고: Google TranslateGemma 소개, arXiv 기술 보고서 (2601.09012)