무신사의 AI 네이티브 엔지니어 채용 설계 — 문제 철학
무신사가 AI 도구 사용을 금지하지 않고 모든 지원자에게 동등한 AI 환경을 제공, 모호한 요구사항에서 사고 깊이를 측정하는 채용 테스트 직접 설계
요약
무신사가 2026년 1월 AI 네이티브 엔지니어 채용을 위해 기존 LeetCode 식 코딩 테스트를 폐기, 자체 평가 파이프라인 구축. OpenAI 협업으로 모든 지원자에게 무료 토큰 제공해 도구 격차 제거 → 의도적으로 모호한 수강신청 시스템 문제 + 3-Tier 자동 평가로 사고 깊이 측정. 약 400명 지원자가 AI 파이프라인으로 자동 평가됨.
내용
AI 에이전트가 LeetCode medium을 몇 초, hard도 프롬프트 한 번에 푸는 시점에 기존 코딩 테스트는 "2020년식 코딩 능력"을 측정하는 시험으로 전락. Andrew Ng의 진단대로 만드는 일과 결정하는 일 사이의 무게중심이 옮겨지면서 PM:엔지니어 비율이 7~8:1에서 2:1·1:1까지 무너지는 중 — 비싼 건 "무엇을 구현할지 아는 것".
업계 신입 채용 반응은 셋으로 갈림 — AI 사용 금지(목수에게 전동 공구 빼고 일하라는 것), 무시(에이전트로 60초에 풀리는 알고리즘 문제 그대로 출제), 동결(국내 IT 신입 공채 전년 대비 67% 감소). 무신사는 동결 대신 자체 정의·테스트·파이프라인 구축으로 선제 대응.
테스트 설계의 핵심 4질문: 기존 테스트 한계, 공정성 확보, 모호함 허용 범위, 테스트 가능성과 모호함 균형. AI 네이티브 채용 시리즈 3부작 중 Part 1, 본 글은 철학·문제 설계·평가 모델 (Part 2 머신 / Part 3 휴먼은 후속).
해결 / 접근
공정성 — 도구 격차 제거
- 처음에는 각자 로컬 환경 자유 사용을 검토 — ChatGPT Pro, Claude Max, 커스텀 프롬프트 가진 지원자와의 격차가 실력이 아니라 자본 차이로 귀결
- OpenAI와 협업, 모든 지원자에게 충분한 토큰의 무료 에이전트 제공
- 도구 조건을 맞춘 뒤 진짜 사고력 측정
모호함의 스펙트럼 — sweet spot
- 완전 모호("유용한 걸 만들어라"): 신호 부족
- 반쪽 모호(API 엔드포인트·DB 스키마·UI 지정): AI가 추론으로 몇 분 만에 채움
- Sweet spot: 모호한 요구사항 + 명확한 결과 기대치 — 지원자가 "무엇을 만들지" 도출, AI는 실행만 가능
- 엣지 케이스 처리·NFR·API 엔드포인트 모두 비지정, "명시되지 않은 모든 사항은 자유롭게 결정하세요" 한 줄 추가
테스트 가능성 vs 모호함 딜레마 → 오픈소스 방식
- 풀 서비스를 자동 채점하려면 Docker·테스트 인프라를 강제해야 하는데, 이게 곧 구현 힌트가 됨
- 해법: "좋은 오픈소스 프로젝트처럼 문서화하라" — README, 빌드 스크립트, 헬스체크, API 문서 포함
- 평가 에이전트(AI)가 README를 읽고 빌드·테스트 자동 실행
- 코드 포장 방식 자체가 평가 대상
문제 — 대학교 수강신청 시스템
- 기획팀 메모 형식: "매 학기 수강신청 기간마다 서버가 다운…정원이 1명 남은 강좌에 100명이 동시에 신청해도, 정확히 1명만 성공해야 합니다"
- 기본 기능(학생·강좌 조회, 수강신청·취소, 시간표), 18학점 상한, 시간 충돌만 언급
- 락 메커니즘·성능 요구사항·인증 모델·취소 정책·선수과목 규칙 비지정
숨겨진 깊이 1 — 데이터 설계 함정
- 학생 10,000명 이상, 강좌 500개 이상, 교수 100명 이상, 1분 이내 동적 생성 요구
- 강좌 시간표 랜덤 배정 시 모두 겹쳐 시간 충돌 테스트 무의미, 정원이 너무 크면 동시성 테스트 사소화
- 미리 생각한 지원자: 데이터 생성을 시스템 설계 차원에서 다룸 (다양한 시간표, 타이트한 정원, 현실적 관계)
- 그렇지 않은 지원자: 기술적으로 유효하지만 테스트할 가치 없는 데이터
숨겨진 깊이 2 — 동시성 사다리
- pessimistic lock, optimistic lock, 큐, 단일 머신 vs 분산 — 어떤 수준도 "틀린" 게 아님
- synchronized 선택 + 단일 인스턴스 범위·트레이드오프 정리 > 이유 모르고 Redis 락 쓴 경우
- 추론이 메커니즘보다 중요 — 어떤 락이 아니라 왜 그 락인지
숨겨진 깊이 3 — 이중 락
- 강좌 레벨 락만으로는 부족: 같은 학생이 두 과목에 동시 요청 시 둘 다 "18학점 미만" 통과 → 21학점으로 학점 제한 깨짐
- 강좌 레벨 직렬화 = 정원(공유 자원) 보호, 학생 레벨 직렬화 = 학생별 제약(학점·시간 충돌·중복 수강) 보호
- 두 범위 모두 구현한 명확한 증거 남긴 지원자는 5명 중 1명 미만, 그중 절반만 프롬프트·설계 문서에서 직접 짚음
- 락 순서 데드락은 추가 함정
3-Tier 평가 모델
- Tier 1 Make it Work: 빌드·실행·헬스체크 통과
- Tier 2 Basic Features: API 동작·비즈니스 규칙·동시성 제어를 Docker 컨테이너에서 자동 테스트 (Duck Typing — 동작이 곧 검증)
- Tier 3 Deep Thought: 프롬프트 이력, 에이전트 지침, 요구사항 도출 문서, 데이터 설계, 코드 품질, 테스트 커버리지, git 이력을 AI가 평가. 모든 점수에 파일 경로·라인 번호 근거 첨부
채점의 핵심 — 사고의 깊이 > 기능적 완성도
- 기능 점수↑ + 깊이 얕음 = AI 과의존 신호
- 빌드 실패 + 설계 사고 탁월 = 면접 대상
- AI에게 맡기기만 한 케이스 vs 이해하면서 쓴 케이스를 가르는 게 Tier 3 목적
- Anthropic 연구 (Shen & Tamkin, 2026): 최고 성과 엔지니어 1.2~2배 생산성은 AI를 사고 파트너로 쓴 경우
결과 / 참고
- 약 400명 지원자에 대한 AI 자동 평가 파이프라인 운영
- Duck Typing 원칙: 깊은 사고의 결과·과정이 있다면 혼자 도달했든 에이전트 대화로 도달했든 동일하게 인정
- 이 글은 AI 네이티브 채용 시리즈 3부작 Part 1 (Philosophy), Part 2 The Machine·Part 3 The Human은 후속 예정
- 출처: 무신사 테크블로그 (2026-01)
- 인용: Andrew Ng (Stanford CS 강의), Anthropic Shen & Tamkin (2026) "How AI assistance impacts the formation of coding skills"
- 협업: OpenAI (지원자 무료 토큰 제공)