무신사의 AI 네이티브 엔지니어 채용 설계 — 문제 철학

요약

무신사가 2026년 1월 AI 네이티브 엔지니어 채용을 위해 기존 LeetCode 식 코딩 테스트를 폐기, 자체 평가 파이프라인 구축. OpenAI 협업으로 모든 지원자에게 무료 토큰 제공해 도구 격차 제거 → 의도적으로 모호한 수강신청 시스템 문제 + 3-Tier 자동 평가로 사고 깊이 측정. 약 400명 지원자가 AI 파이프라인으로 자동 평가됨.

내용

AI 에이전트가 LeetCode medium을 몇 초, hard도 프롬프트 한 번에 푸는 시점에 기존 코딩 테스트는 "2020년식 코딩 능력"을 측정하는 시험으로 전락. Andrew Ng의 진단대로 만드는 일과 결정하는 일 사이의 무게중심이 옮겨지면서 PM:엔지니어 비율이 7~8:1에서 2:1·1:1까지 무너지는 중 — 비싼 건 "무엇을 구현할지 아는 것".

업계 신입 채용 반응은 셋으로 갈림 — AI 사용 금지(목수에게 전동 공구 빼고 일하라는 것), 무시(에이전트로 60초에 풀리는 알고리즘 문제 그대로 출제), 동결(국내 IT 신입 공채 전년 대비 67% 감소). 무신사는 동결 대신 자체 정의·테스트·파이프라인 구축으로 선제 대응.

테스트 설계의 핵심 4질문: 기존 테스트 한계, 공정성 확보, 모호함 허용 범위, 테스트 가능성과 모호함 균형. AI 네이티브 채용 시리즈 3부작 중 Part 1, 본 글은 철학·문제 설계·평가 모델 (Part 2 머신 / Part 3 휴먼은 후속).

해결 / 접근

공정성 — 도구 격차 제거

처음에는 각자 로컬 환경 자유 사용을 검토 — ChatGPT Pro, Claude Max, 커스텀 프롬프트 가진 지원자와의 격차가 실력이 아니라 자본 차이로 귀결
OpenAI와 협업, 모든 지원자에게 충분한 토큰의 무료 에이전트 제공
도구 조건을 맞춘 뒤 진짜 사고력 측정

모호함의 스펙트럼 — sweet spot

완전 모호("유용한 걸 만들어라"): 신호 부족
반쪽 모호(API 엔드포인트·DB 스키마·UI 지정): AI가 추론으로 몇 분 만에 채움
Sweet spot: 모호한 요구사항 + 명확한 결과 기대치 — 지원자가 "무엇을 만들지" 도출, AI는 실행만 가능
엣지 케이스 처리·NFR·API 엔드포인트 모두 비지정, "명시되지 않은 모든 사항은 자유롭게 결정하세요" 한 줄 추가

테스트 가능성 vs 모호함 딜레마 → 오픈소스 방식

풀 서비스를 자동 채점하려면 Docker·테스트 인프라를 강제해야 하는데, 이게 곧 구현 힌트가 됨
해법: "좋은 오픈소스 프로젝트처럼 문서화하라" — README, 빌드 스크립트, 헬스체크, API 문서 포함
평가 에이전트(AI)가 README를 읽고 빌드·테스트 자동 실행
코드 포장 방식 자체가 평가 대상

문제 — 대학교 수강신청 시스템

기획팀 메모 형식: "매 학기 수강신청 기간마다 서버가 다운…정원이 1명 남은 강좌에 100명이 동시에 신청해도, 정확히 1명만 성공해야 합니다"
기본 기능(학생·강좌 조회, 수강신청·취소, 시간표), 18학점 상한, 시간 충돌만 언급
락 메커니즘·성능 요구사항·인증 모델·취소 정책·선수과목 규칙 비지정

숨겨진 깊이 1 — 데이터 설계 함정

학생 10,000명 이상, 강좌 500개 이상, 교수 100명 이상, 1분 이내 동적 생성 요구
강좌 시간표 랜덤 배정 시 모두 겹쳐 시간 충돌 테스트 무의미, 정원이 너무 크면 동시성 테스트 사소화
미리 생각한 지원자: 데이터 생성을 시스템 설계 차원에서 다룸 (다양한 시간표, 타이트한 정원, 현실적 관계)
그렇지 않은 지원자: 기술적으로 유효하지만 테스트할 가치 없는 데이터

숨겨진 깊이 2 — 동시성 사다리

pessimistic lock, optimistic lock, 큐, 단일 머신 vs 분산 — 어떤 수준도 "틀린" 게 아님
synchronized 선택 + 단일 인스턴스 범위·트레이드오프 정리 > 이유 모르고 Redis 락 쓴 경우
추론이 메커니즘보다 중요 — 어떤 락이 아니라 왜 그 락인지

숨겨진 깊이 3 — 이중 락

강좌 레벨 락만으로는 부족: 같은 학생이 두 과목에 동시 요청 시 둘 다 "18학점 미만" 통과 → 21학점으로 학점 제한 깨짐
강좌 레벨 직렬화 = 정원(공유 자원) 보호, 학생 레벨 직렬화 = 학생별 제약(학점·시간 충돌·중복 수강) 보호
두 범위 모두 구현한 명확한 증거 남긴 지원자는 5명 중 1명 미만, 그중 절반만 프롬프트·설계 문서에서 직접 짚음
락 순서 데드락은 추가 함정

3-Tier 평가 모델

Tier 1 Make it Work: 빌드·실행·헬스체크 통과
Tier 2 Basic Features: API 동작·비즈니스 규칙·동시성 제어를 Docker 컨테이너에서 자동 테스트 (Duck Typing — 동작이 곧 검증)
Tier 3 Deep Thought: 프롬프트 이력, 에이전트 지침, 요구사항 도출 문서, 데이터 설계, 코드 품질, 테스트 커버리지, git 이력을 AI가 평가. 모든 점수에 파일 경로·라인 번호 근거 첨부

채점의 핵심 — 사고의 깊이 > 기능적 완성도

기능 점수↑ + 깊이 얕음 = AI 과의존 신호
빌드 실패 + 설계 사고 탁월 = 면접 대상
AI에게 맡기기만 한 케이스 vs 이해하면서 쓴 케이스를 가르는 게 Tier 3 목적
Anthropic 연구 (Shen & Tamkin, 2026): 최고 성과 엔지니어 1.2~2배 생산성은 AI를 사고 파트너로 쓴 경우

결과 / 참고

약 400명 지원자에 대한 AI 자동 평가 파이프라인 운영
Duck Typing 원칙: 깊은 사고의 결과·과정이 있다면 혼자 도달했든 에이전트 대화로 도달했든 동일하게 인정
이 글은 AI 네이티브 채용 시리즈 3부작 Part 1 (Philosophy), Part 2 The Machine·Part 3 The Human은 후속 예정
출처: 무신사 테크블로그 (2026-01)
인용: Andrew Ng (Stanford CS 강의), Anthropic Shen & Tamkin (2026) "How AI assistance impacts the formation of coding skills"
협업: OpenAI (지원자 무료 토큰 제공)

요약

내용

해결 / 접근

공정성 — 도구 격차 제거

처음에는 각자 로컬 환경 자유 사용을 검토 — ChatGPT Pro, Claude Max, 커스텀 프롬프트 가진 지원자와의 격차가 실력이 아니라 자본 차이로 귀결
OpenAI와 협업, 모든 지원자에게 충분한 토큰의 무료 에이전트 제공
도구 조건을 맞춘 뒤 진짜 사고력 측정

모호함의 스펙트럼 — sweet spot

완전 모호("유용한 걸 만들어라"): 신호 부족
반쪽 모호(API 엔드포인트·DB 스키마·UI 지정): AI가 추론으로 몇 분 만에 채움
Sweet spot: 모호한 요구사항 + 명확한 결과 기대치 — 지원자가 "무엇을 만들지" 도출, AI는 실행만 가능
엣지 케이스 처리·NFR·API 엔드포인트 모두 비지정, "명시되지 않은 모든 사항은 자유롭게 결정하세요" 한 줄 추가

테스트 가능성 vs 모호함 딜레마 → 오픈소스 방식

풀 서비스를 자동 채점하려면 Docker·테스트 인프라를 강제해야 하는데, 이게 곧 구현 힌트가 됨
해법: "좋은 오픈소스 프로젝트처럼 문서화하라" — README, 빌드 스크립트, 헬스체크, API 문서 포함
평가 에이전트(AI)가 README를 읽고 빌드·테스트 자동 실행
코드 포장 방식 자체가 평가 대상

문제 — 대학교 수강신청 시스템

기획팀 메모 형식: "매 학기 수강신청 기간마다 서버가 다운…정원이 1명 남은 강좌에 100명이 동시에 신청해도, 정확히 1명만 성공해야 합니다"
기본 기능(학생·강좌 조회, 수강신청·취소, 시간표), 18학점 상한, 시간 충돌만 언급
락 메커니즘·성능 요구사항·인증 모델·취소 정책·선수과목 규칙 비지정

숨겨진 깊이 1 — 데이터 설계 함정

학생 10,000명 이상, 강좌 500개 이상, 교수 100명 이상, 1분 이내 동적 생성 요구
강좌 시간표 랜덤 배정 시 모두 겹쳐 시간 충돌 테스트 무의미, 정원이 너무 크면 동시성 테스트 사소화
미리 생각한 지원자: 데이터 생성을 시스템 설계 차원에서 다룸 (다양한 시간표, 타이트한 정원, 현실적 관계)
그렇지 않은 지원자: 기술적으로 유효하지만 테스트할 가치 없는 데이터

숨겨진 깊이 2 — 동시성 사다리

pessimistic lock, optimistic lock, 큐, 단일 머신 vs 분산 — 어떤 수준도 "틀린" 게 아님
synchronized 선택 + 단일 인스턴스 범위·트레이드오프 정리 > 이유 모르고 Redis 락 쓴 경우
추론이 메커니즘보다 중요 — 어떤 락이 아니라 왜 그 락인지

숨겨진 깊이 3 — 이중 락

강좌 레벨 락만으로는 부족: 같은 학생이 두 과목에 동시 요청 시 둘 다 "18학점 미만" 통과 → 21학점으로 학점 제한 깨짐
강좌 레벨 직렬화 = 정원(공유 자원) 보호, 학생 레벨 직렬화 = 학생별 제약(학점·시간 충돌·중복 수강) 보호
두 범위 모두 구현한 명확한 증거 남긴 지원자는 5명 중 1명 미만, 그중 절반만 프롬프트·설계 문서에서 직접 짚음
락 순서 데드락은 추가 함정

3-Tier 평가 모델

Tier 1 Make it Work: 빌드·실행·헬스체크 통과
Tier 2 Basic Features: API 동작·비즈니스 규칙·동시성 제어를 Docker 컨테이너에서 자동 테스트 (Duck Typing — 동작이 곧 검증)
Tier 3 Deep Thought: 프롬프트 이력, 에이전트 지침, 요구사항 도출 문서, 데이터 설계, 코드 품질, 테스트 커버리지, git 이력을 AI가 평가. 모든 점수에 파일 경로·라인 번호 근거 첨부

채점의 핵심 — 사고의 깊이 > 기능적 완성도

기능 점수↑ + 깊이 얕음 = AI 과의존 신호
빌드 실패 + 설계 사고 탁월 = 면접 대상
AI에게 맡기기만 한 케이스 vs 이해하면서 쓴 케이스를 가르는 게 Tier 3 목적
Anthropic 연구 (Shen & Tamkin, 2026): 최고 성과 엔지니어 1.2~2배 생산성은 AI를 사고 파트너로 쓴 경우

결과 / 참고

약 400명 지원자에 대한 AI 자동 평가 파이프라인 운영
Duck Typing 원칙: 깊은 사고의 결과·과정이 있다면 혼자 도달했든 에이전트 대화로 도달했든 동일하게 인정
이 글은 AI 네이티브 채용 시리즈 3부작 Part 1 (Philosophy), Part 2 The Machine·Part 3 The Human은 후속 예정
출처: 무신사 테크블로그 (2026-01)
인용: Andrew Ng (Stanford CS 강의), Anthropic Shen & Tamkin (2026) "How AI assistance impacts the formation of coding skills"
협업: OpenAI (지원자 무료 토큰 제공)

무신사의 AI 네이티브 엔지니어 채용 설계 — 문제 철학

요약

내용

해결 / 접근

결과 / 참고

댓글 0

무신사의 AI 네이티브 엔지니어 채용 설계 — 문제 철학

요약

내용

해결 / 접근

결과 / 참고

댓글 0