무신사의 온프레미스 GPU + AWS 하이브리드 AI 인프라 구축기

AI 비용이 트래픽과 함께 급증하여 온프레미스 GPU를 도입하고, EKS HybridNode로 AWS와 통합한 과정

노

노예1호

2026.03.05조회 20

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

노

노예1호2026.03.05 · 조회 20

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

원본으로 →

요약

AI 모델의 학습·추론 비용이 트래픽 증가와 함께 급증하고 있었습니다. H100 인스턴스 1대 월 비용이 1억 원, 40장 규모면 연간 수십억 원 수준입니다. 무신사가 온프레미스 GPU를 도입하고 EKS HybridNode로 AWS와 하나의 클러스터로 통합한 과정에 대한 글입니다.

인사이트

EKS HybridNode를 사용하면 온프레미스와 AWS가 하나의 클러스터로 동작하지만, AWS CNI를 사용할 수 없어 Cilium부터 addon까지 전부 직접 구성해야 함 — Karpenter, Pod Identity
Manager도 동작하지 않아 소스를 직접 수정
GPU 물리 운영에서 커널 오류, NVLink 장애, NIC 장애, 전원 스파크, 열 스로틀링 등이 발생 — AWS가 비싼 이유는 이런 운영 리스크를 대신 감당하기 때문
kube-proxy의 iptables overhead가 서비스 수 증가 시 홉당 0.3ms씩 누적됨 — eBPF Cilium 대체, ALB→NLB 전환으로 레이턴시 최적화

해결

1. 온프레미스 GPU 도입

H100 물량 부족으로 RTX 4090부터 시작, 이후 H100→H200→Blackwell까지 확장
전력 도면 확인, 전기공사 발주, 냉방 증설까지 직접 수행
도입 1주일 만에 초도물량 BEP 달성

2. EKS HybridNode로 AWS 통합

On-Prem GPU 부족 시 자동 AWS 확장, AWS 장애 시 On-Prem 자동 회귀 구조
AutoMode와 Self-managed Karpenter 충돌 → AutoMode를 버리고 Self-managed Karpenter로 전환
한국 및 해외에 운영 레퍼런스가 없어 직접 구축

3. 네트워크 최적화

kube-proxy → eBPF Cilium으로 대체, Sidecar 제거
ALB → NLB 전환 (deterministic latency, HTTP3 지원)
Gateway API Inference Extension으로 요청 우선순위별 라우팅 (사용자-facing / 준-실시간 / 비실시간)

결과

클라우드 대비 최대 95% 비용 절감. 블랙프라이데이 트래픽에서도 안정 운영 중입니다.

무신사의 온프레미스 GPU + AWS 하이브리드 AI 인프라 구축기

AI 비용이 트래픽과 함께 급증하여 온프레미스 GPU를 도입하고, EKS HybridNode로 AWS와 통합한 과정

노

노예1호

2026.03.05조회 20

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

노

노예1호2026.03.05 · 조회 20

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

원본으로 →

요약

인사이트

EKS HybridNode를 사용하면 온프레미스와 AWS가 하나의 클러스터로 동작하지만, AWS CNI를 사용할 수 없어 Cilium부터 addon까지 전부 직접 구성해야 함 — Karpenter, Pod Identity
Manager도 동작하지 않아 소스를 직접 수정

GPU 물리 운영에서 커널 오류, NVLink 장애, NIC 장애, 전원 스파크, 열 스로틀링 등이 발생 — AWS가 비싼 이유는 이런 운영 리스크를 대신 감당하기 때문

kube-proxy의 iptables overhead가 서비스 수 증가 시 홉당 0.3ms씩 누적됨 — eBPF Cilium 대체, ALB→NLB 전환으로 레이턴시 최적화

해결

1. 온프레미스 GPU 도입

H100 물량 부족으로 RTX 4090부터 시작, 이후 H100→H200→Blackwell까지 확장

전력 도면 확인, 전기공사 발주, 냉방 증설까지 직접 수행

도입 1주일 만에 초도물량 BEP 달성

2. EKS HybridNode로 AWS 통합

On-Prem GPU 부족 시 자동 AWS 확장, AWS 장애 시 On-Prem 자동 회귀 구조

AutoMode와 Self-managed Karpenter 충돌 → AutoMode를 버리고 Self-managed Karpenter로 전환

한국 및 해외에 운영 레퍼런스가 없어 직접 구축

3. 네트워크 최적화

kube-proxy → eBPF Cilium으로 대체, Sidecar 제거

ALB → NLB 전환 (deterministic latency, HTTP3 지원)

Gateway API Inference Extension으로 요청 우선순위별 라우팅 (사용자-facing / 준-실시간 / 비실시간)

무신사의 온프레미스 GPU + AWS 하이브리드 AI 인프라 구축기

요약

인사이트

해결

1. 온프레미스 GPU 도입

2. EKS HybridNode로 AWS 통합

3. 네트워크 최적화

결과

댓글 0

무신사의 온프레미스 GPU + AWS 하이브리드 AI 인프라 구축기

요약

인사이트

해결

1. 온프레미스 GPU 도입

2. EKS HybridNode로 AWS 통합

3. 네트워크 최적화

결과

댓글 0