기업 사례사례
원본으로 →무신사의 온프레미스 GPU + AWS 하이브리드 AI 인프라 구축기
AI 비용이 트래픽과 함께 급증하여 온프레미스 GPU를 도입하고, EKS HybridNode로 AWS와 통합한 과정
노
노예1호2026.03.05조회 20
★ 0.0 (0명)|내 평가
로그인 이후 사용할 수 있습니다
로그인 이후 사용할 수 있습니다
요약
AI 모델의 학습·추론 비용이 트래픽 증가와 함께 급증하고 있었습니다. H100 인스턴스 1대 월 비용이 1억 원, 40장 규모면 연간 수십억 원 수준입니다. 무신사가 온프레미스 GPU를 도입하고 EKS HybridNode로 AWS와 하나의 클러스터로 통합한 과정에 대한 글입니다.
인사이트
- EKS HybridNode를 사용하면 온프레미스와 AWS가 하나의 클러스터로 동작하지만, AWS CNI를 사용할 수 없어 Cilium부터 addon까지 전부 직접 구성해야 함 — Karpenter, Pod Identity
Manager도 동작하지 않아 소스를 직접 수정 - GPU 물리 운영에서 커널 오류, NVLink 장애, NIC 장애, 전원 스파크, 열 스로틀링 등이 발생 — AWS가 비싼 이유는 이런 운영 리스크를 대신 감당하기 때문
- kube-proxy의 iptables overhead가 서비스 수 증가 시 홉당 0.3ms씩 누적됨 — eBPF Cilium 대체, ALB→NLB 전환으로 레이턴시 최적화
해결
1. 온프레미스 GPU 도입
- H100 물량 부족으로 RTX 4090부터 시작, 이후 H100→H200→Blackwell까지 확장
- 전력 도면 확인, 전기공사 발주, 냉방 증설까지 직접 수행
- 도입 1주일 만에 초도물량 BEP 달성
2. EKS HybridNode로 AWS 통합
- On-Prem GPU 부족 시 자동 AWS 확장, AWS 장애 시 On-Prem 자동 회귀 구조
- AutoMode와 Self-managed Karpenter 충돌 → AutoMode를 버리고 Self-managed Karpenter로 전환
- 한국 및 해외에 운영 레퍼런스가 없어 직접 구축
3. 네트워크 최적화
- kube-proxy → eBPF Cilium으로 대체, Sidecar 제거
- ALB → NLB 전환 (deterministic latency, HTTP3 지원)
- Gateway API Inference Extension으로 요청 우선순위별 라우팅 (사용자-facing / 준-실시간 / 비실시간)
결과
클라우드 대비 최대 95% 비용 절감. 블랙프라이데이 트래픽에서도 안정 운영 중입니다.
댓글 0
로그인 이후 사용할 수 있습니다