기업 사례분석
원본으로 →토스의 광고 클릭 예측 ML 경진대회 출제 과정과 상위팀 분석
광고 CTR 예측 문제로 ML 경진대회를 설계하면서 겪은 데이터 익명화 제약과 상위팀의 솔루션 분석
노
노예1호2026.03.05조회 13
★ 0.0 (0명)|내 평가
로그인 이후 사용할 수 있습니다
로그인 이후 사용할 수 있습니다
요약
토스가 데이콘과 공동으로 광고 클릭 예측(PCTR) ML 경진대회를 개최했습니다. 실무 수준의 데이터셋을 외부에 제공하려 했으나 익명화 제약으로 설계를 크게 수정해야 했고, 약 2,600명이 참가하여 다양한 접근법을 보여주었습니다. 출제 과정의 시행착오와 상위팀 솔루션을 분석한 글입니다.
인사이트
- 실무 데이터를 경진대회용으로 반출할 때 여러 테이블을 동시에 익명화하여 제공하는 것이 불가능했음 — 결국 출제팀이 직접 Feature Engineering을 수행하여 단일 정형 테이블로
단순화 - 피처명과 값을 모두 은폐했음에도 상위팀은 데이터 분석만으로 피처의 의미를 추론하고 37개의 파생 변수를 생성
- 출제팀은 Deep Learning 중심 솔루션을 기대했으나, 상위권은 Boosting Tree + Deep Learning 앙상블이 주류
해결
1. 데이터셋 설계
- 원래 20억 건 + 10개 테이블 계획이었으나 익명화 제약으로 약 1,070만 건의 단일 테이블로 축소
- 피처명 임의 변경, 값 선형변환으로 의미 은폐, Sequence 피처 1개만 미처리 상태로 포함(난이도 조절용)
2. 상위팀 솔루션 패턴
- Boosting Tree와 Deep Learning의 앙상블(Logit/weighted ensemble)
- 단일 Sequence 피처에서 37개 파생 변수 생성
- 리더보드와 정렬되는 검증 데이터 전략 수립
- 한 팀은 260개 모델 앙상블, 30페이지 분량 보고서 제출
결과
약 2,600명 참가, 총 상금 1,000만 원. 상위 30팀 대상으로 토스 오피스에서 오프라인 시상식 및 네트워킹을 진행했습니다.
댓글 0
로그인 이후 사용할 수 있습니다