토스의 광고 클릭 예측 ML 경진대회 출제 과정과 상위팀 분석

광고 CTR 예측 문제로 ML 경진대회를 설계하면서 겪은 데이터 익명화 제약과 상위팀의 솔루션 분석

노

노예1호

2026.03.05조회 13

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

노

노예1호2026.03.05 · 조회 13

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

원본으로 →

요약

토스가 데이콘과 공동으로 광고 클릭 예측(PCTR) ML 경진대회를 개최했습니다. 실무 수준의 데이터셋을 외부에 제공하려 했으나 익명화 제약으로 설계를 크게 수정해야 했고, 약 2,600명이 참가하여 다양한 접근법을 보여주었습니다. 출제 과정의 시행착오와 상위팀 솔루션을 분석한 글입니다.

인사이트

실무 데이터를 경진대회용으로 반출할 때 여러 테이블을 동시에 익명화하여 제공하는 것이 불가능했음 — 결국 출제팀이 직접 Feature Engineering을 수행하여 단일 정형 테이블로
단순화
피처명과 값을 모두 은폐했음에도 상위팀은 데이터 분석만으로 피처의 의미를 추론하고 37개의 파생 변수를 생성
출제팀은 Deep Learning 중심 솔루션을 기대했으나, 상위권은 Boosting Tree + Deep Learning 앙상블이 주류

해결

1. 데이터셋 설계

원래 20억 건 + 10개 테이블 계획이었으나 익명화 제약으로 약 1,070만 건의 단일 테이블로 축소
피처명 임의 변경, 값 선형변환으로 의미 은폐, Sequence 피처 1개만 미처리 상태로 포함(난이도 조절용)

2. 상위팀 솔루션 패턴

Boosting Tree와 Deep Learning의 앙상블(Logit/weighted ensemble)
단일 Sequence 피처에서 37개 파생 변수 생성
리더보드와 정렬되는 검증 데이터 전략 수립
한 팀은 260개 모델 앙상블, 30페이지 분량 보고서 제출

결과

약 2,600명 참가, 총 상금 1,000만 원. 상위 30팀 대상으로 토스 오피스에서 오프라인 시상식 및 네트워킹을 진행했습니다.

토스의 광고 클릭 예측 ML 경진대회 출제 과정과 상위팀 분석

광고 CTR 예측 문제로 ML 경진대회를 설계하면서 겪은 데이터 익명화 제약과 상위팀의 솔루션 분석

노

노예1호

2026.03.05조회 13

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

노

노예1호2026.03.05 · 조회 13

★ 0.0 (0명)|내 평가

로그인 이후 사용할 수 있습니다

원본으로 →

요약

인사이트

실무 데이터를 경진대회용으로 반출할 때 여러 테이블을 동시에 익명화하여 제공하는 것이 불가능했음 — 결국 출제팀이 직접 Feature Engineering을 수행하여 단일 정형 테이블로
단순화

피처명과 값을 모두 은폐했음에도 상위팀은 데이터 분석만으로 피처의 의미를 추론하고 37개의 파생 변수를 생성

출제팀은 Deep Learning 중심 솔루션을 기대했으나, 상위권은 Boosting Tree + Deep Learning 앙상블이 주류

해결

1. 데이터셋 설계

원래 20억 건 + 10개 테이블 계획이었으나 익명화 제약으로 약 1,070만 건의 단일 테이블로 축소

피처명 임의 변경, 값 선형변환으로 의미 은폐, Sequence 피처 1개만 미처리 상태로 포함(난이도 조절용)

2. 상위팀 솔루션 패턴

Boosting Tree와 Deep Learning의 앙상블(Logit/weighted ensemble)

단일 Sequence 피처에서 37개 파생 변수 생성

리더보드와 정렬되는 검증 데이터 전략 수립

한 팀은 260개 모델 앙상블, 30페이지 분량 보고서 제출

토스의 광고 클릭 예측 ML 경진대회 출제 과정과 상위팀 분석

요약

인사이트

해결

1. 데이터셋 설계

2. 상위팀 솔루션 패턴

결과

댓글 0

토스의 광고 클릭 예측 ML 경진대회 출제 과정과 상위팀 분석

요약

인사이트

해결

1. 데이터셋 설계

2. 상위팀 솔루션 패턴

결과

댓글 0