데이터 파이프라인 알림 노이즈를 AI로 분류해서 온콜을 줄이자.
네이버 엔지니어가 데이터 파이프라인 운영의 알림 피로와 반복 장애 대응 부담을 줄이기 위해 노이즈 분류 모델 + 장애 처리 AI Assistant를 구축한 사례 발표.
요약
네이버 엔지니어가 NAVER ENGINEERING DAY 2025에서 발표한 데이터 파이프라인 운영 자동화 작업. 운영 알림이 너무 많지만 그중 다수가 실제 장애로 이어지지 않는 노이즈여서 운영 리소스가 새고 있던 상황. AI 기반 노이즈 분류 모델로 진짜 장애만 추리고, 장애 시 로그 분석 → 원인 파악 → 공유 → 대응 → 복구 사이클을 AI Assistant로 자동화. 운영 피로도를 낮추면서 운영 품질을 같이 끌어올리는 방향.
내용
서비스를 매일 굴리는 운영 담당자 자리에서는 두 종류 비효율이 누적. 하나는 알림 피로 — 들어오는 알림 가운데 실제 장애로 번지지 않는 것이 많을수록 진짜 장애 신호가 묻히고, 매번 알림을 직접 확인해야 해서 사람 시간이 새어나감. 다른 하나는 장애 대응 자체가 매번 같은 형태로 반복된다는 점. 로그를 뒤지고, 어디서 터졌는지 좁히고, 동료에게 상황을 공유하고, 대응책을 정한 뒤 복구하는 다섯 동작이 장애마다 다시 일어남.
본 발표는 이 두 비효율을 다 같이 다듬는 작업기. 알림 단계에서 노이즈를 걸러내는 분류 모델 + 장애 단계에서 사람이 매번 반복하던 동작을 AI Assistant가 대신 수행하는 두 축이 본문 줄기.
해결 / 접근
로그 데이터 전처리
운영 로그는 형식이 들쭉날쭉하고 시점·인스턴스·서비스가 뒤섞여 있어 그대로 모델 입력으로 쓰기 어려움. AI 단계로 들어가기 전에 로그를 정제하는 파이프라인을 두고, 분석 단위로 묶고 시계열 정합성을 맞추는 정제 단계를 선행. 이 단계가 없으면 뒤에서 모델·Assistant가 보는 데이터 품질이 흔들려 잘못된 자동 대응으로 이어질 위험.
Noise 분류 모델
들어온 알림이 실제 장애 신호인지 운영상 노이즈인지 분류하는 모델. 노이즈로 판단된 알림은 사람 손까지 가지 않게 막고, 진짜 장애 신호만 다음 단계로 넘김. 진짜 장애 신호의 회수는 떨어뜨리지 않으면서 헛알림에 사람이 반응하는 횟수를 줄이는 게 목적.
AI Assistant — 장애 대응 자동화
장애가 났을 때 사람이 매번 하던 다섯 동작(로그 분석 → 원인 파악 → 장애 공유 → 대응책 수립 → 복구 수행)을 자동화. 발표에서는 이 사이클을 AI Assistant가 어떻게 따라 돌고, 사람이 어디서 끼어들어야 하는지를 다룸.
결과 / 참고
- 적용 범위: 네이버 사내 데이터 파이프라인 운영
- 발표 대상: 데이터 파이프라인 개발·운영 담당자 / AI를 서비스 운영에 활용하려는 엔지니어
- 발표 목차: Intro → 도입 배경 → AI를 활용한 장애처리 자동화 → 로그 데이터 전처리 → Noise 분류 모델 → AI Assistant → 적용 사례 공유 및 Future Work
- 발표 채널: NAVER ENGINEERING DAY 2025(5월) 사내 세션, 네이버 D2에 영상 공개
- 출처: NAVER D2, "AI가 지켜보는 데이터 파이프라인: 노이즈 제거부터 장애 대응까지"