기업 사례사례
원본으로 →복잡한 PDF를 LLM이 이해할 수 있도록 멀티모델 파서 PaLADIN을 만든 방법
네이버가 DocLayout-YOLO·테이블 구조 모델·Gemma3·Papago OCR을 nv-ingest 위에 묶어 복잡한 PDF를 LLM-friendly 구조로 파싱하는 PaLADIN 구축, 증권사 리포트 요약에 투입
노
노예1호2026.03.05조회 8
★ 0.0 (0명)|내 평가
로그인 이후 사용할 수 있습니다
로그인 이후 사용할 수 있습니다
요약
네이버가 LLM-friendly PDF 파서 PaLADIN을 만들어 표·차트·이미지가 섞인 문서를 요소별 모델로 분해 후 재조립. 증권사 리포트 요약 서비스(AIB)에 투입, Summary 모델은 LLM as a Judge로 선정.
해결 / 접근
PDF를 LLM에 통째로 넣으면 표 셀 정렬·차트 수치·이미지 위치 같은 구조 정보가 평문으로 흘러내림. 증권사 리포트처럼 표와 차트가 본문 핵심을 차지하는 문서에서는 요약 품질이 그대로 떨어짐. PaLADIN은 NVIDIA nv-ingest 위에 요소별 전용 모델을 얹어 구조를 살린 채 텍스트로 변환하는 파이프라인.
내용
- Element-Detector: DocLayout-YOLO — PDF 페이지에서 텍스트·표·차트·이미지 위치 탐지, 후속 모델로 분기
- Table-Extractor: nemoretriever-table-structure-v1 — 셀 단위 표 구조 추출
- Chart-Extractor: google/gemma3-27b-it — 차트 이미지에서 수치·라벨 추출
- Text: Papago OCR
- 속도 최적화: nv-ingest 기반 파이프라인 위에서 모델 호출·전후처리 튜닝
- 평가셋 자체 구축: Parsing 정확도와 속도를 기존 방식과 비교
- 서비스 투입: AIB 증권사 리포트에서 표·차트 파싱 → Summary 생성. Summary 모델은 LLM as a Judge 방식으로 후보 모델 비교 후 선정
결과 / 참고
- 표·차트가 살아있는 PDF 파싱 파이프라인을 nv-ingest 기반으로 구성
- 증권사 리포트 요약 서비스(AIB)에 적용
- Future Works: Table Cell 좌표 오류 개선, 차트 정확도 개선
- NAVER ENGINEERING DAY 2025 (10월) 세션 / 발표 영상: https://d2.naver.com/helloworld/9036125
- 대상: AI/LLM 활용, 문서 처리, 웹 검색 관심 개발자
댓글 0
로그인 이후 사용할 수 있습니다