Llama로 하드웨어 부품 탄소 배출량을 자동 분류한 구조
Meta가 데이터센터 부품의 Scope 3 배출 추정 품질을 NLP 유사도 매칭 + Llama 3.1 파라미터 추출·분류로 끌어올린 사례.
요약
Meta가 데이터센터 부품의 Scope 3 배출 추정에 AI를 도입, NLP(TF-IDF + Cosine)로 유사 부품 매칭, Llama 3.1로 이기종 데이터 파라미터 추출, GenAI로 부품 분류 체계 자동 생성. 2030년 net zero 목표를 향해 PCF 데이터 활용 폭을 넓히고, 만들어낸 분류 체계는 OCP PCR 워크스트림과 오픈소스 협업 예정.
내용
서버 하드웨어 제조·운송 단계의 embodied carbon은 공급망이 복잡하고 벤더 데이터가 한정적이라 정확한 산출이 어려움. Meta는 cost-based 추정 + 모델 기반 추정 + 부품별 PCF(Product Carbon Footprint, GHG Protocol 준수)를 데이터 품질 등급으로 묶어 랙 단위까지 집계하는 프레임워크를 운영. 그러나 PCF 한 건 산출에 수개월이 걸려 부품별로 직접 측정하는 방식은 확장성이 떨어짐.
PCF는 보통 특정 식별자에 묶여 있지만 인벤토리 안에는 같은 부품의 변종이 다수 존재하고 서브컴포넌트가 동일한 경우가 많아, 이미 확보한 PCF의 적용 범위를 늘릴수록 데이터 품질이 직접 좋아짐. 게다가 케이블·메모리 같은 부품은 벤더마다 BOM 구조·테이블·포맷·단위가 달라 모델 입력 파라미터를 사람이 직접 정리하기는 비현실적. 이 두 결을 AI로 풀어가는 것이 출발점.
해결 / 접근
유사 부품 자동 매칭 (NLP)
- TF-IDF + Cosine Similarity로 부품 설명 텍스트 유사도 분석, 카테고리로 1차 필터링
- 신규 PCF 수신 시: 같은 카테고리 안에서 설명 유사도가 높은 부품을 찾아 proxy PCF로 매핑 → 고품질 데이터를 유사 부품 전체로 확장
- 데이터 품질 점수가 낮은 부품 개선 시: 역방향 — 임계치 이상인 고품질 추정치를 찾아 저품질 부품으로 매핑
- Meta Net Zero 팀이 매칭 결과를 사람 검토·승인
이기종 데이터에서 파라미터 추출 (Llama 3.1)
- spend-to-carbon 방식은 공급망 변동에 흔들려 회피
- 대신 결정적 모델 + 입력 파라미터 조합으로 carbon footprint를 스케일
- 입력 파라미터(메모리 용량, 케이블 길이·타입 등)가 서로 다른 테이블·포맷·단위에 흩어져 있는 문제는 LLM이 흡수 — 같은 정보의 다른 표현을 인식해 추출 후 파라미터 모델에 주입
- 메모리·케이블 카테고리에 우선 적용
GenAI로 부품 분류 체계 생성
- 벤더마다 BOM 트리 구조가 달라 동일한 랙도 다르게 표현됨 → 일관된 분류 체계 필요
- 탐색 단계: GenAI가 자유롭게 카테고리 후보 제안 → 내부 하드웨어 전문가 검토 → 고정 카테고리 리스트 확정
- 운영 단계: 엄격한 GenAI 분류기로 전환, 두 단계 분류 — 도메인(compute, network, power, mechanical, storage)과 컴포넌트(CPU, GPU, DRAM, Flash 등)
- 도메인 모델·컴포넌트 모델을 따로 학습(예시 데이터 차이)시킨 뒤 결과를 결합해 상호 배타적 계층을 생성
- 랙별로 기여도 큰 항목 추출 → 분류기 적용 → 작은 항목은 묶음 처리
LLM 선택 근거: 단위 차이·동의어·표현 변형을 prompt engineering만으로 흡수 가능 — 전통 AI는 같은 처리에 추가 학습 시간이 큼.
결과 / 참고
- 부품 단위로 배출량을 분해해 high-impact 영역(예: 특정 부품의 비중 큰 carbon footprint)에 우선 개입 가능
- PCF 데이터 활용 범위 확장 + 데이터 품질 일관성 + 보고용 추적성 개선
- 발표·공개 일정: 2025 OCP regional EMEA summit에서 방법론 발표, 2025 OCP Global Summit에서 OCP PCR 워크스트림과의 오픈소스 협업 소개 예정
- 오픈소스 예정 자산: 서버 랙 배출 회계용 분류 체계·방법론 / GenAI 분류기 기반 taxonomy builder / 산업 공통 facility 보고용 집계 방법론
- 적용 범위: carbon footprint 분석 전용 분류 체계, 비용 분석 등 다른 용도로는 별도 조정 필요
- 출처: Meta Engineering 블로그