Meta Facebook Groups Search 현대화 — 키워드+의미 하이브리드 리트리벌
Meta가 Facebook Groups 검색을 키워드 일치에서 의미 검색을 더한 하이브리드 구조로 전환. 두 경로 후보를 병합해 한 모델로 클릭·공유·댓글을 같이 최적화.
요약
Meta가 Facebook Groups 검색을 키워드 매칭에서 하이브리드 리트리벌로 재설계. 사내 어휘 인덱스(Unicorn)와 자연어 의미 검색 모델이 후보를 병렬로 뽑고, 두 결과를 합쳐 2단계 랭킹 모델이 클릭·공유·댓글을 같이 최적화.
의미 검색 출력은 벡터 유사도라 직관 검수가 어려운데, 이 부분만 별도로 Llama 3에 자동 채점을 맡겨 사람 라벨링 병목을 피함. 오프라인 평가에서 baseline 대비 search engagement 우위가 보고됨.
내용
Meta는 Facebook Groups 검색에서 사용자가 부딪히는 마찰을 세 가지로 정리 — discovery(찾기), consumption(소화), validation(검증).
- Discovery (Lost in Translation): 어휘 기반 키워드 검색은 자연어 의도와 글 본문 어휘가 어긋나면 무력. "small individual cakes with frosting"으로 검색해도 커뮤니티가 "cupcakes"라고 부르면 결과 0건. "Italian coffee drink"가 "cappuccino" 글에 매칭되어야 함
- Consumption (Effort Tax): 글을 찾아도 합의를 추리려고 댓글 수십 개를 스크롤해야 함. "tips for taking care of snake plants" 같은 질문에 watering schedule을 얻으려는 노력 비용이 큼
- Validation (Decision Making): Marketplace에서 vintage Corvette 같은 고가 매물을 검토할 때, 그룹별 흩어진 전문 의견을 수동으로 모아야 함
기존 어휘 인덱스의 정밀도는 유지하되 의미 검색의 conceptual matching을 더해야 한다는 게 출발점.
해결
병렬 리트리벌 — 어휘 경로와 의미 경로
쿼리는 토크나이즈·정규화·재작성 전처리 후 두 경로로 분기.
- 어휘 경로: Facebook 사내 inverted index인 Unicorn으로 정확·근사 일치 글을 fetch. 고유명사나 구체 인용 쿼리에서 정밀도 확보
- 의미 경로: 12-layer 200M-param 의미 검색 모델(Search Semantic Retriever, SSR)이 자연어 입력을 dense vector로 인코딩. 사전 계산된 Faiss 벡터 인덱스에 ANN(approximate nearest neighbor) 검색을 걸어 키워드 겹침이 없어도 개념적으로 가까운 글을 회수
(Faiss는 Meta가 공개한 벡터 유사도 검색 라이브러리. SSR·Faiss·ANN은 의미 경로에서만 등장.)
2단계 랭킹 — 한 모델로 다목적 최적화
두 경로 후보를 병합한 뒤 2단계 랭킹 모델에 어휘 피처(TF-IDF, BM25)와 의미 피처(cosine similarity)를 같이 입력. 기존 단일 목적 모델에서 다목적·다중 라벨(MTML, Multi-Task Multi-Label) 슈퍼모델로 전환해 클릭·공유·댓글을 한 모델로 동시 최적화. 신호별 가중치 조정·교체가 가능한 모듈 구조 유지.
오프라인 자동 평가 — Llama 3를 judge로
의미 검색은 점수 자체가 직관적이지 않아 검수가 어려움. 사람 라벨링 병목을 피하려 빌드 검증 테스트(BVT)에 자동 평가 프레임워크를 끼움.
- multimodal Llama 3가 (쿼리, 결과) 페어를 grade
- 이진 good/bad 대신 "somewhat relevant" 카테고리를 명시 — 도메인·테마가 같은 경우(예: 종목은 달라도 일반 sports 맥락)를 인식
- 결과 다양성과 개념 매칭 개선을 정량 측정 가능하게 만듦
참고
- 오프라인 평가에서 어휘+의미 하이브리드 구성이 baseline 대비 search engagement(일일 검색 사용자 수) 우위, 에러율 증가 없음. 구체 수치는 원문 미공개 — 논문 참조
- 향후 로드맵: 랭킹 단계에 LLM을 직접 투입해 글 본문 기반 relevance 보강, 쿼리 복잡도에 따른 adaptive retrieval
- 원문: Modernizing the Facebook Groups Search (Engineering at Meta)
- 논문: Modernizing Facebook Scoped Search: Keyword and Embedding Hybrid Retrieval with LLM Evaluation