머신러닝을 활용한 검색 품질 지표 개발 (SIGIR’23 Paper Recap)

Jin Young Kim
Naver Search Data&Analytics Tech Blog
6 min readJan 25, 2024

현대적인 검색 엔진의 결과 품질을 정확히 평가하는 것은 쉬운 과제가 아닙니다. 1) 개별 질의어 및 사용자에 따라 평가가 달라질 수 있으며 2) 같은 질의어라도 시간에 따라 좋은 품질의 정의가 달라지며 3) 검색 서비스로서 사용자를 만족시켜야 하는 동시에 기업으로서 비즈니스 목표에도 관심을 가져야 하며 4) 검색 품질 자체에도 관련성, 신뢰성, 시의성 등 다양한 평가 척도가 존재하며, 5) 검색 결과 유형에 따라 사용자 행동의 해석 및 성공의 척도[1] 역시 달라질 수 있기 때문입니다.

따라서 검색 품질 평가에는 사용자 로그에 기반한 온라인 분석, 레이블 및 서베이 기반의 오프라인 분석 등 다양한 기법이 동원됩니다. 이런 다양한 수단을 병행하여 사용함으로써 개별 지표의 약점 및 편향을 보완하여 사용자 및 서비스 목표 대비 품질을 정확하고 예민하게 측정할 수 있으며, 분석 결과에 대한 교차 검증을 가능하게 합니다. 마지막으로 분석 자체를 수행하는 비용을 최소화하고, 제때 해석가능한 결과를 제공하여 개발팀이 신속하게 움직일 수 있도록 지원할 수 있어야 합니다. 아래 표는 바람직한 품질 지표의 조건을 요약합니다.

바람직한 품질 지표의 조건 (참고 아티클)

New Approach to Quality Measurement

저희 Data&Analytics 팀에서는 작년부터 이런 조건을 만족시키는 검색 품질 지표를 개발 왔습니다. 이들 품질 지표는 사용자 로그에서 추출한 User Success / User Effort 시그널을 머신러닝 모델 기반으로 결합한 것입니다. User Success는 사용자가 Click 및 View 활동을 통해 결과에 만족했는지를, User Effort는 이 과정에서 얼마나 사용자가 노력했는지를 Scroll Depth, Manual Requery 등으로 수치화합니다. 아래 표에서 좀더 상세한 정의를 보실 수 있습니다.

검색 품질 모델링에 사용된 피쳐들

모델링을 위한 정답 레이블로는 검색 품질에 대한 오프라인 평가 플랫폼에서 수집된 5점 척도의 네이버 SRP(Search Results Page) 만족도 레이블이 사용됩니다. 만족도의 기준은 대부분의 검색 사용자를 만족시킬 만큼 충분한 정보가 제공되는지, 그리고 제공된 결과가 신뢰성이나 최신성과 같은 다양한 정성적인 품질 기준을 충족시키는지입니다. (비슷한 내용이 제 예전 논문에 발표된 바가 있습니다.)

User Success / User Effort 시그널이 검색 만족도에 미치는 영향이 비선형적이기 때문에, 사용자 만족도의 모델링에 있어서는 이런 관계를 표현할 수 있으며 그러면서도 지표 변화를 손쉽게 디버깅할 수 있는 해석가능한 모델이 필요합니다. 본 연구에서는 모델링 성능과 해석가능성을 결합한 EBM (Explanable Boosting Model) 모델을 기반으로 아래 그림에서와 같은 피쳐와 레이블간의 비선형적인 관계를 발견했습니다.

검색 품질 모델링의 개요

하지만 모든 검색 질의를 같은 틀에 넣고 평가하는 것은 무리가 따를 것입니다. 서론에서 언급한대로 사용자가 정답을 찾고 바로 나가는 유형의 검색과, 사용자가 주어진 주제에 대해 다양한 정보를 탐색하기를 원하는 유형의 검색은 다르기 때문입니다. 따라서 본 연구에서는 검색페이지 최상단에 나오는 결과의 유형에 따라 정답형 vs 탐색형이라는 구분을 두고, 이를 모델링에도 반영했습니다. 그 결과 개발된 모델은 정답형/탐색형 질의에 대해 각기 다른 기준으로 만족도를 계산합니다. (세부사항은 논문에)

위 접근 방법을 통해 개발된 EBM 모델은 실제로 다양한 검색 유형에 대해 (역시 Top1 결과 유형에 근거한) AUROC 0.68 정도의 성능을 보입니다. 이는 완벽하지는 않지만 레이블로 사용된 검색 사용자 만족도의 노이즈 수준을 생각하면 충분히 유용한 수준의 모델입니다. 실제로 SQM 스코어가 낮은 질의를 살펴보면 대부분 검색엔진 입장에서 굉장히 어렵거나 개선 잠재력이 높은 경우가 대부분입니다.

학습된 모델의 평균적인 품질

Concluding Remarks

이렇게 개발된 Search Quality Metric (SQM) 은 네이버 검색 부문의 연간 품질 KPI 및 검색 결과를 개선하기 위한 다양한 온라인 실험에서 의사결정을 위한 지표로 사용되고 있습니다. 또한 특정 질의 및 사용자군에 대한 검색 결과에 대한 품질 문제를 발견하고 개선하는데도 사용되고 있습니다. 또한 비슷한 방법론을 적용하여 특정 영역의 (예: Top1 결과) 품질을 모델링하는 연구도 진행중입니다.

이렇게 품질 지표를 개발하고 정착시키기까지 1년이 넘는 시간이 필요했습니다. 경영진에서는 개발된 숫자의 의미를 궁금해 했으며 (예: 품질 0.6은 좋은 건가요? 나쁜 건가요?) 검색의 각 영역을 책임지는 다양한 파트너 조직에서는 담당 영역의 품질이 지표에 제대로 반영되기를 원했습니다. 이런 요구사항을 만족시키기 위해 품질 스코어는 여러 차례 튜닝을 거쳐 비로소 표준 지표로서 자리 잡을 수 있었습니다.

마지막으로 회사에서 논문을 쓰는 일에 대해서 간단히 언급하자면, 연구보다는 비즈니스 가치를 만드는 것이 우선시 되는 현업 환경에서 논문화 할 수 있을 정도의 연구를 해내는 것은 쉬운 일은 아닙니다. 하지만 대용량 사용자 데이터를 바탕으로 더 나은 검색 서비스를 만들기 위한 노력이 종종 학계에서 관심을 가질만한 연구 성과로 연결되는 것을 종종 발견합니다. 또한 이런 결과를 약간의 노력을 들여 논문화하는 것이 현업에 있는 연구자로서의 보람이 아닐까 합니다.

대학원 경험 없이도 SIGIR 논문 집필 및 학회 발표까지 잘 해낸 팀원들 (박동현/박형애/최기준 님), 그리고 연구를 위해 같이 노력한 Sakai 교수님 팀에도 감사의 말을 전합니다. 현업에서의 Impact와 학문적인 성과의 두 마리 토끼를 모두 잡는 DnA 팀의 도전은 올해도 계속됩니다!

논문 링크: https://dl.acm.org/doi/pdf/10.1145/3539618.3591841

[1] 웹문서 결과의 경우 클릭이 성공의 척도가 되지만, 어학 사전과 같은 정답형 결과의 경우 클릭이 오히려 부정적인 시그널이 될 수도 있습니다.

--

--

Jin Young Kim
Naver Search Data&Analytics Tech Blog

Head of Data Science and Director of Naver Search US. (We’re hiring data scientists and engineers in Korea & US!) #헬로데이터과학 #데이터지능팟캐스트