CS410 — Probabilistic Retrieval Model

Wonhee Jung
Sep 8, 2018 · 3 min read

지난주까지 실컷 배웠던 Vector Space Model(VSM) 말고 Probablistic Retrieval Model이라는게 있다라는 게 4주차 수업 시작하자마자 언급됨. 보통 이런식의 진행이면 앞에서 배운건 아주 오래되거나 기본적인거라서 이제는 안쓰고 지금 배우는게 요즘 쓰는 기술이다 뭐 이런식의 느낌인데, 아무튼간에 이전에 잠깐 수업중에 언급했던 classic probabilistic model인 BM25, Language Model 인 Query Likelihood, 그리고 divergence-from-randomness 모델인 PL2가 있다.

일단 probabilistic retrieval model의 기본 아이디어는 다음과 같다. 쿼리 q와 문서 d, 그리고 연관성 r이 다음과 같다고 할 때

Q D R
— —
q1 d1 1
q1 d2 1
q1 d3 0
q1 d4 0
q1 d5 1

q1 d1 0
q1 d2 1
q1 d3 0
q2 d3 1
q3 d5 1

위 테이블은 질의어 q일때의 문서 d에 대해서 사용자가 원하는 문서(혹은 웹브라우저 피드백을 통해 사용자가 클릭한 문서)를 표시한 것이다. R이 1인 것은 사용자가 연관있다고 생각한 것, 0은 그렇지 않은 것.

f(q,d) = p(R=1 | d, q), 즉 주어진 쿼리와 문서에 대해 R = 1 ( 연관있음 ) 일 가능성(확률)은 위의 테이블에서

R=1인 (q, d) 갯수 / 전체 (q, d) 갯수

로 구할 수 있다.

P( R=1 | q1, d1 ) 은 위의 테이블에서 (q1, d1) 조합이 두번 나타났으니까 분모는 2이고, 분자는 그 두번 중에 R=1이었던 경우가 1번이었으니까 1, 그래서 P=1/2.
P( R=1 | q1,d3 )의 경우에는 (q1, d3)의 조합은 두번 나타났으나 실제로 R=1인 것은 0건이므로 0/2 = 0.

자 근데 문제가 있다. 이 방법을 이용하려면 위에서 우리가 사용한 것과 같은 저런 테이블이 있어야 한다. 존재 가능한 모든 질의어와 문서들이 들어가 있고, 사용자의 리액션이 들어간 R값이 있는 테이블 말이다. 그래야 저걸로 사용자 피드백을 받아서 P를 구할 수 있을 것 아닌가? 하지만 현실적으로 저런 테이블을 만들어 낼 수 있나? 할려고만 하면 특정 언어에 대해서 수천 수만명을 동원해서 일일이 저런 테이블을 만들어 낼 수야 있겠지만 현실적으로 불가능에 가깝다고 할 수 있다.

그래서 이상한(?) 아이디어가 여기서 나오는데, 모든 질의어가 들어간 테이블을 구할 수가 없다면, f(q, d) = p(R=1 | d, q )이니깐 아마도 p( q | d, R=1 )? 즉, 어떤 문서 d를 사용자가 연관있다고 생각했을 때, 과연 어떤 질의어 q를 넣을까 라는 확률을 계산해보자는 것. 아마 이 확률이 높아서 충분히 P = 1에 가깝다면 p(R=1 | d, q)라고 말할 수 있을테니 말이다. 이게 이해가 안된다면 다음 예는 어떤가?

스포츠 뉴스를 좋아하는 사용자가 있다면, 이 사용자가 “야구”를 검색어로 사용할 가능성이 얼마나 있는가?

만약에 우리가 어떻게든 스포츠 뉴스를 검색하기 위해서 사용자가 “야구”라는 검색어를 이용할 확률을 구할 수만 있다면, 그리고 그 값이 1에 가깝다면 probablistic retrieval model에서 소개했던 저 테이블에 해당 내용이 있다고 보고 이를 이용할 수 있을 것이다. 이 확률을 구하기 위해서 우리가 사용할 방법을 Query Likelihood Model ( 혹은 Query Likelihood Retrieval Function ) 이라고 한다.

이 다음에는 어떻게 저 q를 선택하고 그 확률을 알아낼 수 있을것인가에 대한 내용을 다루는데, 더 길어지면 읽다가 지루해질테니 일단 여기까지.

Wonhee Jung

Written by

Daughter's daddy, husband, lifelong gamer and learner. Senior Software Engineer@Blizzard Entertainment and studies for master’s degree in CS@UIUC.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade