K 연령대별 기표 실수율 차이 모델

지난 2012 선거 결과의 후보간 미분류표 비율이 이상적으로 차이가 났다고 합니다. 통계 전문가가 통계적으로 검증해보니 확률적으로 불가능한 일이어서 가능한 설명은 분류기의 해킹밖에 없고 이것은 개표 조작의 증거라고 의심합니다. 사람이 개입하지 않는 한 1.5라는 숫자는 나올 수 없다고 단언합니다.

음모론은 재밌지만 과학을 공부한 사람이라면 현상을 설명하는 더 간결한 가설(모델)은 없는지 찾는데 더 흥미를 가지게 됩니다.

미분류표는 생각만큼 이상하지 않다

투표지 분류기의 미분류표 동영상 캡처

자동 분류기는 분명하게 기표된 투표지는 후보자별로 나누고 잉크가 번진 것, 일부만 도장이 찍힌 것, 기표 위치가 칸을 벗어난 것, 이중 기표 된 것들은 사람이 수작업으로 확인하도록 미분류로 분류합니다.

미분류표는 기계가 판정하기 애매하다고 분류한 것일 뿐입니다. 위 링크의 영상에서 보듯 너무 힘을 주어 잉크 번진 것이 대부분으로 누구에게 기표했는지는 분명합니다. 실수라기보다는 기표 부주의에 가깝습니다. 손이 떨려 잘못 기표했다는 비하적인 상상과는 거리가 멉니다. 누구나 이런 실수를 할 수 있습니다.

기계가 충분히 인식할 수 있지만 개표의 신뢰성을 위해 분류를 엄격하게 하는 게 아닐까 싶기까지 합니다.

미분류가 생기는 원인

  1. 사람의 기표 실수
  2. 기계의 오류
  3. 사람이 기계를 해킹

상식적인 세상에서 발생 가능성은 1 > 2 >>> 3 입니다. 하지만 우리는 비상식적인 세상에 살고 있으니까 뭐든 의심해 볼 수 있습니다. 그렇더라도 검증하기 쉬운 것부터 하나씩 소거해 나가는게 합리적입니다.

기표 실수

기계의 관점에서는 미분류지만 우선 시작이 되는 사람의 기표 실수(부주의) 부터 보겠습니다. 특정 후보에게 투표했다고 하면 다음 세 가지로 나누어집니다.

A. 정확하게 기표

B. 애매하게 기표 (기표 실수, 부주의)

C. 엉망으로 기표 (무효표)

후보별 득표 분류(세로)

A는 기계가 분류해 후보별로 처리하고 B, C는 사람이 판단하도록 미분류로 보냅니다. 그중 소수의 무효표를 제외하고 유효한 것이 B 미분류 득표입니다. 18대 대선에선 전체 투표자의 3.2%가 애매하게 기표했습니다. 잉크 번진 것 정도라고 생각하면 이해할 만한 비율입니다. 박근혜 지지자 중에서는 3.7%, 문재인 지지자 중에서는 2.7%가 애매하게 기표했습니다. 1%차이지만 둘의 비율은 37% 차이로 뭔가 유의미한 차이가 있을 것 같습니다.

영화에서는 이것을 다른 시선으로 바라봅니다. 애매하게 기표한 사람들(미분류득표)의 후보별 득표율이 전체 득표율과 차이가 크다는 것에 주목합니다.

이상한 것 같은데 뭔지 모르겠다
분류,미분류 기준으로 후보 득표율 비교(가로)

선택 편향 - 듣고 싶은 얘기를 하는 통계 전문가만 만나다

영화는 애매하게 기표한 사람들만 모아보면 박근혜 52.7%, 문재인 35.7%로 전체(51.3%, 47.5%)와 성격이 다르니 뭔가 이상하다고 의심합니다.

모집단의 성격을 예측하기 위해서는 표본을 무작위로 추출해야 합니다. 편향된 규칙을 가지고 뽑은 표본은 모집단과는 성격이 달라질 수 있으니까요. 애매하게 기표하는 집단은 전체 투표자와는 다른 성격의 집단일 수 있으니 선호하는 후보가 달라도 이상하지 않습니다. 강남에 사는 투표자 집단의 투표 결과가 전체의 결과와 다른 경우가 많은 것처럼요.

자문을 해주는 재외 통계 박사님은 정상인지 비정상인지 판단할 수 없지만, 이전 선거와 다르니 비정상이라고 확신합니다. 후보가 다르니 지지자도 다르고 또 어떤 조건이 달라졌는지도 알 수 없지만, 지역만 같으면 같아야 한다고 합니다. 또 다른 재외 대학교수님은 번개를 두 번 연속으로 맞을 확률과 같다고, 있을 수 없는 일이라고 단언합니다.

연령 효과 가설 모델링

18대 선거는 연령에 따른 후보 선호 편향이 컸습니다. 노년층의 박근혜 지지율이 높았으므로 혹시 기표 실수율과 연령의 상관관계가 있지 않을까 생각해 볼 수 있습니다. 가설을 설명할 모델을 만들고 실제 데이타와 부합하는지 검증해보면 됩니다.

득표 연령대에 따라 미분류율 차이가 있을 것이라는 가설이니 우선 인터넷에서 연령대별 전체 투표수, 후보별 득표수 자료를 구했습니다. 17대는 자료를 직접 구할 수 없어 세대별 유권자수, 세대별 투표율, 출구 조사의 세대별 득표율을 곱해서 구했습니다. 비밀 투표에서 연령대별 결과를 알 수는 없으니 18대 자료도 아마 이런 출구 조사를 이용해 추정한 것 같습니다.

17,18대 선거 후보의 연령대별 득표율 분포

18대 대선에서 박근혜는 노년층의 선호, 문재인은 젊은 층의 선호가 극명하게 나뉩니다. 미분류율이 연령대와 상관관계가 있다면 연령에 대한 함수를 만들 수 있을 텐데요. 정확한 예측을 하려는 목적이 아니라 득표 연령대에 따라 미분류율이 바뀔 수 있다는 걸 보여주려는 것이니 가장 단순하게 연령을 40대 이하와 50대 이상 두 개의 그룹으로 나눕니다.

기표 실수율 동일 모델

기표 실수율은 미분류 득표/득표수 입니다. 전체에 대한 분류, 미분류 득표는 알고 있지만, 연령대별로는 알지 못합니다. 모델을 통해 추정할 수 있는데 연령대별 미분류 득표, 분류 득표를 연령대별 득표수×기표 실수율, 득표수-미분류득표 로 구할 수 있습니다. 전체 미분류율은 알고 있듯 3.23% 였으니 두 그룹에 같은 값을 적용하면 당연히 K=1이 나옵니다.

K=1 이어야 한다는 착각

K=1 이어야 한다는 얘기는 모든 집단에서 기표 실수율이 같아야 한다는 착각에서 나온게 아닌가 싶습니다. 기표 실수율이 같다고하면 계산된 후보별 미분류 득표가 13%,-19% 오차로 실제 데이타와는 전혀 맞지 않습니다. 그래서 분류기의 오류를 가정해보고, 또 단순 오류로는 후보별로 편향된 오차를 설명할 수 없으니까 의도된 오류, 해킹이라고 생각을 전개해 나간 것 같습니다. 상식적으로 자신이 만든 모델의 예측값이 실제 데이타와 부합하지 않으면 내가 틀렸구나 생각하고 기각하는 게 보통이지만요.

연령별 기표 실수율 차이 모델

연령별로 기표 실수율이 다를 수 있다는 걸 가정하고 주어진 데이타로 값을 구할 수 있습니다. 18대 선거의 데이타를 이용해 계산하면 40대 이하는 1.76%, 50대 이상은 5.17% 가 투표를 하면서 애매하게 기표를 한다고 추정할 수 있습니다. 노년층이 젊은 층에 비해 3배 정도 기표 실수율이 높다는 것이니까 상식선에서 이해할만한 값입니다.

이 모델을 이용하면 후보별 미분류 득표 차이가 설명됩니다. 역으로 계산했으니 당연히 값이 정확히 일치합니다. K 값도 원본 데이타의 모집단 값인 1.39가 나옵니다. 영화에서 줄곧 강조하는 1.5라는 숫자는 개표소별로 계산한 개별 값의 대표값 근사치입니다. 영화에서 1.47 뭐 이렇게 얘기했으면 임팩트가 좀 줄었을지 모릅니다.

같은 모델로 17대 선거의 데이타를 적용하면 K값이 1.09가 나와 후보자 득표의 연령대 분포에 따라 K값이 달라질 수 있다는 것도 설명됩니다.

후보별 미분류 득표는 후보 득표 중 50대 이상 득표 비율(r)을 이용해서 득표수×(0.0341×r+0.0176) 정도로 예측할 수 있습니다. 개표소별로 이 비율이 아마도 정규분포를 따를테니 K도 정규분포가 될 것으로 예상할 수 있습니다. 투표소별로도 이 모델이 맞는지 검증하려면 개표소별 후보자의 연령대별 득표 데이타를 이용해 계산해보면 됩니다.

사용했던 자료는 구글시트에 올려두었습니다.

어설픈 '노인 가설' 검증

내부적으로도 이런 연령대에 따른 상관관계를 가장 먼저 검증했지만 부합하지 않아 그 가설은 기각했다고 합니다.

“연령이 변수라 생각해, 평균 연령대가 가장 높은 선거구를 100개 뽑았어요. 그리고 투표자들의 나이가 가장 어린 선거구를 100개 뽑았죠. 한 마디로 늙은 선거구, 젊은 선거구를 비교한 거에요. 사실 10개만 봐도 경향성이 나오지만 100개 했어요. 오히려 젊은 선거구의 미분류표에서 두 후보 간 표차가 더 크더라고요. ‘노인 가설’대로라면 젊은이들 손이 더 떨린다는 말이 되는거죠.”

‘더 플랜’ 김어준 “음모론이라고? 반증을 제시하세요”(인터뷰)

그런데 이건 연령이 변수라는 어설픈 가설 하나를 더 어설픈 검증 방법을 통해 기각했다는 거지 지지자 연령 분포에 의해 미분류율 차이가 날 수 없다는 걸 보여준 게 아닙니다. 선거구의 평균 연령은 그냥 유권자 연령의 평균인데, 여기에는 연령대별 비율, 투표율, 지지하는 후보에 대한 정보가 전혀 없습니다.

잘못된 검증을 통해 1. 사람의 실수 는 폐기 2. 기계의 오류는 확률적으로 희박하여 폐기 3. 해킹 가설로 진행되는 논리입니다. 제대로 검증했다면 이렇게 극단적인 결론으로 치닫지 않았을 텐데 아쉽습니다.

이상한 통계에 대한 흥미에서 시작했기 때문에 영화에 대한 개인적인 감상은 적지 않겠습니다.

Show your support

Clapping shows how much you appreciated 無異’s story.