가설검정(Hypothesis Test)

가설 검정이란, 추정과 함께 추측통계학의 2가지 방법 중 하나이다. 추정이 모집단의 값/분포에 대해서 확률적으로 추론하는 것이다. 가설검정은 모집단의 값/분포에 두 개의 가설을 세우고, 이것의 참/거짓을 표본정보로 부터 판단하는 것이다 . 추정과 마찬가지로 가설검정도 100%가 아니라, 일정한 확률로 예측한다.

표본을 뽑았을 때, 모집단의 분포와 분산을 알고 있을 수도 있고, 아닐 수도 있다. 모집단의 분포가 하나로 지정되어 있으면 단순 가설이고 , 그렇지 않을 경우, 복합가설이라고 한다. 위 글에서는 단순 가설에 초점을 맞추어서 설명하겠다.


귀무가설(Null Hypothesis)과 대립가설(Alternative Hypothesis)

가설검정은 모집단에 대해 대립되는 2가지 가설을 세워서 이것을 검증하는 형식을 취한다.

  1. 귀무가설(H0): 기존에 지지를 받았던 가설
  2. 대립가설(H1): 귀무가설과 대립되는 가설

다음의 사례를 보자. (나부랭이의 수학블로그의 예제를 각색했다.)

한국 15세 남자 청소년의 평균 키는 175cm라고 하는데, 일각에서는 175cm가 아니라고 한다. 16명의 표본을 조사해보니, 표본평균은 173cm가 나왔다. 어떤 의견이 더 타당한지 10% 수준에서 검증하시요. 한국 청소년의 키의 분산은(σ²) 16이라고 알려져있다.
  1. H0: 한국 남자 청소년의 키는 175cm이다.
  2. H1: 한국 남자 청소년의 키는 175cm가 아니다.
  • 표본의 평균의 분산: σ²/n = 16/16=1 (표준편차: 1)
  • 표본 평균의 정규분포상의 위치: 173–175/1 = -2
  • 유의 수준(α) =0.1/ 정규분포이므로 0.05에 해당하는 값을 표준정규분포에서 찾아야한다.
  • 0.05의 Z 값은 0.4801이다.
  • 173이 유의수준 10%에서 벗어났으므로 위 귀무가설은 부정된다.

가설검정의 오류가능성

확률을 기반으로 하는 통계학의 특성 상 가설검정 역시 오류의 가능성을 내포하고 있다. 오류의 내용은 다음과 같다. (morgin의 네이버 블로그 참조)

  • 1종 오류(α-오류): 귀무가설(H0)이 참인데, 기각하는 오류
  • 2종 오류(β-오류): 대립가설(H1)이 참인데, 귀무가설을 기각하지 않는 오류

식으로 설명하는 것 보다 간단한 예시를 들어 설명하겠다.(산을 좋아하는 라쯔 블로그의 사례 각색)

  • 1종 오류의 사례

불량품 검사를 하고 있다.

Ho: 제품이 불량품이다.

H1: 제품이 불량품이 아니다.

제품 기한이 촉박하다고 가정하자. 그럴 경우, 품질 담당자는 상부의 압박에 못 이겨, 불량품이라고 할지라도 불량품이 아니라고 할 가능성이 높다 .

  • 2종 오류의 사례

전방에서 군인이 경계를 서고 있다. 뭔가 바스락 거린다.

H0: 북한군이다.

Η1: 북한군이 아니다.(노루 등 동물의 가능성)

군인입장에서 북한군의 움직임이 있는 것 같다고 보고를 하면, 수색대가 정밀 수색을 할 것이다. 이 뒤에 북한군이 아니라고 판단되면, 해프닝으로 끝난다. 하지만, 북한군이 아니다라고 판단하고 보고를 하지 않았는데, 진짜 북한군이라면 정말로 큰일 난 것이다. 따라서 군인은 귀무가설을 채택할 경향성이 매우 높다.

1종 오류와 2종 오류는 한쪽을 줄이려면 다른 쪽이 증가하는 관계를 갖기 때문에, 두 오류를 감소시키려면, 표본의 크기를 늘리는 수 밖에 없다.


가설검정을 간단한 사례로 설명해보았다. 실제 통계에서 다양한 식을 활용해서 검정을 하지만, 조금 더 깊이 공부한 뒤에 정리하겠다.

A single golf clap? Or a long standing ovation?

By clapping more or less, you can signal to us which stories really stand out.