이 글은 시행횟수가 충분히 큰 이항분포는 정규분포로 취급이 가능하다는 것을 설명한다. 이 정리를 드 므와브르 - 라플라스 정리라고도 하는데, 이 정리의 증명으로 가장 널리 알려진 것은 Stirling's Approximation Formula를 이용하지만, 여기서는 고등학교 미적분만을 사용해서 증명하기로 한다.[1]
[1] 이 글의 증명은 다음 논문의 내용을 따른다
M. A. Proschan, The normal approximation to the binomial, The American Statistician, 62 (2008), 62-63. https://doi.org/10.1198/000313008x267848
1. 역사적 배경
이항분포는 야곱 베르누이가 Ars Conjectandi(추측술, 아르스 코녝탄디, 1713)[2]에서 처음 소개했다. 그래서, 이항정리 모델의 반복시행을 “베르누이 시행”이라고도 한다.
[2] 이 책은 그가 죽고 8년이 지난 때 출판되었다.
한편, 정규분포는 가우스(Gauss. C. 1777-1855)에 의해 여러 분야에 폭넓게 사용되었는데, 이 이유로 정규분포를 “가우스 분포”라고도 한다.
1738년, 드 므와브르(A. de Moivre, 1667-1754)는 The Doctrine of Chances에서 $p=0.5$일 때 이항분포 $B(n,p)$가 정규분포로 근사할 수 있음을 증명한다. 이것은 후에 라플라스가 중심극한정리를 증명하면서 베르누이의 결과를 다른 $p$에 대해서도 적용할 수 있음을 증명한다.(1812, Théorie analytique des probabilités, Analytic Theory of Probabilities) 대체로 $np>5$, $n(1-p)>5$가 모두 성립하는 경우 이 정리를 적용한다.
2. Visualization
드므와브르 - 라플라스 정리를 보여주는 기존의 방식은 이항분포와 정규분포를 그대로 그려서 보여주는 것이었다. 아래 그림은 2015 개정교육과정의 어느 교과서의 한 그림을 캡처한 것이다.
정규분포를 덧칠해서 그려 놓은 그림도 있다. 하지만, 좌표축을 자료에 그대로 맞추면 $n$이 커질수록 점점 비교해야 할 영역도 넓어지므로 여기서는 비교할 모든 분포를 표준화시켜서 비교해 보기로 한다.
우선, 표준정규분포의 확률밀도함수는 $f(x) = \dfrac 1 {\sqrt{2 \pi}} e^{- \frac {x^2} 2}$이다. 이항분포 $\mathrm B(n,p)$의 확률질량함수는 다음과 같다. $$\mathrm P (X=r) = {}_n \mathrm C_r p^r (1-p)^{n-r}, \quad r = 0, 1, \dots, n$$ 좌표평면에 $(r, \mathrm P(X=r))$을 그리는 대신에 $x$좌표를 표준화된 값인 $\dfrac {r-np} {\sqrt{npq}}$로 교체한다. 우리는 이산확률분포를 연속확률분포인 정규분포와 비교하려고 하므로 이 자료들이 시각적으로 해당 영역의 확률을 대표할 수 있도록 수정을 해야 한다. 시각적으로 확률을 표현할 방법으로 히스토그램처럼 서로 붙어있는 막대그래프가 좋은 모델인데, 위에서 표준화 하는 동안 자료들 사이의 간격이 좁아졌으므로 해당 $x$좌표에서의 확률과 같은 넓이를 가지는 사각형을 그리려면 확률질량함수의 값에 자료 간격인 $\sqrt{npq}$를 곱한 값을 세로의 길이로 잡아서 그리면 이항분포도 연속확률분포와 같이 바라볼 수 있다.(기존에 이런 생각을 할 필요가 없었던 이유는 자료간의 차이가 1이라서 그렇다.) 이 생각을 모두 모아서 그림을 그리면 다음과 같이 이항분포는 막대그래프로, 정규분포는 선그래프로 나타낼 수 있다.
지오지브라를 쓰면 $n$, $p$를 바꿔가면서 관찰해볼 수 있는데, 아래 동영상은 그 과정을 담았다.
3. Proof
이제, 드므와브르-라플라스 정리를 증명하자. 증명에 앞서 우리가 찾으려는 함수는 임의의 $z$에 대해 $n \to \infty$일 때 $\dfrac {\mathrm P(Z=z)}{ \int_{z-\delta_n}^{z+\delta_n}f(z) \mathrm d z} \to 1$를 만족하는 확률밀도함수 $f$를 구하려 하고 있음을 다시 한 번 확인하자. 이 증명에서는 이런 함수가 있다는 것을 가정하고 시작한다. 아래 증명은 디테일이 부족해서 옳은 증명은 아니지만, 큰 틀을 잡는데는 문제가 없으리라 본다.
우선, $1-p=q$라 하면 확률질량함수를 직접 대입해서 \begin{equation} \label{ratioPX} \frac{\mathrm P(X=r+1)}{\mathrm P(X=r)} = \frac {n-r}{r+1} \times \frac p q \end{equation} 를 얻는다. 표준화를 위해 다음 몇 가지 기호를 사용한다. $$ Z = \frac{X-np}{\sqrt{npq}}, \quad z = \frac{r-np}{\sqrt{npq}}, \quad \Delta z = \frac 1 {\sqrt{npq}}$$ 그러면 (\ref{ratioPX})은 다음과 같이 고쳐쓸 수 있다. \begin{align} \frac {\mathrm P(Z=z+\Delta z)} {\mathrm P(Z=z)} &= \frac { n - (np+z \sqrt{npq})} {np + z \sqrt{npq}+1} \times \frac p q \\ & = \frac {1-zp \Delta z}{1+zq \Delta z + q (\Delta z)^2} \end{align} $f$의 가정에 의해 위 등식은 다음과 같이 근사할 수 있다. $$ \frac {f(z+\Delta z)}{f(z)} = \frac {1-zp \Delta z}{1+zq \Delta z + q (\Delta z)^2} $$ 양변에 로그를 취하고 $\Delta z$로 나누면 $$\frac{\ln f(z+\Delta z) - \ln f(z)}{\Delta z} = \frac {\ln(1-zp\Delta z)}{\Delta z} - \frac {\ln (1+ zq \Delta z + q(\Delta z)^2)}{\Delta z}$$ 인데, 이 식은 $n \to \infty$일 때 다음과 같은 식으로 변한다. $$ \left\{ \ln f(z) \right\}' = -zp -zq = -z$$ 이제, 양변을 적분하면 $$\ln f(z) = - \frac 1 2 z^2 + C$$ 즉, $$f(z) = e^c e^{- \frac 1 2 z^2}$$ 이 얻어진다. 이 함수가 확률밀도함수가 되려면 실수 전체에서 적분한 값이 1이라야 하므로 $$f(z) = \frac 1 {\sqrt{2 \pi}} e^{- \frac 1 2 z^2}$$ 이다.
4. 연속성 수정, continuity correction
고등학교 교과과정에서는 대충 넘어가는 부분이지만 이산확률분포인 이항분포를 정규분포로 근사할 때 약간의 애매함이 생긴다. $a$, $b$가 음아닌 정수일 때 정규분포에서는 $\mathrm P(a \le X \le b)$와 $\mathrm P(a \lt X \lt b)$가 같은 값을 가지지만, 이항분포에서 둘은 다른 값을 갖는다. 이산확률분포와 연속확률분포의 차이 때문에 생기는 것인데, 이런 문제를 해결하기 위해 이항분포를 정규분포로 근사할 때 $\mathrm P(X=2)$를 $\mathrm P(1.5 \lt X \lt 2.5)$로 바꿔서 문제를 해결한다. 마찬가지로, $\mathrm P(2 \le X \le 4)$는 $\mathrm P(1.5 \le X \le 4.5)$로 바꾼다음 정규분포를 이용한다. 그러면 보다 더 오차가 작은 답을 얻을 수 있다. 이 과정을 “연속성 수정”이라 한다.