이 글은 시행횟수가 충분히 큰 이항분포는 정규분포로 취급이 가능하다는 것을 설명한다. 이 정리를 드 므와브르 - 라플라스 정리라고도 하는데, 이 정리의 증명으로 가장 널리 알려진 것은 Stirling's Approximation Formula를 이용하지만, 여기서는 고등학교 미적분만을 사용해서 증명하기로 한다.[1]

[1] 이 글의 증명은 다음 논문의 내용을 따른다
M. A. Proschan, The normal approximation to the binomial, The American Statistician, 62 (2008), 62-63. https://doi.org/10.1198/000313008x267848



1. 역사적 배경

이항분포는 야곱 베르누이가 Ars Conjectandi(추측술, 아르스 코녝탄디, 1713)[2]에서 처음 소개했다. 그래서, 이항정리 모델의 반복시행을 “베르누이 시행”이라고도 한다.

[2] 이 책은 그가 죽고 8년이 지난 때 출판되었다.

한편, 정규분포는 가우스(Gauss. C. 1777-1855)에 의해 여러 분야에 폭넓게 사용되었는데, 이 이유로 정규분포를 “가우스 분포”라고도 한다.

1738년, 드 므와브르(A. de Moivre, 1667-1754)는 The Doctrine of Chances에서 p=0.5일 때 이항분포 B(n,p)가 정규분포로 근사할 수 있음을 증명한다. 이것은 후에 라플라스가 중심극한정리를 증명하면서 베르누이의 결과를 다른 p에 대해서도 적용할 수 있음을 증명한다.(1812, Théorie analytique des probabilités, Analytic Theory of Probabilities) 대체로 np>5, n(1p)>5가 모두 성립하는 경우 이 정리를 적용한다.



2. Visualization

드므와브르 - 라플라스 정리를 보여주는 기존의 방식은 이항분포와 정규분포를 그대로 그려서 보여주는 것이었다. 아래 그림은 2015 개정교육과정의 어느 교과서의 한 그림을 캡처한 것이다.

정규분포를 덧칠해서 그려 놓은 그림도 있다. 하지만, 좌표축을 자료에 그대로 맞추면 n이 커질수록 점점 비교해야 할 영역도 넓어지므로 여기서는 비교할 모든 분포를 표준화시켜서 비교해 보기로 한다.

우선, 표준정규분포의 확률밀도함수는 f(x)=12πex22이다. 이항분포 B(n,p)의 확률질량함수는 다음과 같다. P(X=r)=nCrpr(1p)nr,r=0,1,,n

좌표평면에 (r,P(X=r))을 그리는 대신에 x좌표를 표준화된 값인 rnpnpq로 교체한다. 우리는 이산확률분포를 연속확률분포인 정규분포와 비교하려고 하므로 이 자료들이 시각적으로 해당 영역의 확률을 대표할 수 있도록 수정을 해야 한다. 시각적으로 확률을 표현할 방법으로 히스토그램처럼 서로 붙어있는 막대그래프가 좋은 모델인데, 위에서 표준화 하는 동안 자료들 사이의 간격이 좁아졌으므로 해당 x좌표에서의 확률과 같은 넓이를 가지는 사각형을 그리려면 확률질량함수의 값에 자료 간격인 npq를 곱한 값을 세로의 길이로 잡아서 그리면 이항분포도 연속확률분포와 같이 바라볼 수 있다.(기존에 이런 생각을 할 필요가 없었던 이유는 자료간의 차이가 1이라서 그렇다.) 이 생각을 모두 모아서 그림을 그리면 다음과 같이 이항분포는 막대그래프로, 정규분포는 선그래프로 나타낼 수 있다.

지오지브라를 쓰면 n, p를 바꿔가면서 관찰해볼 수 있는데, 아래 동영상은 그 과정을 담았다.



3. Proof

이제, 드므와브르-라플라스 정리를 증명하자. 증명에 앞서 우리가 찾으려는 함수는 임의의 z에 대해 n일 때 P(Z=z)z+δnzδnf(z)dz1를 만족하는 확률밀도함수 f를 구하려 하고 있음을 다시 한 번 확인하자. 이 증명에서는 이런 함수가 있다는 것을 가정하고 시작한다. 아래 증명은 디테일이 부족해서 옳은 증명은 아니지만, 큰 틀을 잡는데는 문제가 없으리라 본다.

우선, 1p=q라 하면 확률질량함수를 직접 대입해서 P(X=r+1)P(X=r)=nrr+1×pq

를 얻는다. 표준화를 위해 다음 몇 가지 기호를 사용한다. Z=Xnpnpq,z=rnpnpq,Δz=1npq
그러면 (1)은 다음과 같이 고쳐쓸 수 있다. P(Z=z+Δz)P(Z=z)=n(np+znpq)np+znpq+1×pq=1zpΔz1+zqΔz+q(Δz)2
f의 가정에 의해 위 등식은 다음과 같이 근사할 수 있다. f(z+Δz)f(z)=1zpΔz1+zqΔz+q(Δz)2
양변에 로그를 취하고 Δz로 나누면 lnf(z+Δz)lnf(z)Δz=ln(1zpΔz)Δzln(1+zqΔz+q(Δz)2)Δz
인데, 이 식은 n일 때 다음과 같은 식으로 변한다. {lnf(z)}=zpzq=z
이제, 양변을 적분하면 lnf(z)=12z2+C
즉, f(z)=ece12z2
이 얻어진다. 이 함수가 확률밀도함수가 되려면 실수 전체에서 적분한 값이 1이라야 하므로 f(z)=12πe12z2
이다.



4. 연속성 수정, continuity correction

고등학교 교과과정에서는 대충 넘어가는 부분이지만 이산확률분포인 이항분포를 정규분포로 근사할 때 약간의 애매함이 생긴다. a, b가 음아닌 정수일 때 정규분포에서는 P(aXb)P(a<X<b)가 같은 값을 가지지만, 이항분포에서 둘은 다른 값을 갖는다. 이산확률분포와 연속확률분포의 차이 때문에 생기는 것인데, 이런 문제를 해결하기 위해 이항분포를 정규분포로 근사할 때 P(X=2)P(1.5<X<2.5)로 바꿔서 문제를 해결한다. 마찬가지로, P(2X4)P(1.5X4.5)로 바꾼다음 정규분포를 이용한다. 그러면 보다 더 오차가 작은 답을 얻을 수 있다. 이 과정을 “연속성 수정”이라 한다.



+ Recent posts