표본추출의 기본 확률변수는 표본평균으로, $\displaystyle \overline X = \frac 1 n (X_1 + X_2 + \cdots + X_n)$로 나타내어 집니다. 이 포스팅에서는 표본평균의 평균과 분산이 복원, 비복원 추출의 경우에 모평균, 모분산과 어떤 관계가 있는지를 보여주려고 합니다.

복원추출


한 번 추출한 것을 다시 추출할 수 있다는 조건이 들어 있습니다. 따라서, $X_1, X_2, \cdots , X_n$은 서로 독립인 확률변수들입니다. $\overline X$에 대한 이야기를 하기에 앞서 몇 가지 증명이 필요합니다.
독립인 두 확률변수 $X$와 $Y$에 대하여 $$ \mathbb E(X+Y) = \mathbb E(X)+ \mathbb E(Y) $$ 와 $$ \mathbb V(X+Y) = \mathbb V(X) + \mathbb V(Y) $$ 가 성립한다.

증명 평균(혹은 기댓값)에 대해서는 두 변수가 독립이 아니어도 이미 성립한다는 것을 알고 있습니다. 따라서, 분산에 대해서만 증명하면 되겠습니다. 증명을 위해 $\mathbb E(X) = m_X$, $\mathbb E(Y)=m_Y$라 하죠. 그러면, \begin{align*} \mathbb V(X+Y) &= \mathbb E \left( \left( (X-m_X)+(Y-m_Y) \right)^2 \right)\\ &=\mathbb E \left( (X-m_X)^2 + (Y-m_Y)^2+2(X-m_X)(Y-m_Y) \right)\\ &= \mathbb E \left( (X-m_X)^2 \right) + \mathbb E \left((Y-m_Y)^2 \right) + 0\\ &= \mathbb V(X) + \mathbb V(Y) \end{align*} 가 되어 증명이 끝납니다.


모평균이 $m$, 모표준편차가 $\sigma$인 자료에서 크기가 $n$인 표본을 복원추출할 때, 다음이 성립한다. $$ \mathbb E( \overline X ) = m, \quad \mathbb V( \overline X ) = \frac{\sigma^2}{n} $$

증명 앞의 정리에 의하여 다음과 같이 증명을 할 수 있겠습니다. \begin{align*} \mathbb E( \overline X ) &= \frac 1 n ( \mathbb E (X_1 ) + \mathbb E(X_2) + \cdots + \mathbb E(X_n)) = \mathbb E(X) = m,\\ \mathbb V(\overline X) &= \frac{1}{n^2} (\mathbb V(X_1) + \mathbb V(X_2) + \cdots + \mathbb V(X_n)) = \frac 1 n \mathbb V(X) = \frac{\sigma^2}{n}. \end{align*}

비복원추출


이 추출방법에서는 $X_1, X_2 , \cdots , X_n$이 모두 달라야 합니다. 이 경우는 $\overline X$의 평균 및 분산이 앞에서와는 조금 다른 값이 됩니다.
모평균이 $m$, 모표준편차가 $\sigma$인 모집단에서 크기가 $n$인 표본을 비복원추출할 때, $$ \mathbb E(\overline X) = m, \quad \mathbb V(\overline X) = \frac{N-n}{N-1} \frac{\sigma^2}{n} $$ 이 성립한다. 이 때, $N$은 모집단의 크기를 말한다.

증명 가능한 표본의 개수가 ${}_N \mathrm C_n n!$이고, 가능한 $\overline X$의 값들을 더하는 과정에서 각각의 $x_i$들은 ${}_{N-1} \mathrm C_{n-1} n!$번 나타나므로, \begin{align*} \mathbb E(\overline X) &= \frac{1}{n \cdot {}_N \mathrm C_n} \times {}_{N-1} \mathrm C_{n-1} (x_1 +x_2 + \cdots + x_N ) \\ &= \frac 1 N (x_1 + x_2 + \cdots + x_N) = \mathbb E(X) = m \end{align*} 입니다. (위 식에서 배열에 의해 생기는 $n!$은 어차피 약분이 되므로 논리적 흐름을 돕기 위해 처음부터 생략했습니다.) 이제, 분산을 계산하기 위해 ${\overline X}^2$의 평균을 구하면, \begin{align*} \mathbb E( {\overline X}^2 ) &= \frac{1}{{}_N \mathrm C_n} ({\overline X_1}^2 + {\overline X_2}^2 + \cdots + {\overline X_{{}_N \mathrm C_n}}^2 )\\ &= \frac{1}{n^2 {}_N \mathrm C_n} \left\{ {}_{N-1} \mathrm C_{n-1} ({x_1}^2 + \cdots +{x_N}^2 ) +2 {}_{N-2} \mathrm C_{n-2} (x_1x_2 + x_1x_3 +\cdots +x_{N-1} x_N) \right\}\\ &= \frac{1}{n^2 {}_N \mathrm C_n} \left\{ {}_{N-1} \mathrm C_{n-1} ({x_1}^2 + \cdots +{x_N}^2 ) + {}_{N-2} \mathrm C_{n-2} (x_1 + \cdots +x_N)^2 - {}_{N-2} \mathrm C_{n-2} ({x_1}^2 + \cdots +{x_N}^2) \right\}\\ &= \frac{1}{n^2 {}_N \mathrm C_n} \left\{ {}_{N-2} \mathrm C_{n-1} ({x_1}^2 + \cdots +{x_N}^2 ) + {}_{N-2} \mathrm C_{n-2} (x_1 + \cdots +x_N)^2 \right\}\\ &= \frac{N-n}{n(N-1)} \mathbb E(X^2) + \frac{N(n-1)}{n(N-1)} m^2 \end{align*} 이므로, 표본평균의 분산은 $$ \mathbb V(\overline X) = \frac{N-n}{N-1} \frac{\sigma^2}{n} $$ 임이 얻어집니다.

추가노트 이 경우, 모집단의 크기 $N$이 아주 큰 경우는 근사적으로 복원추출에서의 결과와 같음을 알 수 있습니다. 즉, $N$이 충분히 큰 경우 $\displaystyle \mathbb V(\overline X) \sim \frac{\sigma^2}{n}$입니다.


+ Recent posts