日大工 総合教育 樋口幸治郎
ホーム | 教室 | 研究室 |
---|---|---|
統計学 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
標本に関する色々な用語を学ぶ(教科書p173-178).
定義 標本空間$\Omega$の確率変数$X$(=データ)について, 一部の要素のデータ$X_1,X_2,\cdots$から標本空間全体$\Omega$の特性(平均$E(X)$や分散$V(X)$)を探るとき, $\Omega$を母集団, 取り出される一部の要素の値$X_1,X_2,\cdots$を標本という.
定義 母集団$\Omega$の確率変数$X$について, ランダムに標本を取り出すとき, この行為を無作為抽出といい, 取り出された標本を無作為標本という. $n$個の無作為標本 $X_1,X_2,\cdots,X_n$ は独立同分布に従うと考える. これらの従う確率分布は母集団$\Omega$の確率変数$X$の従う確率分布であり, これを母分布という.
定義 $n$個の無作為標本 $X_1,X_2,\cdots,X_n$ から定まる $$\bar{X}=\dfrac{1}{n}\sum_{i=1}^nX_i\qquad S^2=\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2$$ をそれぞれ標本平均, 標本分散という. また, $S$を標本標準偏差という.
補題 確率変数$X,Y$と実数$\alpha,\beta$について $$E(\alpha X+\beta Y)=\alpha E(X)+\beta E(Y)$$ が成り立つ. さらに, $X,Y$が独立ならば $$E(XY)=E(X)E(Y)$$ $$V(\alpha X+\beta Y)=\alpha^2V(X)+\beta^2V(Y)$$ が成り立つ.
証明 連続型の場合のみ示す. (離散型も同様に示すことができる.) 確率変数$X,Y$の確率密度を$f_1(x),f_2(x)$とし, 同時確率変数$(X,Y)$の確率密度を$f(x,y)$とする. $$\begin{align} &E(\alpha X+\beta Y) =\int^\infty_{-\infty}\int^\infty_{-\infty}(\alpha x+\beta y)f(x,y)dxdy\\ &=\alpha\int^\infty_{-\infty}\int^\infty_{-\infty} xf(x,y)dxdy +\beta\int^\infty_{-\infty}\int^\infty_{-\infty} yf(x,y)dxdy \\ &=\alpha\int^\infty_{-\infty} xf_1(x)dx +\beta\int^\infty_{-\infty} yf_2(y)dy =\alpha E(X)+\beta E(Y) \end{align}$$ となるから, 第一の公式が成り立つ. 次に, $X,Y$が独立であれば$f(x,y)=f_1(x)f_2(y)$であるから, $$\begin{align} &E(XY) =\int^\infty_{-\infty}\int^\infty_{-\infty} xyf_1(x)f_2(y)dxdy\\ &=\int^\infty_{-\infty} xf_1(x)dx\cdot \int^\infty_{-\infty}yf_2(y)dy =E(X)E(Y) \end{align}$$ や $$\begin{align} &V(\alpha X+\beta Y)=E((\alpha X+\beta Y)^2)-E(\alpha X+\beta Y)^2 =E(\alpha^2X^2+2\alpha\beta XY+\beta^2 Y^2)-(\alpha E(X)+\beta E(Y))^2\\ &=\alpha^2E(X^2)+2\alpha\beta E(XY)+\beta^2 E(Y^2)-(\alpha^2 E(X)^2+2\alpha\beta E(X)E(Y)+\beta^2 E(Y)^2\\ &=\alpha^2(E(X^2)-E(X)^2)+\beta^2(E(Y^2)-E(Y)^2)+2\alpha\beta (E(XY)-E(X)E(Y)) =\alpha^2V(X)+\beta^2V(Y) \end{align}$$ が成り立つ.
定理 母分布の平均が$\mu$, 分散が$\sigma^2$であるとき, n個の無作為標本$X_1,X_2,\cdots,X_n$に対する標本平均 $$\bar{X}=\dfrac{1}{n}\sum_{i=1}^nX_i\qquad S^2=\dfrac{1}{n}\sum_{i=1}^n(X_i-\bar{X})^2$$ の平均$E(\bar{X})$と分散$V(\bar{X})$は $$E(\bar{X})=\mu\qquad V(\bar{X})=\dfrac{\sigma^2}{n}$$ で与えられる.
証明 先の補題から $$\begin{align} E(\bar{X}) =E\left(\dfrac{X_1+\cdots+X_n}{n}\right) =\dfrac{1}{n}(E(X_1)+\cdots+E(X_n)) =\dfrac{1}{n}(\overbrace{\mu+\cdots+\mu}^{n個}) =\dfrac{1}{n}\cdot n\mu =\mu \end{align}$$ であり, また, $$\begin{align} V(\bar{X}) =V\left(\dfrac{X_1+\cdots+X_n}{n}\right) =\dfrac{1}{n^2}(V(X_1)+\cdots+V(X_n)) =\dfrac{1}{n^2}(\overbrace{\sigma^2+\cdots+\sigma^2}^{n個}) =\dfrac{1}{n^2}\cdot n\sigma^2 =\dfrac{\sigma^2}{n} \end{align}$$ が成り立つ.
定理 母分布の平均を$\mu$とする. $n$回の無作為抽出の標本平均 $$\bar{X}=\dfrac{X_1+X_2+\cdots+X_n}{n}$$ について $$\lim_{n\to\infty}P(|\bar{X}-\mu|<\varepsilon)=1$$ が成り立つ.
証明 $E(\bar{X})=\mu$, $V(\bar{X})=\dfrac{\sigma^2}{n}$であるから, 標本標準偏差は$\dfrac{\sigma}{\sqrt{n}}$なので, チェビシェフの不等式 $$P\left(|\bar{X}-\mu|<\lambda\cdot \dfrac{\sigma}{\sqrt{n}}\right)\ge 1-\dfrac{1}{\lambda^2}$$ に, $\lambda=\dfrac{\varepsilon\sqrt{n}}{\sigma}$を代入すれば $$P\left(|\bar{X}-\mu|< \varepsilon\right)\ge 1-\dfrac{\sigma^2}{\varepsilon^2 n}$$ である. よって, $$\lim_{n\to\infty}P(|\bar{X}-\mu|<\varepsilon) =\lim_{n\to\infty}\left(1-\dfrac{\sigma^2}{\varepsilon^2 n}\right) =1$$ が成り立つ.