日大工 総合教育 樋口幸治郎
ホーム | 教室 | 研究室 |
---|---|---|
統計学 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
教科書p2の上の表のように未加工のデータを生データと言う. 生のデータからは全体の傾向が掴みにくい. そこで, 度数分布表を作成したり, さらにそれからヒストグラムなどのグラフを作成すると, 全体の傾向を読み解きやすくなる.
教科書p3やp5の表のように, データを階級別に分類し, 各階級の度数(=頻度)をまとめた表のことを言う. 教科書p7の表の様に, 度数の他に(又は, 代わりに)相対度数(=全体の中での割合)を用いて表にするときもあり, また, この方が見易い場合もある(例えばビッグデータ).
教科書p4,p6,p8の図のように度数分布表を棒グラフで表したものをヒストグラムという.
データ全体の大局的な傾向については, ほとんどの場合 $$生データ\Rightarrow 度数分布表 \Rightarrow グラフ$$ の順に分かりやすい. 一方で, 正確さについては, ほとんどの場合, 逆順 $$生データ\Leftarrow 度数分布表 \Leftarrow グラフ$$ で正確さが増す. これは, 全体の理解のために, 情報量を落とし, また視覚化することに起因する.
教科書p40の表のように, 2組のデータを2次元データという. もっと一般に$p$個のデータを一つの組としたものを$p$次元データという.
2次元のデータもデータの種類ごとに階級分けして度数分布表を作ることができる. また, 教科書p40での図のように相関図(=散布図)を用いて表すことも多い.
教科書p40のように, 2次元データを平面上の点として表した図のこと. この図から, 二つの種類のデータの間の相関関係を見て取ることができる. p41の図のように, 正の相関, 負の相関, 無相関と相関図は分類される.
データを何らかの意味で代表する値のことを代表値という.
1次元データについて, データ全体の「真ん中」を代表する値として, (算術)平均, 中央値(=メジアン), 最頻値(=モード)などがある.
データ$x_1,x_2,\cdots,x_N$に対して, (算術)平均$\overline{x}$は, $$\overline{x}=\dfrac{x_1+x_2+\cdots+x_N}{N}=\dfrac{1}{N}\sum_{i=1}^Nx_i$$ で定義される.
昇順に並べられたデータ$x_1,x_2,\cdots,x_N$に対して, 中央値(=メジアン)は, これらのデータの真ん中の値 $$x_{k}\quad (但し, N=2k+1)$$として定義される. ただし, データの個数$N$が偶数の場合には, $$\dfrac{x_{k}+x_{k+1}}{2}\quad (但し, N=2k)$$ と定義する.
度数の最も多い値を最頻値(=モード)という.
1次元データの分布の形状, ばらつき具合の代表値を散布度という. 最もよく使われる散布度として, 分散や標準偏差がある.
データ$x_1,x_2,\cdots,x_N$と平均$\overline{x}$に対して, 分散$\sigma^2$を $$\sigma^2=\dfrac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_N-\overline{x})^2}{N}=\dfrac{1}{N}\sum_{i=1}^N(x_i-\overline{x})^2$$ と定義する.
分散の式を変形すると $$ \begin{align} \sigma^2 &=\dfrac{1}{N}\sum_{i=1}^N(x_i-\overline{x})^2 =\dfrac{1}{N}\sum_{i=1}^N\Big(x_i^2-2x_i\overline{x}+\overline{x}^2\Big) \\ &=\dfrac{1}{N}\sum_{i=1}^Nx_i^2-\dfrac{1}{N}\sum_{i=1}^N2x_i\overline{x}+\dfrac{1}{N}\sum_{i=1}^N\overline{x}^2\\ &=\overline{x_i^2}-2\overline{x}^2+\overline{x}^2\\ &=\overline{x_i^2}-\overline{x}^2 \end{align} $$ となる. つまり, 分散は「2乗の平均」引く「平均の2乗」である.
標準偏差$\sigma$は $$\sigma=\sqrt{\sigma^2}$$ と定義される.