日大工 総合教育 樋口幸治郎
ホーム | 教室 | 研究室 |
---|---|---|
統計学 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
教科書p2の上の表「B科目の定期試験結果」のデータを整理してみよう.
上記のエクセルファイルの下側のシートタブ「生データ」を選択すると, p2のデータが並べられている. 「A列」のデータを選択し, 上側のタブ「データ」での「並び替え」で「昇順」にしてみよう.
昇順データの真ん中のデータの値が中央値である. 中央値はエクセルでは, 関数「MEDIAN(範囲)」を使っても計算できるので確認してみよう.
度数分布表を作成してみよう. そのためには, まず, 階級を設定する必要がある. 今回は教科書p3の表1.1にならって階級の範囲を設定しよう.
度数分布表を作成してみよう. 度数を調べるには, 関数「COUNTIF(範囲,条件)」が役立つ. ここで条件は, 例えば, 「">=20"」で20以上を表し, 「"<30"」で30未満を表す.
度数が入力できたら, 累積度数(度数を順に足し合わせたもの), 相対度数(全体での度数の割合), 累積相対度数も入力してみよう.
作成した度数分布表を使ってヒストグラムを作成しよう. 度数分布表における階級と度数を選択して, 上側のタブ「グラフ」の「グラフの挿入」で棒グラフを選択し, 軸に名前を付けるなどしてみよう.
ヒストグラムを見ると, 最頻値の階級が簡単に見て取れる. また平均値や, データのばらつき具合がどのくらいか直感的に把握される.
ヒストグラムはデータの特徴を大雑把に把握するのに有用であるが, 似たデータとの平均やばらつき具合の比較などのときなどでは, グラフから判断することが難しいことが多い. そこで, データから幾つか重要な代表値である平均値と分散, 及び, 標準偏差を計算してみよう.
平均は関数「AVERAGE(範囲)」, 分散(variance)は関数「VARP(範囲)」, 標準偏差(standard deviation)は関数「STDEVP(範囲)」で計算できる. (分散・標準偏差の関数の「P」は母集団(population)の頭文字を表す.)
演習 教科書p11の「ある科目の59名の試験結果」のデータを使って, 同様に度数分布表とヒストグラムを作成し, 代表値を求めてみよう.
度数分布表からも平均・分散・標準偏差を求めることができる. しかし, これらは生データからも求める代表値と必ずしも一致しない近似値である.
上記の代表値を求めるために, まず階級毎にそれを代表する値, 階級値$x_i$を設定する. 階級値は, 階級範囲の中間の値として設定されることが多い.
階級値$x_i$の度数を$f_i$とすれば, 近似的に値$x_i$のデータが$f_i$個ある, と考えられるので, 平均$\overline{x}$は $$\overline{x} =\dfrac{x_1f_1+x_2f_2+\cdots+x_nf_n}{N} =\dfrac{1}{N}\sum_{i=1}^n x_if_i$$ と近似できる. (ここで$N$はデータの総数, つまり, $N=f_1+f_2+\cdots+f_n$である.)
同様に考えて, 分散$\sigma^2$や標準偏差$\sigma$は $$\sigma^2 =\dfrac{1}{N}\sum_{i=1}^n(x_i-\overline{x})f_i$$ $$\sigma =\sqrt{\sigma^2}$$ と近似できる.
演習 総務省統計局のホームページにおける 人口推計(平成28年11月確定値)や 世界の統計2017の第2章のエクセルデータ, または, 国連の世界人口についてのサイトで入手可能な 各国の人口推計のデータなどを用いて, 日本を含む2か国以上の平均年齢と標準偏差を比較して, 違いの要因を考えてみよう.