日大工 総合教育 樋口幸治郎
ホーム | 教室 | 研究室 |
---|---|---|
統計学 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
教科書p40の上の表 あるクラスの微分積分と線形代数の得点のデータ を整理してみよう.
散布図を作成してみよう. 上記のエクセルファイルの下側のシートタブ「生データ」を選択すると, p40のデータが並べられている. 微分積分と線形代数の得点のデータの範囲を選択して, 上側のタブ「挿入」の「グラフ」で散布図を選択し, 軸の最小値・最大値を0と100とし, 軸に名前を付けるなどしてみよう.
散布図を見ると, 二種類のデータの相関のあるなしの程度, 相関の正・負が直感的に把握される.
作成した散布図に回帰直線を書き加えよう. 作成した散布図を選択した状態で, 上側のタブ「グラフのレイアウト」の「近似曲線」の「近似曲線のオプション」で線形近似を作成してみよう.
作成された直線は回帰直線と呼ばれるものである.
散布図は2種のデータの相関関係を大雑把に把握するのに有用であるが, 別の種類のデータとの相関関係との関係の強さを比較する場合には, それぞれの散布図を比較して判断することは難しいことが多い. そこで, 2種のデータの相関関係を表す重要な代表値である共分散と相関係数, 及び, 回帰係数(回帰直線の傾き)をエクセルで計算してみよう.
共分散(covariance)は関数「COVARIANCE.P(範囲,範囲)」, 相関係数(correlation coefficient)は関数「CORREL(範囲,範囲)」, 回帰係数は関数「SLOPE(範囲,範囲)」で計算できる.
演習 次の「確率統計の77名の中間・期末試験結果」のデータを使って, 同様に散布図・回帰直線を作成し, 代表値として, それぞれの平均と分散, 及び, 共分散・相関係数・回帰係数を求めてみよう.
$N$個のデータ$d_1,d_2,\cdots,d_N$に対して定まる ($N$次元)ベクトル$\overrightarrow{d}=(d_1,d_2,\cdots,d_N)$ をデータのベクトルという.
データ$d_1,d_2,\cdots,d_N$と, これが定めるベクトル$\overrightarrow{d}$を同一視して, 単にデータ$\overrightarrow{d}$ということもある.
データ$\overrightarrow{d}=(d_1,d_2,\cdots,d_N)$の中央を表す値の一種である平均$\bar{d}$の本質は, $$\left|\overrightarrow{d}-(\overbrace{\bar{d},\bar{d},\cdots,\bar{d}}^{N個})\right|が最小$$ にある. (但し, $\overrightarrow{x}=(x_1,x_2,\cdots,x_N)$の長さ$|\overrightarrow{x}|$(又はノルムともいう)は $$|\overrightarrow{x}|=\sqrt{x_1^2+x_2^2+\cdots+x_N^2}$$ である.)
$\overrightarrow{e}=\overrightarrow{d}-(\overbrace{\bar{d},\bar{d},\cdots,\bar{d}}^{N個})$と置けば, 標準偏差$\sigma$は $$\sigma=\dfrac{1}{\sqrt{N}}\left|\overrightarrow{d}-(\overbrace{\bar{d},\bar{d},\cdots,\bar{d}}^{N個})\right|$$ と表現できる. これはベクトル$(\overbrace{1,1,\cdots,1}^{N個})$の長さ$\sqrt{N}$を単位としてベクトル$\overrightarrow{d}-(\overbrace{\bar{d},\bar{d},\cdots,\bar{d}}^{N個})$の長さを測り直したものと言える.
ベクトル $$\overrightarrow{e}=\dfrac{\overrightarrow{d}-(\overbrace{\bar{d},\bar{d},\cdots,\bar{d}}^{N個})}{\sqrt{N}}$$を データ$\overrightarrow{d}$の正規形と呼ぶ. 従って, $\sigma=\left|\overrightarrow{e}\right|$, つまり, データの正規形の長さが標準偏差である.
2種のN個のデータ$\overrightarrow{d_x},\overrightarrow{d_y}$があるとき, これらの正規形$\overrightarrow{e_x},\overrightarrow{e_y}$の内積 $$\sigma_{xy}=\overrightarrow{e_x}\cdot\overrightarrow{e_y}$$が共分散$\sigma_{xy}$である. (但し$\overrightarrow{x}=(x_1,x_2,\cdots,x_N),\overrightarrow{y}=(y_1,y_2,\cdots,y_N)$の内積$\overrightarrow{x}\cdot\overrightarrow{y}$は $$\overrightarrow{x}\cdot\overrightarrow{y}=x_1y_1+x_2y_2+\cdots+x_Ny_N$$ と定義される.)
正規形$\overrightarrow{e_x},\overrightarrow{e_y}$のなす角度$\theta$の余弦$\cos\theta$が 相関係数$r_{xy}$である. つまり, $$r_{xy}=\cos\theta=\dfrac{\overrightarrow{e_x}\cdot\overrightarrow{e_y}}{\left|\overrightarrow{e_x}\right|\left|\overrightarrow{e_y}\right|}$$ である.
相関係数$r_{xy}$の定義から$$-1\le r_{xy}\le 1$$である. また, $r_{xy}>0$のとき, 二つのデータは正の相関を持つといい, $r_{xy}<0$のとき, 二つのデータは負の相関を持つという.
2種のN個のデータ$\overrightarrow{d_x},\overrightarrow{d_y}$について, 定数$a,b$に対して, $$\overrightarrow{v}=\overrightarrow{d_y}-a\overrightarrow{d_x}-b$$ と定める. $\left|\overrightarrow{v}\right|$が最小となるような$a,b$に対する直線 $$y=ax+b$$ をデータ$\overrightarrow{d_x},\overrightarrow{d_y}$の回帰直線という. 回帰直線は平均$\bar{d_x},\bar{d_y}$を用いて $$y-\bar{d_y}=a(x-\bar{d_x})$$ と表すこともできる. $a$を回帰係数といい, $$a=r_{xy}\dfrac{\sigma_y}{\sigma_x}=\dfrac{\sigma_{xy}}{\sigma_x^2}$$ という式で求めることができる.
回帰直線は簡易な式で係数を計算できるのでよく使われるものの, 例えば, 2種のデータの$x,y$の役割を入れ替えたとき, 交換の前後での2つの回帰直線が一般には逆関数の関係にならないなど不自然な性質がある. あくまでも目安として用いるに止めるのが賢明であろう.