最近は統計のこととかの本が出ていますよね。
でもまぁ、かなり難しいんだよなぁ。
いえ、このごろ色々と調べなくてはいけなくなって大変だったのです。
まぁ、確率統計の基本は正規分布ですね。
$$ f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}\right)$$ というやつですね。
xのある範囲を決めたときに、その間を積分したものが、その区間になる確率になるわけです。
まぁ、何かの統計を取ったときにどんな確率でその結果が得られるか、というのは色々なケースがあるのですが、とりあえずの近似としてはこの正規分布が使えるし、正規分布は使いやすいんですよね。
ここでいうところの$\sigma$は標準偏差で、$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}\left(x_i-\mu\right)^2 $$です。二乗にしてるのは、中心(平均)からの隔りをあらわすためです。この$\sigma$基準ではかって、平均を50にしてそこからの隔りを表わしたのがいわゆるところの偏差値ですね。
2次元の正規分布というのもあります。
どういうことか、というと、xという事象とyという事象が「同時」に起きる可能性だったりします。xとyが起きる可能性が別々のとき(独立)なときは、単純に上の式を掛け合わせれば2次元の正規分布ができます。
$$ f(x,y)= \frac{1}{2\pi\sqrt{{\sigma_x}^2{\sigma_y}^2}}\exp\left(-\frac{1}{2}\left(\frac{(x-\mu_x)^2}{{\sigma_x}^2}+\frac{(y-\mu_y)^2}{{\sigma_y}^2}\right)\right) $$ みたいな感じです。はーい、おぼえてますか? exp同士のかけ算は、中見が和になるんでしたね。
で、ですね、expの中をよく見ると楕円の式になっているんですね。
$$ \frac{(x-\mu_x)^2}{{\sigma_x}^2}+\frac{(y-\mu_y)^2}{{\sigma_y}^2} = 1 $$ とすると、中心が$(\mu_x, \mu_y)$にあって、x軸方向の半径が${\sigma_x}^2$にあって、y軸方向の半径が${\sigma_y}^2$になる楕円の方程式になるわけです。楕円の中心から、なにかがぼやーっと広がっているイメージです。
まぁ、ここまでは高校の数学の問題。(今もやるのかなぁ?)
この楕円は横か縦に細長いものになりますよね。でも、一般的には別にかたむいていたっていいわけで。
そこで、共分散というのを使います。
$$ \Sigma = \begin{pmatrix} {\sigma_x}^2 & \sigma_{xy} \\ \sigma_{xy} & {\sigma_y}^2 \end{pmatrix} $$ で、$$ \sigma_{xy} =\frac{1}{n}\sum_{i=1}^{n}\left(x_i-\mu_x\right)\left(y_i-\mu_y\right) $$ となります。
このとき、一般的な正規分布の確率密度関数は、 $$ F(x,y) = \frac{1}{2\pi\sqrt{\left(\left|\Sigma\right|\right)}}\exp\left(-\frac{1}{2}(X-\mu)^T\Sigma^{-1}(X-\mu)\right) $$となります。
ここで、$X=(x,y)$で、$\mu=(\mu_x,\mu_y)$で、$T$は行列の転置をあらわします。
これで傾いた楕円のときの正規分布が計算できるのでした。
この傾いているということがなにをあらわすかというと、xがおきるときに、yの影響を受けるということを意味します。(独立でない)
それで、本題なのですが、何かを集計したときに、その結果が正規分布かどうかを調べるためには検定というのをしないといけないのです。
まだ1次元のときはマシなのですが、2次元以上になるとかなりやっかい。
集計したものが本来従うと予想される分布の形状を仮定してやって、その予想結果に大してどれだけはみ出しうるかどうかの確率を求めるんです。
まぁ、累積確率やら$\chi^2$分布やら色々と出てくるのですが、それから飛び出さないであろう確率がある値よりも大きければ、その分布が予想通りである確率がその得られた確率に相当するわけです。
よく、科学の記事とかで、なんとかが存在する確率が99%だとかなんとか言いますが、その確率はこうやって求めてるんですね。
いや、最近まで知りませんでしたよ。
まともに検定なんてやったことなかったものなぁ。
で、また話がふっとんで、占星術の話。
最近は占星術の学会とかでは過去のデーターを集計してきて、ホロスコープの意味するところが統計的に正しいのだと証明しようとしています。それに対して、一般の科学者は、無意味なデータ同士を比較しているので、その統計結果には意味がないと主張しています。
どっちが正しいのか。
まぁ、上にも書いたように、ある統計結果が法則性を持つ(有意である)ことを証明するためには、色々な角度から検定しないといけないんですよね。
その検定をどのレベルまでやっているのかがわからないんだよなぁ。
統計した結果がある一定のバラツキにおさまっている、というのもひとつの統計結果なんですけど、ふたつ以上の要因が関連を持つかどうかの検定はもっと厄介なんだ、ということに気付いたんですよ。
仮に検定をしっかりしていたとしても、それはかなり厄介な方法を使わないといけないだろうなぁ。まぁサンプル自体は、歴史的重みがあるので結構集まると思いますけど。
めんどいですね。