機械学習への細道: データのバラツキ

　何かデータを集めたとして、その数値が色々な値を取っていれば、バラツキが存在していることになります。一見無意味なバラツキの中にも、有用な情報が潜んでいるかも知れません。このバラツキの様子を調べるのが、データ分析です。
　今、男性女性をそれぞれ100人集めてきて、コインを投げてもらいました。男性女性には背の高い人もいれば、低い人もいて、背の高さはばらばらでしょう。また、コインは「表」と「裏」にばらつくでしょう。この場合、男女間の背の高さには差が現れると予想されますが、コインの「表」が出る割合は男女間で大きな差が生じるとは考えにくいです。男女間の差に対して、背の高さは有益な情報を与えますが、「表」の割合にあまり意味は無いでしょう。
　男女の身長の分布がわかっていたとすれば、165cmの人が男か女か、どちらの確率が高いかは予想がつきます。一方、コインの「表」か「裏」かの確率は、それぞれ$\frac{1}{2}$になるでしょう。これを知ったとして、その情報量（の期待値）は$I = -\Sigma_{i=1} ^n p_i \log {p_i} = -\frac{1}{2} \log {\frac{1}{2}} -\frac{1}{2} \log {\frac{1}{2}} = 1$となります。これは不確定な状況を確定するのに必要な平均情報量と考えることができ、この不確定度を表す量がエントロピーです。もし、表だけ、あるいは裏だけしか出ないコインがあったとして、この場合のエントロピーは$0$になります。表（あるいは裏）が出ることが決まっていますから、不確定度は$0$です。表か裏か、どちらが出るかわからない場合に、不確定度が最大になります。
　上記の話は常識的に考えるとそうなるというだけで、数値で表されたわけではありません。しかし、どんな値がどんな割合で生じているかわかれば、その様子が把握できたと言って良いでしょう。バラツキの様子は、分布と呼ばれます。分布を調べるには、図にしてみれば一目瞭然です。

男女の身長の分布

男女の裏表の分布

機械学習への細道

2012年11月13日火曜日

データのバラツキ

0 件のコメント:

コメントを投稿