機械学習への細道: 平均と分散

　データの代表値は、例えば、平均値でしょう。今、人が100人居て、身長を測ったとします。この集団の特徴を表す代表的な値として、身長の平均値は有用でしょう。100人の身長を$x_1$、$x_2$、...、$x_{100}$とおけば、平均値$\bar{x}$は次式であらわされます。
\begin{equation} \bar{x} = \frac{x_1 +x_2 +...+x_{100}}{100} \end{equation}
　でも、身長の平均値が175cmだったとして、100人全員の身長が偶然175cmだったのと、身長が100cmの人が半数、250cmの人が半数だったのとでは、意味合いが異なります。つまり、平均値だけでは情報として不十分であり、どのようにばらついているかが重要な情報になります。ばらつき具合を示す量として、分散があります。分散は、各データが平均値からどの程度ずれているかの平均を示します。分散$\sigma^2$は、次式で表されます。
\begin{equation} \sigma^2 = \frac{(x_1 -\bar{x})^2 +(x_2 -\bar{x})^2 +...+(x_{100} -\bar{x})^2}{100} \end{equation}
　人数を一般化して、$n$個の数値データが得られたとすれば、その平均と分散は、次式であらわされます。
\begin{equation} \bar{x} = \frac{x_1 +x_2 +...+x_{n}}{n} \end{equation}
\begin{equation} \sigma^2 = \frac{(x_1 -\bar{x})^2 +(x_2 -\bar{x})^2 +...+(x_{n} -\bar{x})^2}{n} \end{equation}

機械学習への細道

2012年11月5日月曜日

平均と分散

0 件のコメント:

コメントを投稿