機械学習への細道: データの正規化

　特徴抽出処理によって、入力パターンに対する特徴が取得されます。つまり、特徴ベクトルが得られます。特徴ベクトルの各成分は通常、実数値を取り、異なる単位で計測されたものです。つまり、その単位は長さmであったり、重さkgであったり、時間秒であったり、さまざまです。実は、この単位、つまり、スケールを変えただけで、特徴空間のパターンの分布が一変してしまいます。
　今、2次元特徴ベクトルが${\mathbb x_a}$、${\mathbb x_b}$、${\mathbb x_c}$、${\mathbb x_d}$だったとして、図１(a)の特徴空間上では${\mathbb x_a}$と${\mathbb x_c}$が一つのかたまりで、${\mathbb x_b}$と${\mathbb x_d}$がもう一つのかたまりに見えます。ところが、横軸の単位を変更すると、図１(b)のようになったとします。と、${\mathbb x_a}$と${\mathbb x_b}$が一つのかたまりに、${\mathbb x_c}$と${\mathbb x_d}$がもう一つのかたまりに見えます。

(a) 横軸の単位は細かい

(b) 横軸の単位は粗い
図１：正規化

　こんなの単なる相対的なものだと考えられるかも知れませんが、パターンの類似性は特徴空間上の距離で表されますから、単位をどう取るか、言い換えれば、特徴間のスケーリングをどうするかは重要な問題なのです。そこで、各特徴軸を正規化します。正規化は、各パターン間の距離が最小になるように行われるのですが、詳細は後で説明します。

機械学習への細道

2012年10月27日土曜日

データの正規化

0 件のコメント:

コメントを投稿