機械学習への細道: データの無相関化

　特徴抽出処理で、もう一つやっておくべき重要なことがあります。それは、データの無相関化です。詳細は後の主成分分析のところで説明しますが、ここで簡単に述べておきます。特徴を増やしていくと、中には、似たような性質のものが混じってしまうことがあります。例えば、図１のように、2次元特徴空間上にデータが分布していたとします。主な傾向として、特徴軸$x_1$（横軸）の値が大きくなると、特徴軸$x_2$（縦軸）の値も大きくなっています。これを、相関があるといいます。

図１：相関がある特徴空間

　特徴間に相関があれば、識別のときには片方の特徴があればよく、もう片方の特徴は無駄でしょう。そこで、相関のある特徴を取り除く処理を施します。図２のように、データの分布が広がっている方向に$u_1$軸を設け、この$u_1$軸上にデータを射影します。$u_1$軸を中心に考えても、データのばらつき具合はあまり変化しません。特徴空間がこの$u_1$軸だけで済めば、特徴空間の次元が2次元から1次元に減ったことになります。では、この$u_1$軸はどのように決めればよいでしょうか。実は、データの分散が最大になる方向に、この$u_1$軸を取ることになるのですが、詳細は後の主成分分析のところで述べると致しましょう。

図２：1次元空間への射影

機械学習への細道

2012年10月28日日曜日

データの無相関化

0 件のコメント:

コメントを投稿