特徴抽出処理で、もう一つやっておくべき重要なことがあります。それは、データの無相関化です。詳細は後の主成分分析のところで説明しますが、ここで簡単に述べておきます。特徴を増やしていくと、中には、似たような性質のものが混じってしまうことがあります。例えば、図1のように、2次元特徴空間上にデータが分布していたとします。主な傾向として、特徴軸$x_1$(横軸)の値が大きくなると、特徴軸$x_2$(縦軸)の値も大きくなっています。これを、相関があるといいます。
図1:相関がある特徴空間
特徴間に相関があれば、識別のときには片方の特徴があればよく、もう片方の特徴は無駄でしょう。そこで、相関のある特徴を取り除く処理を施します。図2のように、データの分布が広がっている方向に$u_1$軸を設け、この$u_1$軸上にデータを射影します。$u_1$軸を中心に考えても、データのばらつき具合はあまり変化しません。特徴空間がこの$u_1$軸だけで済めば、特徴空間の次元が2次元から1次元に減ったことになります。では、この$u_1$軸はどのように決めればよいでしょうか。実は、データの分散が最大になる方向に、この$u_1$軸を取ることになるのですが、詳細は後の主成分分析のところで述べると致しましょう。
図2:1次元空間への射影
0 件のコメント:
コメントを投稿