Loading [MathJax]/jax/output/HTML-CSS/jax.js

2012年10月28日日曜日

データの無相関化

 特徴抽出処理で、もう一つやっておくべき重要なことがあります。それは、データの無相関化です。詳細は後の主成分分析のところで説明しますが、ここで簡単に述べておきます。特徴を増やしていくと、中には、似たような性質のものが混じってしまうことがあります。例えば、図1のように、2次元特徴空間上にデータが分布していたとします。主な傾向として、特徴軸x1(横軸)の値が大きくなると、特徴軸x2(縦軸)の値も大きくなっています。これを、相関があるといいます。 図1:相関がある特徴空間

 特徴間に相関があれば、識別のときには片方の特徴があればよく、もう片方の特徴は無駄でしょう。そこで、相関のある特徴を取り除く処理を施します。図2のように、データの分布が広がっている方向にu1軸を設け、このu1軸上にデータを射影します。u1軸を中心に考えても、データのばらつき具合はあまり変化しません。特徴空間がこのu1軸だけで済めば、特徴空間の次元が2次元から1次元に減ったことになります。では、このu1軸はどのように決めればよいでしょうか。実は、データの分散が最大になる方向に、このu1軸を取ることになるのですが、詳細は後の主成分分析のところで述べると致しましょう。 図2:1次元空間への射影

0 件のコメント:

コメントを投稿