でも、このやり方、本当に実現できるのでしょうか。パターンの特徴の組み合わせは膨大な数になりますから、個々のパターンにクラスのラベルを割り当てる作業には膨大な時間がかかります。記憶容量だって必要です。「前処理部:パターン化の方法は重要」のところで、数字「2」のパターン化に10×10のメッシュを使いました。特徴の組み合わせは2100通りありますから、全てのパターンを識別辞書に格納することは現実的ではありません。
そこで、代表的なお手本となるパターンだけ格納しておきます。つまり、そのクラスに属するパターンの典型例となる特徴の組み合わせを記憶しておくわけです。このようなパターンを、プロトタイプといいます。クラスはm種類あって、それぞれω1、ω2、...、ωmと表します。プロトタイプは各クラスに一つずつ用意されたとして、図1のようにp1、p2、...、pmとします。特徴空間上で近接しているパターン同士はその特徴が似ているという意味ですから、同じクラスに属すると考えてよいでしょう。

さて、識別したいパターンの特徴ベクトルがxだったとして、このxがどのクラスに識別されるか判定するのが識別部の役割です。xとpiとの距離の近いクラスωiに識別する方法(最近傍法)などがありますが、これは後に詳しく説明します。
もう一つ、重要な問題があります。それは、プロトタイプをどう決めたらよいかということです。プロトタイプは、代表的なお手本となるパターンと書きました。手書き文字ならば、習字の先生が書いた模範がお手本になるかも知れません。しかし、文字認識ではどの人が書いた「あ」でも、「あ」と認識されるのが重要であり、美しさは必要ありません。そのため、通常は多くの人が書いた文字の平均(あるいは重心)をお手本とします。
0 件のコメント:
コメントを投稿