2016年1月11日月曜日

数値の分類

 「1月の最低気温1度の日に、10km走に出場し、45分40秒で完走でき、880番だった。」
 この一文は日常よく耳にするものであり、取り立てて専門的な知識が無くても理解できます。一般的な情報であり、年明けの寒い日に、マラソン大会か何かに出場して、45分40秒で走った、、、もの凄く速いというわけでもないですが、そんなに遅いわけでもないです。これで880番ということは、この大会の出場者は割合多いのではないか、くらいの想像はつくでしょう。ところが、これらの数値は、厳密に言うと別々の尺度となります。
 心理学者Dr. Stanly Smith Stevensは「On the theory of scales of measurement」の中で、数値を「名義尺度」「順序尺度」「間隔尺度」「比例尺度」に分類しています。名義尺度は何かを分類するための便宜的な名前であり、ラベルのようなものです。例えば、性別や職業、話題などを区別する場合です。性別であれば、男を1、女を2にするし、職業なら、スポーツ選手を1、デザイナーを2、編集者を3、歌手を4、小説家を5、学芸員を6といった具合です。数値を入れ換えても本質的に影響ないし、区別するための数値なので、その大きさにも意味がありません。順序尺度は順序関係を表し、順序に意味があります。例えば、競技結果の順序やサービス満足度などです。前者は1番、2番といったものであり、後者は1:とても満足、2:やや満足、3:やや不満、4とても不満といった数値です。値が等しいのか、大きいのか、小さいのかが比較できるが、加減算はできません。間隔尺度は等間隔の目盛り上の数値を表し、一定の単位で測られた量を意味します。例えば、気温や年月、試験の成績などです。数値が等しいか、大きいか、小さいかの比較ができるし、その差にも意味がああります。加減算は可能だが、ゼロ(原点)でも「無」というわけではない点に注意を要します。比例尺度は原点が定義されていて、目盛りは等間隔です。例えば、身長や体重、質量や長さ、金額などです。数値の比較、数値の差に意味があり、加減乗除ができます。
 このようにして考えると、「1月の最低気温1度の日に、10km走に出場し、45分40秒で完走でき、880番だった。」という文は、少し違った見方ができます。1月、1度は間隔尺度、10km、45分40秒は比例尺度、880番は順序尺度です。データ分析を行うときは、数値の分類を考えておく方が間違いが少ないです。