2019年10月12日土曜日

データのバラツキと確率

「データのバラツキは確率的に起きる」と考え、データの背後に隠れている真実を推定します。下図は、先の表で示した、ある人の血糖値を100回測定し、10 mg/dLの階級に分けて描いた頻度グラフです。例えば、血糖値が80~90 mg/dLn範囲で測定された回数を、棒の長さでプロットします。このようなグラフはヒストグラムと呼ばれます。全体の測定回数100で割ると、棒グラフの面積は1に正規化されます。

血糖値の測定回数を増やして、階級幅を狭めると、ヒストグラムは図の曲線のような分布に近づきます。この曲線は正の値をとり、横軸との間で囲まれた領域の面積は1となります。つまり、 f(x)0,+f(x)dx=1 です。これを満たす関数 f(x) は確率密度関数と呼ばれます。この人の血糖値はバラついていますが、そのバラツキは確率密度関数に従っているということです。この血糖値のデータを変数 X とすれば、確率密度関数に従って分布する確率変数ということができます。

血糖値が区間 (a,b) に入る確率は、(a,b) の範囲の頻度を足せばよいです。確率密度関数で言えば、その範囲の領域の面積を求めればよいのです。この場合、区間 (a,b) と横軸、f(x) で囲まれた領域の面積を求めればよいということです。これは、確率変数 X が区間 (a,b) に入る確率となります。 P(a<X<b)=abf(x)dx

これは以前も書いたのですが、確率変数というのはわかりにくい概念です。実際に試行が実施されるまでどのような値が得られるかわからない変数が、確率変数です。試行が実施されて値が得られたら、その値は確率変数の実現値です。確率分布は、確率変数がどのような値を取りやすく、どのような値を取りにくいかを示しています。言い換えれば、確率変数がどのような値をどんな確率で取るかを表すということです。確率変数は、試行を行ってはじめて値(実現値)が決まります。その値に再現性があるわけではなく、同じ試行を繰り返しても同じ値が得られるとは限りません。

0 件のコメント:

コメントを投稿