2019年10月19日土曜日

統計的推測

確率密度関数 f(x) がわからないと、確率を算出することはできません。血糖値の真の分布(関数)は、血糖値の測定を繰り返し行うことによって特定されます。ところが、測定を無限に繰り返すことはできません。そこで、モデルを考えます。過去の経験や現象に基づいて、データのバラツキを再現し、なおかつ、数学的に扱いやすい関数を用います。今、このモデルを表す関数を ϕ(x) とします。

血糖値の具体的な測定値を97.6 mg/dLのように小数点第1位まで表示するとき、小数点第2位以下は四捨五入しています。仮に、無限の精度を持つ測定器を用いれば、小数点以下を限りなく細かく測定できます。このような場合、確率変数は連続的な値をとり、連続型の確率変数といいます。

確率密度関数 f(x) としてよく使われるものに正規分布があります。これは連続型の確率変数に関する確率分布で、平均値の付近にデータが集まるような分布を表します。 ϕ=1(2πσ2)exp{(xμ)22σ2} ϕ は下図のように、左右対称で釣り鐘型の形状をしています。対称軸は μ で正規分布の平均、分布の広がりは σ で正規分布の標準偏差を表します。このような分布は N(μ,σ2) と書き表します。平均 μ と標準偏差 σ が決まりますと、この正規分布は確定します。

前に出てきた血糖値の表のデータに基づけば、血糖値の平均は96.6 mg/dL, 標準偏差は10.6 mg/dLです。下図の曲線は、μ=96.6,σ=10.6の正規分布を表しています。ところで、この図を真の分布 f(x) として、正規分布のモデル N(96.6,10.62) で近似するとすれば、「高血糖の疑いがある(110 mg/dL 以上)」と診断される確率は約10.2 %です。この場合、10回に1回くらいは「高血糖の疑いがある」と診断されてしまうということです。血糖値の平均は96.6 mg/dL, 標準偏差は10.6 mg/dL というのは本来、標本の標準偏差でしたから、真の分布とは違うという点に注意が必要です。

データにはバラツキがあり、そのバラツキを確率分布としてとらえています。このように、ある事象が起きる確率を、確率分布に基づいて評価することを、統計的推測といいます。

0 件のコメント:

コメントを投稿