確率密度関数 \( f(x) \) がわからないと、確率を算出することはできません。血糖値の真の分布(関数)は、血糖値の測定を繰り返し行うことによって特定されます。ところが、測定を無限に繰り返すことはできません。そこで、モデルを考えます。過去の経験や現象に基づいて、データのバラツキを再現し、なおかつ、数学的に扱いやすい関数を用います。今、このモデルを表す関数を \( \phi (x) \) とします。
血糖値の具体的な測定値を97.6 mg/dLのように小数点第1位まで表示するとき、小数点第2位以下は四捨五入しています。仮に、無限の精度を持つ測定器を用いれば、小数点以下を限りなく細かく測定できます。このような場合、確率変数は連続的な値をとり、連続型の確率変数といいます。
確率密度関数 \( f(x) \) としてよく使われるものに正規分布があります。これは連続型の確率変数に関する確率分布で、平均値の付近にデータが集まるような分布を表します。 \begin{equation} \phi = \frac{1}{\sqrt{(2\pi \sigma^2)}} \exp \left \{ -\frac{(x-\mu)^2}{2\sigma^2} \right \} \end{equation} \( \phi \) は下図のように、左右対称で釣り鐘型の形状をしています。対称軸は \( \mu \) で正規分布の平均、分布の広がりは \( \sigma \) で正規分布の標準偏差を表します。このような分布は \( N(\mu, \sigma^2) \) と書き表します。平均 \( \mu \) と標準偏差 \( \sigma \) が決まりますと、この正規分布は確定します。
前に出てきた血糖値の表のデータに基づけば、血糖値の平均は96.6 mg/dL, 標準偏差は10.6 mg/dLです。下図の曲線は、\( \mu = 96.6, \sigma = 10.6 \)の正規分布を表しています。ところで、この図を真の分布 \( f(x) \) として、正規分布のモデル \( N(96.6, 10.6^2) \) で近似するとすれば、「高血糖の疑いがある(110 mg/dL 以上)」と診断される確率は約10.2 %です。この場合、10回に1回くらいは「高血糖の疑いがある」と診断されてしまうということです。血糖値の平均は96.6 mg/dL, 標準偏差は10.6 mg/dL というのは本来、標本の標準偏差でしたから、真の分布とは違うという点に注意が必要です。
データにはバラツキがあり、そのバラツキを確率分布としてとらえています。このように、ある事象が起きる確率を、確率分布に基づいて評価することを、統計的推測といいます。