AI Technology Community

小小程序员 2021-05-14 18:36:50

Communtity Adminstator

分散（Variance）

分散とは何か

　　分散と標準偏差は、データのばらつきの程度を測るために最も重要で最もよく使われる指標です。

　　分散は、各データとその算術平均との偏差の二乗和の平均で、通常は $σ 2$ で表されます。分散の測定単位や次元は、経済的な意味から解釈するのが不便なので、実際の統計作業では分散の算術平方根である標準偏差を使って統計データの差の程度を測ることが多いです。

　　標準偏差は、平均二乗偏差とも呼ばれ、一般にσで表されます。分散と標準偏差の計算には、単純平均法と加重平均法があり、また、母集団データと標本データでは、公式が少し異なります。

分散の計算公式

　　母集団の分散を $σ 2$ とすると、グループ化されていない生データの場合、分散の計算公式は次の通りです。

　　 $\sigma^2=\frac{\sum_{i=1}^N(X_i-\bar{X})^2}{N}$

　　グループ化されたデータの場合、分散の計算公式は次の通りです。

　　 $\sigma^2=\frac{\sum_{i=1}^K(X_i-\bar{X})^2 f_i}{\sum_{i=1}^K f_i}$

　　分散の平方根が標準偏差で、それに対応する計算公式は次の通りです。

　　グループ化されていないデータ： $\sigma=\sqrt{\frac{\sum_{i=1}^N(X_i-\bar{X})^2}{N}}$

　　グループ化されたデータ： $\sigma=\sqrt{\frac{\sum_{i=1}^K(X_i-\bar{X})^2 f_i}{\sum_{i=1}^K f_i}}$

標本分散と標準偏差

　　標本分散と母集団分散の計算上の違いは、母集団分散はデータの個数または総度数で偏差の二乗和を割るのに対し、標本分散は標本データの個数または総度数から1を引いた数で偏差の二乗和を割ることです。ここで、標本データの個数から1を引いたn－1を自由度と呼びます。標本分散を $S_{n-1}^2$ とすると、グループ化されていないデータとグループ化されたデータから標本分散を計算する公式はそれぞれ次の通りです。