落ちこぼれナースの統計チャレンジ

元落ちこぼれ看護師(保健師)が、私と同じく統計にドキドキしている看護学生や保健師さんに、簡単な言葉で届けるために始めたブログです。

中学生でも分かる!?統計数学〜カイ二乗分布とF分布〜


今回は「カイ二乗分布」と「F分布」の数式について説明していきます!

ちょっと難しく感じるかもしれませんが、これらは元をたどれば「正規分布」から派生した仲間達なのです。

過去の記事と組み合わせて読むとより理解が深まると思います。

是非読んでください!!

過去記事:

中学生でも分かる!?統計数学〜正規分布・二項分布・t分布〜


カイ二乗分布

特徴
  • 値は 0 以上しか取らない
  • グラフは右に長い裾を持つ(非対称)
  • 自由度が大きくなると正規分布に近づく
  • カイ二乗検定に使われる

「そもそもカイ二乗検定って何だったっけ?」という方はこちらの記事をご参照ください。

「自由度」という言葉に馴染みがない方もいらっしゃると思うので、後述します。

自由度って?

「自由度」とは、データの中で「自由に動ける数字の数」 のことです。

例:3人のテストの平均点が60点だと決まっているとします。

  • 1人目と2人目の点数を決めたら、3人目は自動的に決まってしまいます。
    →このとき「自由に決められるのは2人分」なので、自由度は 2 です。

t分布のように平均を使う場合、自由度は「データの数 − 1」になります。

しかし、今回のカイ二乗分布では「足した正規分布の数」が自由度になります。

簡単にまとめると、

  • 自由度 = 「自由に決められるデータの数」
  • 平均を計算するときは1つ制約があるため  n - 1
  • カイ二乗分布では「足した数そのもの」が自由度になる
定義

もし次のような正規分布に従うデータを考えます:

 Z_1, Z_2, \dots, Z_k \sim N(0,1)

これらを二乗して足すと…

 X = Z_1^2 + Z_2^2 + \cdots + Z_k^2

この X が従う分布を カイ二乗分布(自由度 k) と呼びます。

確率密度関数
 f(x; k) = \frac{1}{2^{k/2}\Gamma(k/2)} x^{k/2 - 1} e^{-x/2}, \quad x \geq 0

登場人物:

  •  k :自由度(足した正規分布の数)
  •  x^{k/2 - 1} :自由度によって形が変わる部分
  •  e^{-x/2} :右に長く尾を引く形をつくる
  •  \Gamma(k/2) :ガンマ関数。階乗をもっと広い数(整数以外や小数)にまで拡張したもの

図式化するとこちら。

自由度が小さいと「山は左(0の近く)に寄り、右に長い裾を引く形」になっていますね。

一方、自由度が大きくなるとまるで正規分布のような形に近づきます。


F分布

特徴
  • 値は 0 以上
  • グラフは右に長い裾を持つ
  • ANOVA(分散分析)に使われる
  • 「分散どうしの比」を調べるときの分布

「ANOVAって何だか忘れっちまった…」という方はこちらの記事をどうぞ。

定義

2つの独立したカイ二乗分布 U, V を考えます:

 U \sim \chi^2(m), \quad V \sim \chi^2(n)

これをそれぞれ自由度で割り、その比をとると…

 F = \frac{U/m}{V/n}

この F が従う分布を F分布(自由度 m, n) と呼びます。

確率密度関数
 f(x; m, n) = \frac{\sqrt{\frac{(m x)^m n^n}{(m x + n)^{m+n}}}}{x \, B!\left(\tfrac{m}{2}, \tfrac{n}{2}\right)}, \quad x > 0

登場人物:

  •  m, n :自由度(分子・分母それぞれのカイ二乗分布の自由度)
  • 分子  U/m :1つ目のばらつき
  • 分母  V/n :2つ目のばらつき
  •  B!\left(\tfrac{m}{2}, \tfrac{n}{2}\right) :ベータ関数。分布の形を調整する役割(ガンマ関数と関係があり、 B(p, q) = \tfrac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)} で表せる)

ちょっと難しいですが、もう少し詳しく説明すると、

  • 自由度 m, n:比べるグループの大きさに関係する数字
  • 分子 U/m, 分母 V/n:2つのバラつきを比べている(分散をそのまま比べると扱いづらいので、一度カイ二乗分布に変形し、自由度で割った形になっています。)
  • ベータ関数 B:ガンマ関数を使って形を整える「分布の調味料」

※F分布の式は、ガンマ関数で書かれることもあれば、ベータ関数で書かれることもあります。どちらも同じ意味です。今回はベータ関数で書きました。ガンマ関数とベータ関数は親戚みたいな関数で、どちらを使っても同じ分布の形になります。

図式化すると、

F分布は、カイ二乗分布を使って作られた分布です。そのため、形もカイ二乗分布と似ていて、左に山が寄って右に裾が長いのが特徴です。
ただし、分散の比を扱う分布なので、右に裾が長いです。

F分布の期待値(平均値)の式はこちらです。

 E[F] = \frac{n}{n-2}, \quad (n > 2)

 E[F]  は期待値です。

F分布の期待値は、自由度 nが大きくなるにつれて 1 に近づきます。
ただし、平均の位置とグラフの山のピーク(最もよく出る値)は必ずしも一致しません。
これは、F分布が右に長い裾を持っていて、平均が右に引っ張られるからです。


コメントを残す