日々の事柄に関する雑記帳。


用語

central limit theorem中心極限定理
confidence level信頼水準
confidential interval信頼区間
critical region棄却域
representative data代表値

確率密度関数と累積分布関数

PDFProbability Density Function確率密度関数F(x) = P(X = x)
確率変数Xが、xになる確率。
CDFCumulative Distribution Function累積分布関数F(x) = P(X ≤ x)
確率変数Xが、x以下になる確率。

区間推定

一標本母平均の推定偏差が分かる正規分布Z検定
偏差の分からない正規分布t検定
母分散の推定偏差が分かる正規分布自由度nのカイ二乗検定
偏差の分からない正規分布自由度n-1のカイ二乗検定
比率の推定標本サイズの大きい二項母集団正規近似のZ検定
二標本母平均の違いの推定偏差が分かる正規分布Z検定
比率の違いの推定標本サイズの大きい二項母集団正規近似のZ検定
分散の割合の推定独立した分散の正規分布F検定

推定

点推定point estimation標本平均を母平均とみなす。
区間推定interval estimation信頼水準(何%の確率で、標本平均±標準誤差の区間に母平均が存在する。

区間推定の手順
  1. 棄却域を定める。
  2. 信頼区間を定める。
  3. 標本の代表値を得る。
  4. 自由度を定める。
  5. 次の値を得る。Z、T、F、カイ二乗
  6. 信頼区間での上限値、下限値を得る。
  7. 信頼水準(何%の確率で)、推定値は上限値、下限値の間に存在する。

標本平均の分布

中心極限定理central limit theorem標本平均の分布は正規分布する。
母集団平均μ
標準偏差σ
分散σ^2
標本確率変数x
標本平均E(x)
標本のサイズn、∞とする
標本平均E(x)の分布標本平均=母平均
標本偏差
標準誤差
s
母平均と標本平均のずれ具合
標本分散s^2
標本分散=母分散

nが無限大に近づくほど、標本は母集団に近づく。→標本平均の分布は母集団の分布(正規分布)に近づくことになる。
s = σ / sqrt(n)
Z = {E(x) - μ} / s

μをZの分布で表す。
E(x) - Z * s < μ < E(x) + Z * s

T分布

母平均の推定に用いる。
母集団の標準偏差σが不明である場合、σを標本の標準偏差sで代用する(置き換える)。
母集団平均μ
標準偏差
分散σ^2
標本確率変数x
標本平均E(x)
標本のサイズn
標本偏差s
標本分散s^2
代用前Z分布s = σ / sqrt(n)
Z = {E(x) - μ} / s
代用後T分布s' = s / sqrt(n)
T = {E(x) - μ} / s'

μをTの分布で表す。
E(x) - T * s' < μ < E(x) + T * s'

自由度

カイ二乗分布

母分散の推定に用いる。
母集団平均μ
標準偏差σ
分散σ^2
標本確率変数x
標本平均E(x)
標本のサイズn
標本偏差s
標本分散s^2

Z = {E(x) - μ} / s
χ^2 = (n - 1) s^2 / σ^2

σ^2をχ^2の分布で表す。
(n - 1) s^2 / χ^2 < σ^2 < (n - 1) s^2 / χ^2

F分布

カイ二乗分布に従う自由度の変数U
自由度u
カイ二乗分布に従う自由度の変数V
自由度v
F = (U/u) / (V/v) = U/u v/V = Uv / vV
母集団1分散σ1^2
母集団2分散σ2^2
標本1標本のサイズn
標本分散s1^2
標本2標本のサイズn
標本分散s2^2

F = σ2^2 s1^2 / σ1^2 s2^2

σ1^2 / σ2^2をFの分布で表す。
(s1^2 / s2^2)(1/F) < σ1^2 / σ2^2 < (s1^2 / s2^2)(1/F)

R

PDF
確率密度関数
d***()x
q
指定した分布で、指定した確率変数の取る確率を返す。
CDF
累積分布関数
p***()x
q
指定した分布で、指定した確率変数以下となる確率を返す。
quantileq***()p指定した分布で、指定したパーセント点の取る確率変数を返す。
randomr***()n指定した分布で、指定したサイズのランダム標本を返す。

分布
正規分布*norm平均mean、標準偏差sdを指定する。
t分布*t自由度dfを指定する。
f分布*f自由度df1、df2を指定する。
カイ2乗分布*chisq自由度dfを指定する。

両側検定、95%の信頼区間を求める。
> p = c(0.025, 0.975)
> q = qnorm(p)
> q
[1] -1.959964  1.959964

Python

scipy.stats
from scipy import stats
stats.分布.メソッド
from scipy.stats import 分布
分布.メソッド

分布
正規分布norm
t分布t
f分布f
カイ2乗分布chi2

メソッド
PDF
確率密度関数
pdfx = 確率変数指定した分布で、指定した確率変数の取る確率を返す。
CDF
累積分布関数
cdfx = 確率変数指定した分布で、指定した確率変数以下となる確率を返す。
quantileppfq = パーセント点指定した分布で、指定したパーセント点の取る確率変数を返す。
randomrvssize = サイズ指定した分布で、指定したサイズのランダム標本を返す。

パラメータ
x確率変数
qパーセント点
loc期待値
scale標準偏差
df
dfn
dfd
自由度

両側検定、95%の信頼区間を求める。
from scipy.stats import norm

norm.ppf(0.025)
Out[23]: -1.9599639845400545

norm.ppf(0.975)
Out[24]: 1.959963984540054

norm.interval(0.95)
Out[25]: (-1.959963984540054, 1.959963984540054)

scipy.stats - scipyの統計関数群のAPI
タグ

管理人/副管理人のみ編集できます