日々の事柄に関する雑記帳。


用語

acceptance region採択域
critical region棄却域
goodness of fit test適合度検定
hypothesis仮説
pooled varianceプールした分散
power
power of test
検出力
rejection region棄却域
regression回帰
significance level有意水準
statistical test統計的検定
test statistic検定統計量

パラメトリックとノンパラメトリック

パラメトリックparametric解析対象データが、何らかの分布に由来する。
ノンパラメトリックnon-parametric解析対象データに、一切の分布を仮定しない。
母集団の分布を仮定しない。
パラメトリック検定パラメーター(μ、σなど)を利用する。
ノンパラメトリック検定データの順位、順序尺度を利用する。
パラメトリック検定が不適切な場合に利用する。
パラメトリック検定が不適切な場合
  • データ数が少ない。
  • データが従う分布を仮定できない。
パラメトリックとノンパラメトリック

帰無仮説と対立仮説

帰無仮説=無に帰す(棄却する)ための仮説
帰無仮説は、否定するためにある?

帰無仮説AはBに等しい、AとBに差はない...
対立仮説帰無仮説を否定する。
AとBは違う、AとBは差がある...
等しいこと、差がないことを証明するのは簡単。事象は一つ、一つでも反例を見つければ成り立たない。
違いがあることを証明するのは難しい。「違い」のパターンは無限に存在する。
帰無仮説が成り立つことが証明される。対立仮説が棄却される。
帰無仮説がn成り立たないことが証明される。対立仮説が支持される。

有意水準とP値

有意水準αp(reject|H0)
有意確率P帰無仮説が正しいという条件の下で、今回得られた「統計量の実現値」以上に極端な「統計量」が観測される確率
P値=p(H1|H0)ということ?


P値は3つの異なる確率の合計値
確率1対象となる事象のもの
確率2同確率の異なる事象のもの
確率3より少ない確率の事象のもの
無限回の試行を実施し、有意水準以上の確率で生じた事象確率通りに生じた事象と見なす。
無限回の試行を実施し、有意水準未満の確率で生じた事象偶然発生した、例外的事象とみなす。
めったに起こらない事象が発生した。
P値が優位水準未満であること(p < α)=めったに起こらない事象が発生した。→帰無仮説は正しくない。
P値が小さい→有意差を検出した。


p値(有意確率)と有意水準を具体例から解説!有意水準を設定するタイミングについて

信頼区間

次のプロセスを何度も繰り返す。繰り返しの95%は、真の値を含む信頼区間が得られる。
  1. データを観測する。
  2. データを分析する。
  3. 95%信頼区間を求める。
信頼度が高い区間が長い取りこぼしの確率が小さい標準誤差が大きい
信頼度が低い区間が短い取りこぼしの確率が大きい標準誤差が小さい
同じ信頼度で、より信頼区間が短い。→推定の不確実性が小さい。

プールした**

  • 母集団の等しい、複数の標本群が存在する。
  1. 各群ごとに母集団の**を推定する方法。
  2. 全群のデータを合わせて母集団の**を推定する方法。
後者の方が精度の良好な推定ができる。
プールする。各群ごとの**を求め、それらを合算する。
母分散が等しい、複数の標本群から、各群の**を求め、合計し、自由度で割った値。
**の平均値になる。

pooled standard deviationプールした標準偏差
pooled varianceプールした分散
標本1サイズm
偏差s1
標本2サイズn
偏差s2
σ = {(m - 1)s1 + (n - 1)s2} / (m + n - 2)
σ^2 = {(m - 1)s1^2 + (n - 1)s2^2} / (m + n - 2)

仮説検定

null hypothesis帰無仮説〜は**である。H0
alternative hypothesis対立仮説〜は**ではない。
not H0
H1
検定結果のP値有意水準以上帰無仮説が採用され、対立仮説が棄却される。
有意水準未満帰無仮説が棄却され、対立仮説が支持される。
第一種の過誤
生産者危険
error of the first kind
type 1 error
本当は帰無仮説がtrueなのに、帰無仮説をfalseとしてしまう。
誤って帰無仮説が棄却される。
第二種の過誤
消費者危険
error of the second kind
type 2 error
本当は帰無仮説がfalseなのに、帰無仮説をtrueとしてしまう。
誤って帰無仮説を採用してしまう。
H0がtrueH0がfalse
H1がtrue
H0を採択正しい第二種過誤
H0を棄却
H1を採択
第一種過誤正しい
第一種過誤が起こる確率α
有意水準
第二種過誤が起こる確率確率は不明
β
H0が正しくないときに、H0を棄却する確率1−β
検出力
H0を採択する場合信頼性が弱い結論正しい確率不明
誤りの確率不明
H0を棄却し、H1を採択する場合信頼性がある強い結論正しい確率1−α以上
誤りの確率α以下
優位水準を上げる。第一種過誤が起こりやすい。
優位水準を下げる。第一種過誤が起こりにくい。
第二種過誤が起こりやすい。

検定の非対称性
  • 検定は帰無仮説を否定し、対立仮説の正しさを立証できる。
  • 検定は帰無仮説の正しさを立証することはできない。

仮設検定の手順
  1. 仮説を定義する。
  2. 有意水準αを設定する。
  3. 検定を実施する。
  4. 自由度を設定する。
  5. P値を得る。
  6. 検定
p >= αH0が採用され、H1が棄却される。
p < αH0が棄却され、H1が支持される。

正規性の検定

正規分布を確認する方法。
視覚的に確認する。ヒストグラム
QQプロット
分布の左右差を検定する。
正規性の検定シャピロ・ウィルク検定

シャピロ・ウィルク検定

標本が正規分布しているかを検定する。
母集団が正規分布する前提で、母分散と標本分散の割合を検定している?


H0標本は正規分布している。
H1not H0
標本は正規分布していない。
p >= α正規分布である。
分布に左右差がない。
p < α正規分布ではない。
分布に左右差がある。
標本確率変数x
サイズn
平均X

W = Σ(aixi)^2 / Σ(xi - X)^2
シャピロ–ウィルク検定

平均値の検定

母平均と標本平均の差を検定する。
母平均と標本平均に差があるか、差がないかを検定する。


H0母平均はμである。
H1not H0
母平均はμではない。
|z| < zαH0が採用され、H1が棄却される。
|z| >= zαH0が棄却され、H1が支持される。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団平均μ
偏差σ
標本サイズn
平均x
偏差s

片側検定

標本平均 > 母平均の場合
z = (x - μ) / (σ / sqrt(n))
x = μ + z(σ / sqrt(n))
z < zαH0が採用され、H1が棄却される。
z >= zαH0が棄却され、H1が支持される。
標本平均 < 母平均の場合
z = (x - μ) / (σ / sqrt(n))
x = μ - z(σ / sqrt(n))
z > zαH0が採用され、H1が棄却される。
z <= zαH0が棄却され、H1が支持される。

両側検定

z = (x - μ) / (σ / sqrt(n))
x = μ ± z(σ / sqrt(n))
-zα < z < zαH0が採用され、H1が棄却される。
z < zα
z > zα
H0が棄却され、H1が支持される。

t検定

標本数が少なく(30未満)、母集団の分散が不明な場合、t分布に基づいて検定する。

検定の前提
  • 母集団は正規分布する。
H0母平均はμである。
H1not H0
母平均はμではない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団偏差σ
標本サイズn
平均x
偏差s
t = (x - μ) / (s / sqrt(n))
x = μ - t(s / sqrt(n))

母平均の差の検定

2つの母集団の母平均の差を検定する。
2つの母集団の母平均に差があるか、差がないかを検定する。


H02つの母平均に差がない。
2つの母平均の差はδである。
H1not H0
2つの母平均に差がある。
2つの母平均の差はδではない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団1偏差σ1
平均μ1
母集団2偏差σ2
平均μ2
母平均の差δ
標本1サイズn1
平均x1
標本2サイズn2
平均x2
z = (x1 - x2 - δ) / sqrt{(σ1^2 / n1) + (σ2^2 / n2)}
母集団1平均μ1
母集団2平均μ2
母平均の差δ
標本1サイズn1
平均x1
偏差s1
標本2サイズn2
平均x2
偏差s2
標本数が30よりも多いz = (x1 - x2 - δ) / sqrt{(s1^2 / n1) + (s2^2 / n2)}
標本数が30未満z = (x1 - x2 - δ) / sqrt{(s1^2 / n1) + (s2^2 / n2)}

スチューデントのt検定

2標本の平均の差を検定する。
2標本の平均に差があるか、差がないかを検定する。


スチューデントのt検定の前提
  • 母集団は正規分布する。
  • 2つの母集団の分散が等しい。
H02標本の母平均は等しい。
2標本の母平均に差はない
H1not H0
2標本の母平均は等しくない。
2標本の母平均に差がある。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団1平均μ1
母集団2平均μ2
標本1サイズn1
平均x1
標本2サイズn2
平均x2
プールした分散s^2
t = (x1 - x2) / [s * sqrt{(1 / n1) + (1 / n2)}]
s^2 = {(n1 - 1)s1^2 + (n2 - 1)s2^2} / (n1 + n2 -2)
R, Python
Rt.testvar.equal=True, paired=trueとして実行する。
Pythonscipy.stats.stats.ttest_indequal_val=Trueとして実行する。

ウェルチのt検定

2つの母平均の差を検定する。
母平均ともう一方の母平均に差があるか、差がないかを検定する。


ウェルチのt検定の前提
  • 母集団は正規分布する。
  • 2つの母集団の分散が不明。
H02つの母平均は等しい。
2つの母平均に差はない
H1not H0
2つの母平均は等しくない。
2つの母平均に差がある。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団1平均μ1
母集団2平均μ2
標本1サイズn1
平均x1
偏差s1
標本2サイズn2
平均x2
偏差s2
t = (x1 - x2) / sqrt[{(s1^2 / n1) + (s2^2 / n2)}]
df = {(s1^2 / n1)^2 + (s2^2 / n2)^2} / {{s1^4 / n1^2(n1 - 1)} + {s2^4 / n2^2(n2 - 1)}}→自由度
R, Python
Rt.testvar.equal=False, paired=Falseとして実行する。
Pythonscipy.stats.stats.ttest_indequal_val=Falseとして実行する。

対応のあるt検定

対応する2標本の平均の差を検定する。
対応する2標本の平均に差があるか、差がないかを検定する。


H02標本の平均は等しい。
2標本の平均に差はない
H1not H0
2標本の平均は等しくない。
2標本の平均に差がある。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
標本1サイズn
平均x1
標本2サイズn
平均x2
対応する2標本変数の差の平均d
対応する2標本変数の差の偏差s
t = d / {s / sqrt(n)}
R, Python
Rt.testpaired=trueとして実行する。
Pythonscipy.stats.stats.ttest_rel

分散の検定

F検定

2標本の分散の差を検定する。
2標本の分散に差があるか、差がないかを検定する。


H02標本の分散は等しい。
H1not H0
2標本の分散は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団1平均μ1
分散μ1
母集団2平均μ2
分散μ2
標本1サイズn1
平均x1
偏差s1
標本2サイズn2
平均x2
偏差s2

S1 > S2
F = S1^2 / S2^2
R, Python

バートレット検定

複数標本の母分散の差を検定する。
複数標本の母分散に差があるか、差がないかを検定する。
母分散の均一性を検定する。


母集団の分布が正規分布、あるいはそれに近い分布をしていること。

H0複数標本の分散は等しい。
H1not H0
複数標本の分散は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。

バートレット検定

母比率の検定

母比率と標本比率の差を検定する。
母比率と標本比率に差があるか、差がないかを検定する。


母比率母集団中で、注目する特質を持つ割合。
標本比率標本中で、注目する特質を持つ割合。
H0母比率と標本比率は等しい。
H1not H0
母比率と標本比率は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団母比率P
標本サイズn
性質Aの数r
標本比率r / n

nが大きい時、rの確率分布は二項分布である。
分布rの平均値nP
分布rの標準偏差sqrt(nP(1 - P))

r - z sqrt(nP(1 - P)) < nP < r + z sqrt(nP(1 - P))
r / n - z sqrt(P(1 - P) / n) < P < r / n + z sqrt(P(1 - P) / n)

母比率pが不明の場合、標本比率r / nを代用する。p = r / nとすると、
p - z sqrt(p(1 - p) / n) < P < p + z sqrt(p(1 - p) / n)

母比率の差の検定

母集団の等しい、複数の標本群について、標本比率の差を検定する。
標本比率に差があるか、差がないかを検定する。


H0標本比率は等しい。
H1not H0
標本比率は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団母比率P
標本群の数|i
標本iサイズni
性質の数xi
標本比率xi / ni
iの場合の母比率Pi

χ^2 = Σ{(xi - n1 Pi)^2 / (ni Pi (1 - Pi))

Pの推定値として、(x 1 + x2 + x3 + ... + xk) / (n1 + n2 + n3 + ... + nk)を代用すると、
χ^2 = Σ{(xi - n1 P)^2 / (ni P (1 - P))

標本群の例

母集団患者
性質喫煙
標本群の数i4
標本群1サイズn186
喫煙者数x180
標本群2サイズn293
喫煙者数x290
標本群3サイズn3136
喫煙者数x3129
標本群4サイズn482
喫煙者数x470
Pの推定値P(80 + 90 + 129 + 80) / (86 + 93 + 136 + 82)

カイ二乗検定 適合度検定

母集団の等しい、複数の標本群について、母集団の理論値(母比率)と、複数の標本の観測値(標本比率)の差を検定する。
母手段の理論値(母比率)と、標本の観測値(標本比率)に差があるか、差がないかを検定する。


H0母集団の理論値と、標本の観測値は等しい。
H1not H0
母集団の理論値と、標本の観測値は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
母集団カテゴリの数i
期待度数Ei
標本観測度数Oi

χ^2 = Σ{(Oi - Ei)^2 / Ei}

問題点

  • 標本サイズが大きくないと、検定の正当性が保たれない。
    • 標本サイズが大きくなると、標本平均は母平均へ近づく。観測値(標本比率)も母集団の理論値(母比率)へ近づく。
  • 標本サイズが大きくなると、平均値周辺が盛り上がり、すそ野が低く、広くなる。
    • 両側検定の棄却域が平均値周辺に近づいてくる。→採択域が狭まり、棄却域が広がる。
  • 標本サイズが大きくなると、帰無仮説が棄却されやすくなる。
    • わずかな違い、わずかな誤差が、帰無仮説の棄却に繋がる。

標本サイズが大きく、検出力が高いのに、帰無仮説が棄却されない場合
  • 帰無仮説は正しい。母集団の理論値は標本の観測値に適合している。
  • 観測値は理論値と矛盾しない。

R, Python

Rchisq.test適合度検定、独立性検定の両方に対応している。
第一引数がmatrixの場合、独立性検定になる。
Pythonscipy.stats.chisquare

66. カテゴリデータの検定

カイ二乗検定 独立性の検定

属性A、Bについて
AとBは独立P(AB) = P(A) P(B)
独立している関連がない
独立していない関連がある

複数の属性について、属性同士に関連があるかを検定する。
複数の属性について、属性同士が独立であるかを検定する。
H0属性同士に関連がない。
属性同士は独立である。
P(AB) = P(A) P(B)
H1not H0
属性同士に関連がある。
属性同士は独立ではない。
P(AB) ≠ P(A) P(B)
母集団属性Aの数i
属性Bの数j
期待度数Eii
標本観測度数Oij
B1B2...Bntotal
A1x11x12...x1na1
A2X21x22...X2na2
..................
Amxm1xm2...xmnam
totalb1b2...bnN

Eij = N p(Ai) p(Bj) ≒ N (a1 / N) (bj / N)
χ^2 = Σi Σj {(Oij - Eij)^2 / Eij}
df = (m - 1) (n - 1)

R, Python

Rchisq.test適合度検定、独立性検定の両方に対応している。
第一引数がmatrixの場合、独立性検定になる。
Pythonchi2_contingency

ウィルコクソンの順位和検定

独立した標本群について、各標本の中央値の差を検定する。
独立した標本群について、各標本の中央値に差があるか、差がないかを検定する。


H0各標本の中央値は等しい。
H1not H0
各標本の中央値は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。

N1 < N2とする。
小標本
標本群1
サイズN1
観測値X1
大標本
標本群2
サイズN2
観測値X2
標本群1x11, x12, x13, ..., x1N1
標本群2x21, x22, x23, ..., x2N2

標本群を1系列にまとめ、小さい順に順位付けする。
同順位に複数の標本が存在する場合は、平均を順位とする。
7位に3標本データ存在する場合、3標本データの順位は(7 + 8 + 9) / 3 = 8。
標本群x11, x21, x22, x12, x13, x23, ..., x1N1, x2N2
順位r11, r21, r22, r12, r13, r23, ..., r1N1, r2N2
標本群1の順位r11, r12, r13, ..., r1N1
標本群2の順位r21, r22, r23, ..., r2N1

T = Σr1

μ = N1 (N1 + N2 + 1) / 2

同順位が存在しない場合
σ^2 = N1 N2 (N1 + N2 + 1) / 12

同順位が存在する場合
小標本のサイズが検定量として採用される。
jは同順位となったデータのグループ数。Tjは該当グループのデータ数。
σ^2 = {N1 N2 (N1 + N2 + 1) / 12} - N1 N2 / {12 (N1 + N2) (N1 + N2 - 1)} ΣTj^3 - Tj

Z = (T - μ) / σ
μ - Z σ < T < μ + Z σ

R

順位和検定、符号順位和検定の両方に対応している。
パラメータの渡し方で動作が変わる。
2標本で、paired=Falseの場合、順位和検定が実行される。
wilcox.testでは、「タイがあるため、正確な p 値を計算することができません」と表示されることがある。その場合、wilcox.exactを利用する。
順位和検定、符号順位和検定の両方に対応している。
パラメータの渡し方で動作が変わる。
2標本で、paired=Falseの場合、順位和検定が実行される。

Rによるウィルコクソンの符号順位検定

Python

scipy.stats.ranksums
scipy.stats.mannwhiteneyuデフォルトでは両側検定のP値 x 1/2が返される。
alternative='two-sided'とすることで、通常のP値を得ることができる。

ウィルコクソンの符号順位和検定

対応のある標本群について、各標本の中央値の差を検定する。
対応のある標本群について、各標本の中央値に差があるか、差がないかを検定する。


H0各標本の中央値は等しい。
H1not H0
各標本の中央値は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
標本サイズN
標本群1X
標本群2Y
標本群1x1, x2, x3, ..., xN
標本群2y1, y2, y3, ..., yN
群間の差の絶対値x1-y1, x2-y2, x3-y3, ... ,xN-yN

絶対値を小さい順に順位付けする。
Xi = Yiは順位付けしない。→最終的な順位数が標本サイズ数(N)とは限らない。
群間の差の絶対値x1-y1, x2-y2, x3-y3, ... ,xN-yN
順位rr1, r2, r3, ... ,rN

Xi > Yiの場合、Xi < Yiの場合の順位和を比較し、小さい方を統計量Tとする。
WXi > Yiの順位和
wXi < Yiの順位和
T = min(W, w)

Z = abs(T - {N(N + 1) / 4}) / sqrt(N (N + 1) (2N + 1) / 24)

R

順位和検定、符号順位和検定の両方に対応している。
次の場合に、符号順位和検定が実行される。
  • 一標本の場合
  • 二標本で、paired=Trueの場合
wilcox.testでは、「タイがあるため、正確な p 値を計算することができません」と表示されることがある。その場合、wilcox.exactを利用する。
順位和検定、符号順位和検定の両方に対応している。
パラメータの渡し方で動作が変わる。
2標本で、paired=Trueの場合、順位和検定が実行される。

Rによるウィルコクソンの符号順位検定

Python

scipy.stats.wilcoxon群間の差が0の場合の取り扱いを、zero_methodに指定する。

zero_method
pratt群間の差が0の場合を含むが、順位付けからは除外する。
wilcox群間の差が0の場合を除外する。
zsplit群間の差が0の場合を含み、それらを正負の側へ分ける。

クラスカル・ウォリス検定

互いに独立した3群以上の標本について、各標本の中央値の差を検定する。
独立した標本群について、各標本の中央値に差があるか、差がないかを検定する。


H0各標本の中央値は等しい。
H1not H0
各標本の中央値は等しくない。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
標本全標本数N
標本群数k
標本数n
順位r
標本群1X
標本群2Y
標本群3Z
標本群の順位和R
標本群1x1, x2, x3, ..., xn1
標本群2y1, y2, y3, ..., yn2
標本群3z1, z2, z3, ..., zn3

標本群を1系列にまとめ、小さい順に順位付けする。
同順位に複数の標本が存在する場合は、平均を順位とする。
7位に3標本データ存在する場合、3標本データの順位は(7 + 8 + 9) / 3 = 8。
標本群x1, y1, z1, y2, x2, z2, x3, x4, y3, y4, ... , znz, yny, xnx
順位rx1, ry1, rz1, ry2, rx2, rz2, rx3, rx4, ry3, ry4, ... ,rznz, ryny, rxnx
標本群1の順位rx1, rx2, rx3, ..., rxnx
標本群2の順位ry1, ry2, ry3, ..., ryny
標本群3の順位rz1, rz2, rz3, ..., rznz

統計量 = 12 / N (N + 1) Σ(RK / nK) - 3 (N + 1)

R, Python

無相関検定

母相関係数ρが0かどうかを検定する。
標本では相関がある場合に、母集団でも同様に相関があるかどうかを確認できる。
H0無相関である。
ρ = 0
H1not H0
無相関ではない。
ρ≠0
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
標本サイズn
相関係数r

26-3. 相関係数

R, Python

Rcor.testmethodで検定方法を指定する。
Pythonscipy.stats.pearsonr

異常値の検定(外れ値の検定)

測定値の中に他の値からかけ離れたもの(外れ値outlierと呼ぶ)がある時、それを除外して取り扱う。外れ値を判定する際の明確な基準は難しいが、概ね標本標準偏差の2倍以上外れたものを外れ値とすることが多い。
データ量が多い時には、上位・下位の25%を省くといった手法がとられることがある。データ量があまり多くない時にはスミルノフSmirnov(-グラブスGrubbs)検定という手法もあるが、正規分布するという前提が満たされる保証はなく、積極的に採用する理由に乏しい。実際にはもっと実験を積み重ねるのが最善という場合が多い。
「統計と検定のはなし」を参照。
化学実験法 II のページ

検出基準

  • 標準偏差基準法
平均偏差が一定の標準偏差を上回るデータを、一律に「異常」とみなして除外する。たとえば、正規分布を仮定した場合に、4σを超えるデータは、統計的にはきわめてまれなことなので、すべて「特異値」として除去する。なお、この方法によって、たとえば2σを正常なデータの範囲とすると、5%のデータが除外されてしまい、残りのデータは正規分布の形状を形成しない点には注意が必要である。
  • マハラノビス平方距離D2
平均偏差の二乗と分散との比によって、中心から「異常に」に外れたデータを検出する。
D2 = (xi – x )2 / s2
このD2は、近似的に自由度p のχ2分布にしたがう。なお、マハラノビス平方距離D2は、p個の変数を一括して、異常値を検出するのに利用される。
H0他のデータとかけ離れた値は異常値ではない。
H1他のデータとかけ離れた値は異常値である。

グラブス・スミルノフ棄却検定

  • スミルノフ・グラブス(Smirnov and Grubbs)の方法
平均値からの偏差(平均偏差)がいちばん大きいデータを探し、その最大平均偏差と標準偏差 s との比を求める。
T = (max | xi – x |) / s
この T は特有の分布にしたがうことがわかっているので、5%、1%といった有意点において、Tが上回ったデータを、1本だけ、除去する。データ除去後には、再度同じ処理を行って、有意点を上回るデータがあれば、2番目、3番目を除去する。なお、5%有意の場合においては、n=30なら有意点は2.745、n=50なら2.956、n=100なら3.21だという。

検定統計量T = (異常値−標本平均/sqrt(標本分散)
R, Python
タグ

管理人/副管理人のみ編集できます