日々の事柄に関する雑記帳。


用語

ANOVAANalysis Of VAriance
分散分析
Bayes Discriminant Ruleベイズ判別式、ベイズ判別規則
categorical variableカテゴリ変数、質的変数、属性変数
DADiscriminant function Analysis
判別関数分析?
dependent variable従属変数、従変数
discriminant analysis判別分析
discriminant function判別関数
latent variable潜在的変数
independent variable独立変数
LDALnear Discriminant Analysis
線形判別分析
linear classifier線形分類器
linear combination一次結合、線形結合
logistic regressionロジスティック回帰
NDANormal Discriminant Analysis
正規判別分析?
predictor予測因子
Probit regressionプロビット回帰
regression analysis回帰分析
subpopulation部分母集団
偏差確率変数x、確率変数の平均X
x - X
平方和
偏差平方和
変動
偏差の2乗(平方)の和。
Σ(x - X)^2
標本分散自由度=標本サイズn、で平方和を割ったもの。
1/n * Σ(x - X)^2
普遍分散自由度=標本サイズn-1、で平方和を割ったもの。
υ=1 / (n - 1) * Σ(x - X)^2

ANOVA

2群の平均値検定t検定
3群以上の平均値検定ANOVA
  • 3群以上を比較するとき、2群間の検定(T検定)を使ってはいけない理由
いま、A,B, Cという3つの群があったとします。そこで、2群間の検定を A-B間、B-C間、C-AC間で有意水準5%で行ったとします。
ここで、「この組み合わせの少なくとも1つは有意差がある」 となる確率を計算すると(実際にその間に有意差があるなしに拘らず)、  1-(1-0.05)*(1-0.05)*(1-0.05) = 0.14 となります。つまり、 有意水準 5% (=0.05)で検定したつもりが、 この方法では実質的に 14 %で検定している、つまり 検定力が低下してしまう、というのが理由です。
Rで統計学を学ぶ(6)
要因
独立変数
説明変数
データの値に変化を与える要素。
研究者が操作する変数。
因子要因のうち、母平均に差をもたらすと考えられる、研究対象となる、注目する要因。
水準要因に含まれる項目。
因子を細分化したグループ。
従属変数測定される変数。「原因、結果」という文脈では結果。
剰余変数従属変数に影響を与えるかもしれないのに,研究者が操作していない変数。
n元配置データに含まれる因子の数

要因が2つ以上存在する場合、主効果に加え、交互作用も検定する。
主効果
main effect
独立変数が、独自に従属変数へ与える効果。
交互作用効果
interaction
独立変数を組み合わせた場合の複合効果。
one way ANOVA一次元配置分散分析因子に含まれる水準間の平均値の差を調べる。
two way ANOVA二次元配置分散分析
他次元配置分析
因子間の、各因子における水準間の平均値の差を調べる。

多群比較のためのANOVA; analysis of variance 分散分析法

一次元配置

  • 群(水準)間で平均値に違いがあるかを調べる。
H0群間の母平均は等しい。
A群の母平均=B群の母平均
H1not H0
両群の母平均は異なる。
データ
標本因子
factor

水準
level

水準
level
... j
1
2
... i
平均群内平均
水準内平均
level mean
群内平均
水準内平均
level mean
...全平均
grand mean
データの偏差データ−全平均
群間の偏差群内平均−全平均
群内の偏差データ−群内平均

Xij=全平均+群間の偏差+群内の偏差
Xij=全平均+群間の偏差+群内の偏差
数理モデル測定値全平均要因の効果誤差

Xij−全平均=(群内平均−全平均)+(Xij−群内平均)
Xij−全平均=(群内平均−全平均)+(Xij−群内平均)
データの偏差群間の偏差群内の偏差
群間平方和
群間の変動
Σ群間の偏差
Σ(群内平均−全平均)
群間平方平均
群間不偏分散
Σ群間の偏差^2/自由度
Σ(群内平均−全平均)^2/自由度
群内平方和
群内の変動
Σ群内の偏差
Σ(データ−全平均)
群内平方平均
群内不偏分散
Σ群内の偏差^2/自由度
Σ(データ−全平均^2)/自由度

一元配置分散分析
Rで統計学を学ぶ(6)
分散分析表
要因自由度平方和
変動
Sum Sq
平均平方
普遍分散
Mean Sq
分散比
F値
P値
群間
因子
水準数 - 1群間平方和群間平方平均群間平方平均/群内平方平均p(F)
群内
群間誤差
残差
residual
全体の自由度−群間の自由度群内平方和群内平方平均
全体全データ数−1

アメリカフランス日本
xyz
要因
水準各国
分析すること平均身長の違いは国に関係あるか
数理モデル
Xij=全平均+群間の偏差+群内の偏差
Xij=全平均+群間の偏差+群内の偏差
数理モデル測定値全平均要因の効果誤差
母集団Xij= μ+ τj+ εij
測定値全平均要因の効果誤差
標本σTotal^2= G+ σA^2+ σError^2
全分散要因の分散誤差の分散
H0all τj = 0
H1not H0

二次元配置

  • 要因毎の群(水準)間で、平均値に違いがあるかを調べる。
  • 全水準間の組み合わせで、平均値に違いがあるかを調べる。

3つの検定を行う。
主効果
main effect
要因Aの効果を検定する。H0効果はない。
母平均に差はない。
H1not H0
効果がある。
母平均は異なる。
要因Bの効果を検定する。H0効果はない。
母平均に差はない。
H1not H0
効果がある。
母平均は異なる。
交互作用効果
interaction
要因A、Bの交互作用を検定する。H0交互作用はない。
母平均に差はない。
H1not H0
効果がある。
母平均は異なる。
データ
因子B
水準b1水準b2水準b3
因子A水準a1
水準a2
因子A水準a1水準a2
因子B水準b1水準b2水準b3水準b4水準b5水準b6

フォーマット
因子A因子Bデータ
level a1level b1x
level a1level b2x
level a1level b3x
level a2level b1x
level a2level b2x
level a2level b3x
level a3level b1x
level a3level b2x
level a3level b3x
分散分析表
繰り返しあり
要因自由度平方和
変動
Sum Sq
平均平方
普遍分散
Mean Sq
分散比
F値
P値
群間
因子A
dfA = 因子Aの水準数 - 1SSA = 因子Aの群間平方和因子Aの群間平方平均
MSA = SSA / dfA
MSA / MSWpf(F)
群間
因子B
dfB = 因子Bの水準数 - 1SSB = 因子Bの群間平方和因子Bの群間平方平均
MSB = SSB / dfB
MSB / MSWpf(F)
群間
因子A, B
(dfA - 1)(dfB - 1)SSAB = 群間平方和群間平方平均
MSAB = SSAB / (dfA - 1)(dfB - 1)
MSAB / MSWpf(F)
群内
群間誤差
残差
residual
全データ数 - dfA dfBSSW = 群内平方和群内平方平均
MSW = SSW - (全データ数 - dfA dfB)

繰り返しなし
要因自由度平方和
変動
Sum Sq
平均平方
普遍分散
Mean Sq
分散比
F値
P値
群間
因子A
dfA = 因子Aの水準数 - 1SSA = 因子Aの群間平方和因子Aの群間平方平均
MSA = SSA / dfA
MSA / MSABpf(F)
群間
因子B
dfB = 因子Bの水準数 - 1SSB = 因子Bの群間平方和因子Bの群間平方平均
MSB = SSB / dfB
MSB / MSABpf(F)
群間
因子A, B
(dfA - 1)(dfB - 1)SSAB = 群間平方和群間平方平均
MSAB = SSAB / (dfA - 1)(dfB - 1)

アメリカフランス日本
父親の身長高いx1y1z1
低いx2y2z2
要因
父親の身長
水準各国
身長の高低
分析すること平均身長の違いは国に関係あるか
平均身長の違いは父親の身長に関係あるか
2つの要因による相乗効果はあるか
数理モデル
Xijk測定値
μ全体平均
ai要因Aの効果
bj要因Bの効果
(Ab)ij交互作用の効果
εijk誤差

Xij = μ + ai + bj + (ab)jk + εijk
効果AについてH0all a1 = 0
H1not H0
効果BについてH0all bj = 0
H1not H0
交互作用についてH0all (ab)ij = 0
H1not H0

R

oneway.testformulaを指定。
対応なし一元分散配置のみ対応。
aovformulaを指定。
anovaobjectを指定。
Anovaobjectを指定。
typeを指定可能。
lm線形モデル
coef相関係数
coefficientsはエイリアス
interaction.plot交互作用図

formula

モデルとして、回帰式を表現する。
回帰式モデル
y = b0 + b1 * 1 + b2 * 2 + b3 * 3fm1 = y ~ x1 + x2 + x3
構文lhs ~ rhs
lhs標本値、要因、目的変数
rhsグループ、従属変数、説明変数

y ~ xモデル式 y = a + bx + ε( ε は誤差項)
y ~ x1 + x2モデル式 y = a + b1x1 + b2x2 + ε( ε は誤差項)
y ~ x1 * x2
y ~ x1 + x2 + x1*x2
y ~ (x1 + x2)^2
交互作用項を含んだモデル式( x1:x2 でもよい)
y = a + b1x1 + b2x2 + b3x1x2 + ε( ε は誤差項)
y ~ . , data = データ名あるデータに目的変数 y と説明変数 x1, ...が含まれ、モデル式がy = a + b1x1 + ・・・ + ε( ε は誤差項)である場合
目的変数 y をベクトルで指定し,右辺は「 y 以外」という意味で . (ピリオド)を指定することも出来る。

各変数に値を代入し、モデルをmode.frameへ投入することでデータフレームになる。
y <- 1:3; x1 <- 4:6; x2 <- 7:9; x3 <- 10:12
(d1 <- model.frame(fm1))  # デフォルトでは大局的環境から
#=>   y x1 x2 x3          # 変数を取得し,データフレームを返す
#=> 1 1  4  7 10
#=> 2 2  5  8 11
#=> 3 3  6  9 12
d2 <- d1 * 2
model.frame(fm2, data=d2)  # data=...で変数を取得する
#=>   y x1 x2 x3           # データフレームを指定
#=> 1 2  8 14 20
#=> 2 4 10 16 22
#=> 3 6 12 18 24

formulaとは?(1)
予測モデルを作るには formula を活用せよ
71. 回帰分析と重回帰分析
Rで統計学を学ぶ(6)
Rで統計学を学ぶ(7)
The formula language
タグ

管理人/副管理人のみ編集できます