AMPE Average Marginal Probability Effect | 平均限界効果 平均確率限界効果 |
autocorrelation | 自己相関 |
coefficient of determination | 決定係数 |
disturbance | 偶然誤差 |
EMPE Expected Marginal Probability Effect | 期待限界効果 |
fitted value | 説明変数の、回帰式から求めた値。 説明変数の、回帰直線上の値。 |
least square principle | 最小二乗の原理 |
multiple correlation coefficient | 重相関係数 |
OLS Ordinary Least Squares | 最小二乗法 |
VIF Variance Inflation Factor | 分散拡大要因 分散拡大係数 |
homo- | 同質の |
hetero- | 異質の |
単回帰 | 2変数(目的変数、説明変数)で表現する。 |
重回帰 | 3変数以上で表現する。 |
線形回帰 | 直線で表現する。 |
被線形回帰 | 曲線で表現する。 |
最小二乗法 | 回帰方程式を導出する。 |
回帰係数 | 回帰方程式の残差を最小にする係数。 |
仮定 | |
---|---|
変数間の関係を関数で表す。 | |
関数のモデルは直線(1次式)を考える。 | 変数の値は有限である。 モデルを線形結合(一次結合)で表す。 線形結合(一次結合):ベクトルの定数倍、組合わせ。 |
パラメータを選ぶ基準として二乗誤差を用いる。 | 変数の値を誤差を伴う。 誤差の分散を最小化する。→最小二乗法 |
R | 重相関係数 | |
R^2 | 決定係数 | 0 <= R^2 <= 1 |
t検定 | 切片と回帰係数の検定 |
f検定 | 決定係数の検定 |
両側検定 | H0 | 真の回帰係数=0 全ての係数=0 |
H1 | not H0 少なくとも一つの係数は0ではない。 | |
片側検定 | H0 | 真の回帰係数=0 |
H1 | 回帰係数>真の回帰係数 |
p > α | H0が採用され、H1が棄却される。 |
p <= α | H0が棄却され、H1が支持される。 |
H0 | すべての回帰係数=0 すべての説明変数に説明力がない。 説明変数は目的変数に影響を与えていない。 |
H1 | not H0 少なくとも一つの回帰係数≠0 少なくとも一つの説明変数が説明力を持つ。 少なくとも一つの説明変数は目的変数に影響を与えている。 |
p > α | H0が採用され、H1が棄却される。 |
p <= α | H0が棄却され、H1が支持される。 |
標本の独立性 | 標本は互いに独立である。 残差プロットを用いる。 |
分散の均一性 | 等分散性 残差の分散、目的変数の分散が一定である。 残差プロットを用いる。 |
誤差の正規性 | 残差は正規分布する。 残差のQQプロットを用いる。 残差が直線状に並ぶかを確認する。 |
モデルの線形性 | 目的変数と説明変数の関係は直線で近似できる。 目的変数と説明変数間の散布図を用いる。 |
多重共線性 | 説明変数間の散布図を用いる。 |
ちなみにVIF=5の場合は、 r2=0.8 つまりr≒±0.89で、 相関係数はだいたい0.9くらい。統計ソフトRで多重共線性をチェックするVIFを計算するには?
VIF = 3の場合は、 r2≒0.67 つまり r≒±0.82で、 相関係数はだいたい0.8くらい。
閾値(しきいち)候補として、 3, 5, 10の相関係数のイメージをもっておけばいいのではないか。
テコ比 | 測定値が、モデル(のパラメータ、ひいては予測値)に与えている影響の大きさを表す数値 |
クックの距離 | 一般線形モデルにおいて各測定値がモデル推定に与える影響の大きさを表す数値。 |
h_{ii}=\frac{1}{n} + \frac{(x_{i}-\overline{x})^2}{\sum _i^n{(x_{i}-{ \overline{x})^2}
h | テコ比 |
k | 回帰モデルの工数(定数項を含む) × 平均二乗誤差(誤差の平均平方) |
r | 標準化された残差 |
D_i=\frac {e_{i}^2}{ps^2} \frac{ h_{i}}{(1 - h_{i})^2}
p | 定数項を含む、モデルの工数。 |
n | 観測値の数。 |
h | テコ比 |
D | クックの距離 |
h > 3p/n h > 0.99 | |
D > 0.5 | 影響力有 |
D > 1 | 特異に大きい |
Y | 目的変数 |
X | 説明変数 |
Y = a + bX + N(0, σ) | 回帰直線 |
Ynew | 予測値 |
予測値の平均 | a + bXnew |
予測値の分散 | σ |
p(a, b, \sigma | Y, X)\\ Y=a+bX+N(0, \sigma)\\ p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\ p(Y_{new} | a, b, \sigma) = Y_{new}\sim N(a + bX_{new}, \sigma)
p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\ p(a, b, \sigma | Y, X) \propt p(Y, X | a, b, \sigma) p(a, b, \sigma)\\ \mu_n = a + bX_n\\ Yn \propt N(\mu_n, \sigma)\\ p(Y, X | a, b, \sigma) = \Pi_{n=1}^N N(\mu_n, \sigma)\\ p(a, b, \sigma | Y, X) \propt \Pi_{n=1}^N N(\mu_n, \sigma) \times p(a, b, \sigma)
σ | ノイズの精度 真の値からずれても良い範囲を表す。 |
μnew | 回帰直線の予測値 |
\mu_{new} = a + bX_{new}\\ Y_{new} \sim N(\mu_{new}, \sigma)ベイズ推定で単回帰分析~概略から実践まで~
0 | はい | 男 | 含まれる | 合格 | 成功 |
1 | いいえ | 女 | 含まれない | 不合格 | 失敗 |
月曜日ダミー | 火曜日ダミー | 水曜日ダミー | 木曜日ダミー | 金曜日ダミー | 土曜日ダミー | 日曜日ダミー | |
---|---|---|---|---|---|---|---|
0 | 月曜日 | 火曜日 | 水曜日 | 木曜日 | 金曜日 | 土曜日 | 日曜日 |
1 | 月曜日以外 | 火曜日以外 | 水曜日以外 | 木曜日以外 | 金曜日以外 | 土曜日以外 | 日曜日以外 |
dummy A | dummy B | dummy C | |
---|---|---|---|
0 | not A | not B | not C |
1 | A | B | C |
線形確率モデル | 線形回帰モデル | LPM Linear Probability Model 説明変数の線形関数によって、目的変数の期待値が決まると仮定。 |
非線形確率モデル | ロジット・モデル | ロジスティック分布を用いたモデル。 |
プロビット・モデル | 標準正規分布を用いたモデル。 |
回帰式 | y = α + βx + ε |
ダミー変数 | D |
ダミー変数値の違い | グループの違い |
ダミー変数=0のグループ | 基準グループ reference group |
回帰式 | y = α + γD + βx + ε |
D = 0 | y = α + βx + ε |
D = 1 | y = α + γD + βx + ε |
回帰式 | y = α + γDx + βx + ε |
D = 0 | y = α + βx + ε |
D = 1 | y = α + (γD + β)x + ε |
回帰式 | y = α + γD + βx + δDx + ε y = (α + γD) + (β + δD)x + ε |
D = 0 | y = α + βx + ε |
D = 1 | y = (α + γ) + (β + δ)x + ε |
交互作用項 | δDx |
プロビット | probit Probability Unit |
ロジット | logit Logistic Unit Log of Odds |
\sigma(t)=\frac{1}{1 + \exp(-t)}
一般線形モデル | ordinary linear model | 目的変数と説明変数の間に線形関係があることを仮定する。 目的変数が量的データである。 目的変数は正規分布する。 |
一般化線形モデル | GLM Generalized Linear Model | 目的変数を適切な関数に置換し、説明変数との関係を推計する。 目的変数が質的データであっても分析できるよう、一般線形モデルを拡張した。 目的変数の分布を予測する。 |
目的変数が2値 | 二項ロジスティック分析 |
目的変数が2値以上 | 他項ロジスティック分析 |
目的変数が順序変数 | 順序ロジスティック分析 |
ある事象の発生確率 | p | 0 < p < 1 範囲が限られているため、回帰分析できない。 |
ある事象が発生しない確率 | 1 - p | |
オッズ | 発生しない確率に対する、発生確率の比率。 | 0 < ODDs < ∞ 負の数がないため回帰分析できない。 |
ロジット | オッズの対数。 ロジスティック関数の逆数。 | -∞ < Logit < ∞ どんな数でも取れるため、回帰分析できる。 |
オッズ比 | 2つのオッズの比率。 2つのロジットの差。 exp(係数) | 変数の値の変化量に対する、オッズの変化量。→変数の値が1増えると、オッズは何倍になるか? ロジスティック曲線では、オッズ比は一定である。 |
ODDs = \frac{p}{1-p}\\ Logit = \log(\frac{p}{1-p})=\log(p) - \log(1 - p)
ロジット | |||
オッズ | 0から∞の値を取る。 | 確率は0から1の値を取る。 | |
オッズ=∞ | 発生する。 | 発生確率=1 | Logit = ∞ |
オッズ>1 | 発生確率が大きい。 | オッズが大きいほど、発生確率は1に近づく。 | Logit > 0 |
オッズ=1 | 発生する、しない確率が等しい。 | 発生確率=0.5 | Logit = 0 |
オッズ<1 | 発生しない確率が大きい。 | オッズが小さいほど、発生確率は0に近づく。 | Logit < 0 |
オッズ=0 | 発生しない。 | 発生確率=0 | Logit = -∞ |
限界効果 | ロジスティック曲線の接線の傾き。 |
平均限界効果 | 限界効果の平均。 |
fit_intercept | Falseの場合、切片を求めない。 目的変数が原点を通る性質のデータの場合に利用する。 |
max_iter | 最適解探索の際の最大探索回数。 |
multi_class | 二項分類か他項分類かの選択。 |
random_state | データのシャッフルに使用される疑似乱数生成のシード値。 solverにsag、liblinearが選択されたときに参照される。 |
solver | 最適解の探索方法。 |
multi_class | auto | データが2値の場合、ovr。 solverにliblinearが選択された場合、multinominal |
multinomial | 他項分類 | |
ovr | 二項分類 |
coef_ | 回帰式の係数 |
intercept_ | 回帰式の切片 |
fit() | 学習 |
predict() | 予測 |
predict_log_proba() | 確率評価の対数 |
predict_proba() | 確率評価 |
score() | 決定係数R^2 平均精度 |