裏紙ノート - PYR103 week 4, 5

用語

AMPE
Average Marginal Probability Effect
平均限界効果
平均確率限界効果
autocorrelation自己相関
coefficient of determination決定係数
disturbance偶然誤差
EMPE
Expected Marginal Probability Effect
期待限界効果
fitted value説明変数の、回帰式から求めた値。
説明変数の、回帰直線上の値。
least square principle最小二乗の原理
multiple correlation coefficient重相関係数
OLS
Ordinary Least Squares
最小二乗法
VIF
Variance Inflation Factor
分散拡大要因
分散拡大係数
homo-同質の
hetero-異質の

回帰

回帰:変数間の関係を関数で表すこと。
そして計算しやすさは最小二乗法のままで,2つめの仮定をもっと柔軟にできるようにしたのが「線形回帰」です。そこで,次回の後編ではこの「線形回帰」を紹介します。
  • 多変量解析
    • 予測
    • 因果関係
    • 仮説検定
    • 外れ値の特定
単回帰2変数(目的変数、説明変数)で表現する。
重回帰3変数以上で表現する。
線形回帰直線で表現する。
被線形回帰曲線で表現する。
最小二乗法回帰方程式を導出する。
回帰係数回帰方程式の残差を最小にする係数。
回帰方程式の残差を最小にする。→回帰方程式の各係数の偏微分=0

最小二乗法による推定における暗黙の仮定
仮定
変数間の関係を関数で表す。
関数のモデルは直線(1次式)を考える。変数の値は有限である。
モデルを線形結合(一次結合)で表す。
線形結合(一次結合):ベクトルの定数倍、組合わせ。
パラメータを選ぶ基準として二乗誤差を用いる。変数の値を誤差を伴う。
誤差の分散を最小化する。→最小二乗法
仮定の妥当性は、与えられたデータだけでは判断できない。
  • 回帰式
    • 説明変数の重要性(影響力)=回帰係数の大小
    • 観測値の平均=予測値の平均
    • 観測値の分散=予測値の分散+残差の分散
    • 回帰直線は(説明変数の平均, 目的変数の平均)を通る。→(説明変数の平均, 目的変数の平均)が回帰直線の重心。
    • 残差の平均は0。
  • 決定係数
回帰モデルの当てはまりの良さを判定する。
R重相関係数
R^2決定係数0 <= R^2 <= 1
決定係数はR^2。Rではない。


R^2=説明変数の分散/目的変数の分散=説明変数の分散/(説明変数の分散+残差の分散)

目的変数=予測値
説明変数=観測値
決定係数は予測値の分散と、観測値の分散の比率。→説明変数によって、目的変数をどれだけ説明できるのか、を表す。


決定係数と重相関係数

仮説検定

t検定切片と回帰係数の検定
f検定決定係数の検定

切片と回帰係数の検定
真の係数が0のとき、目的変数と説明変数は無関係である。
両側検定H0真の回帰係数=0
全ての係数=0
H1not H0
少なくとも一つの係数は0ではない。
片側検定H0真の回帰係数=0
H1回帰係数>真の回帰係数
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。

決定係数の検定(model utility test)
真の係数が0のとき、従属変数(目的変数)と独立変数(説明変数)は無関係である。
H0すべての回帰係数=0
すべての説明変数に説明力がない。
説明変数は目的変数に影響を与えていない。
H1not H0
少なくとも一つの回帰係数≠0
少なくとも一つの説明変数が説明力を持つ。
少なくとも一つの説明変数は目的変数に影響を与えている。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。

回帰分析モデルの前提

標本の独立性標本は互いに独立である。 残差プロットを用いる。
分散の均一性等分散性
残差の分散、目的変数の分散が一定である。
残差プロットを用いる。
誤差の正規性残差は正規分布する。
残差のQQプロットを用いる。
残差が直線状に並ぶかを確認する。
モデルの線形性目的変数と説明変数の関係は直線で近似できる。
目的変数と説明変数間の散布図を用いる。
多重共線性説明変数間の散布図を用いる。

VIF (Variance Inflation Factor)

多重共線性が生じているかの判断指標
VIF > 10で多重共線性の可能性を疑う。

VIF = 1 / (1 - R^2)
許容度=分散拡大係数の逆数(VIF^-1)
ちなみにVIF=5の場合は、 r2=0.8 つまりr≒±0.89で、 相関係数はだいたい0.9くらい。
VIF = 3の場合は、 r2≒0.67 つまり r≒±0.82で、 相関係数はだいたい0.8くらい。
閾値(しきいち)候補として、 3, 5, 10の相関係数のイメージをもっておけばいいのではないか。
統計ソフトRで多重共線性をチェックするVIFを計算するには?

クックの距離

テコ比測定値が、モデル(のパラメータ、ひいては予測値)に与えている影響の大きさを表す数値
クックの距離一般線形モデルにおいて各測定値がモデル推定に与える影響の大きさを表す数値。

テコ比
  • 他のデータと比べて異常な予測値を持つ観測値を識別する。
  • 観測値xから、全禅観測値の平均までの距離。
  • テコ比の大きな観測値は、有意な係数が有意に見せない原因になることがある。

h_{ii}=\frac{1}{n} + \frac{(x_{i}-\overline{x})^2}{\sum _i^n{(x_{i}-{ \overline{x})^2}

クックの距離
  • 他のデータと比べて異常な予測値を持つ観測値や、モデルがあまり適合できない観測値を識別する。
  • i番目の観測値を使用して計算された係数と、観測値を使用しないで計算された係数との間の距離に対する測度。
  • F分布の中央値であるF(0.5, p, n - p)よりもD値が大きい場合の観測値を調べる。
  • クックの距離が大きな測定値=外れ後の可能性が大きな測定値
hテコ比
k回帰モデルの工数(定数項を含む) × 平均二乗誤差(誤差の平均平方)
r標準化された残差

D_i=\frac {e_{i}^2}{ps^2} \frac{ h_{i}}{(1 - h_{i})^2}

異常な観測値
p定数項を含む、モデルの工数。
n観測値の数。
hテコ比
Dクックの距離
h > 3p/n
h > 0.99
D > 0.5影響力有
D > 1特異に大きい

横軸は梃子値で、縦軸は標準化した残差。点線でクックの距離0.5を示している。

回帰分析と分散分析に外れ値を特定する方法
適合回帰モデルの診断測度の方法と計算式
Rで線形単回帰分析

ベイズ線形回帰

ベイズ統計
線形回帰二乗誤差を最小にする係数を求める。
ベイジアン尤度を最大にする係数を求める。
最高確率の係数を求める。
ベイジアンは線形回帰を、確率の問題に読みかえている。

ベイズ推定

手順
Y目的変数
X説明変数
Y = a + bX + N(0, σ)回帰直線
Ynew予測値
予測値の平均a + bXnew
予測値の分散σ

p(a, b, \sigma | Y, X)\\
Y=a+bX+N(0, \sigma)\\
p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\

p(Y_{new} | a, b, \sigma) = Y_{new}\sim N(a + bX_{new}, \sigma)
  • 既知の目的変数、説明変数から、回帰直線パラメータの確率分布を求める。
p(Y, X)を定数とすると、p(a, b, σ | Y, X)はp(a, b, σ)に比例する。
p(Y, X | a, b, σ)は尤度関数。
確率の総乗(掛け算)を総和(足し算)に変換するため、両辺を対数化することがある。→対数尤度関数

p(a, b, \sigma | Y, X) = \frac{p(Y, X | a, b, \sigma) p(a, b, \sigma)}{p(Y, X)}\\
p(a, b, \sigma | Y, X) \propt p(Y, X | a, b, \sigma) p(a, b, \sigma)\\
\mu_n = a + bX_n\\
Yn \propt N(\mu_n, \sigma)\\
p(Y, X | a, b, \sigma) = \Pi_{n=1}^N N(\mu_n, \sigma)\\
p(a, b, \sigma | Y, X) \propt \Pi_{n=1}^N N(\mu_n, \sigma) \times p(a, b, \sigma)
  • 予測値を、正規分布に従う確率分布として求める。
求めたパラメータに基づいて、予測値を求める。
σノイズの精度
真の値からずれても良い範囲を表す。
μnew回帰直線の予測値

\mu_{new} = a + bX_{new}\\
Y_{new} \sim N(\mu_{new}, \sigma)
ベイズ推定で単回帰分析~概略から実践まで~

ダミー回帰

ダミー変数

ダミー変数
量的な意味のない、見せかけの変数。
数字ではないデータを、数字に変換する手法。
数字は0か1のみ。

二者択一の場合
0はい含まれる合格成功
1いいえ含まれない不合格失敗
男ダミー(1, 0)、女ダミー(1, 0)とはしない。
両ダミー間に多重共線性が生じる。


複数から選択する場合
月曜日ダミー火曜日ダミー水曜日ダミー木曜日ダミー金曜日ダミー土曜日ダミー日曜日ダミー
0月曜日火曜日水曜日木曜日金曜日土曜日日曜日
1月曜日以外火曜日以外水曜日以外木曜日以外金曜日以外土曜日以外日曜日以外

ダミーは全て用いない。
必要なダミー数=カテゴリー数−1
dummy Adummy Bdummy C
0not Anot Bnot C
1ABC
dummy A = 0、dummy B = 0のときCと解釈すれば、dummy Cは不要。
目的変数がダミー変数の場合
線形確率モデル線形回帰モデルLPM
Linear Probability Model
説明変数の線形関数によって、目的変数の期待値が決まると仮定。
非線形確率モデルロジット・モデルロジスティック分布を用いたモデル。
プロビット・モデル標準正規分布を用いたモデル。

ダミー変数を用いる回帰

回帰式y = α + βx + ε
ダミー変数D
ダミー変数値の違いグループの違い
ダミー変数=0のグループ基準グループ
reference group

グループによる、回帰式の切片の差
回帰式y = α + γD + βx + ε
D = 0y = α + βx + ε
D = 1y = α + γD + βx + ε

グループによる、回帰式の傾きの差
回帰式y = α + γDx + βx + ε
D = 0y = α + βx + ε
D = 1y = α + (γD + β)x + ε

グループ間による、切片、傾きが異なる回帰式
回帰式y = α + γD + βx + δDx + ε
y = (α + γD) + (β + δD)x + ε
D = 0y = α + βx + ε
D = 1y = (α + γ) + (β + δ)x + ε
交互作用項δDx
交互作用項は、xの効果がDによって変化することを示している。→交互作用効果
交互作用項はx、Dによる変数であり、お互いの相関が高くなる。→多重共線性の可能性
交互作用項を含む重回帰分析を行う場合、事前に交互作用項の中心化を実施する必要がある。

中心化:変数の平均値を0にする変換
中心化により、主効果項と交互作用項の相関による多重共線性を回避することができる。
中心化は多重共線性を回避する手段ではないことに注意。

ロジスティック回帰

ロジスティック回帰
  • プロビット回帰の簡易版
  • 二項変数のロジットを予測するモデル
ロジスティック関数=シグモイド関数
仮定:シグモイド関数の出力を確率と見なす。
プロビットprobit
Probability Unit
ロジットlogit
Logistic Unit
Log of Odds

シグモイド関数

\sigma(t)=\frac{1}{1 + \exp(-t)}
一般線形モデルordinary linear model目的変数と説明変数の間に線形関係があることを仮定する。
目的変数が量的データである。
目的変数は正規分布する。
一般化線形モデルGLM
Generalized Linear Model
目的変数を適切な関数に置換し、説明変数との関係を推計する。
目的変数が質的データであっても分析できるよう、一般線形モデルを拡張した。
目的変数の分布を予測する。

一般化線形モデル
目的変数が2値二項ロジスティック分析
目的変数が2値以上他項ロジスティック分析
目的変数が順序変数順序ロジスティック分析

オッズ
ある事象の発生確率p0 < p < 1
範囲が限られているため、回帰分析できない。
ある事象が発生しない確率1 - p
オッズ発生しない確率に対する、発生確率の比率。0 < ODDs < ∞
負の数がないため回帰分析できない。
ロジットオッズの対数。
ロジスティック関数の逆数。
-∞ < Logit < ∞
どんな数でも取れるため、回帰分析できる。
オッズ比2つのオッズの比率。
2つのロジットの差。
exp(係数)
変数の値の変化量に対する、オッズの変化量。→変数の値が1増えると、オッズは何倍になるか?
ロジスティック曲線では、オッズ比は一定である。

ODDs = \frac{p}{1-p}\\
Logit = \log(\frac{p}{1-p})=\log(p) - \log(1 - p)
ロジット
オッズ0から∞の値を取る。確率は0から1の値を取る。
オッズ=∞発生する。発生確率=1Logit = ∞
オッズ>1発生確率が大きい。オッズが大きいほど、発生確率は1に近づく。Logit > 0
オッズ=1発生する、しない確率が等しい。発生確率=0.5Logit = 0
オッズ<1発生しない確率が大きい。オッズが小さいほど、発生確率は0に近づく。Logit < 0
オッズ=0発生しない。発生確率=0Logit = -∞

平均限界効果(平均限界確率効果)
限界効果ロジスティック曲線の接線の傾き。
平均限界効果限界効果の平均。
ロジスティック曲線上の接線は、点によって傾きが異なる。→平均して単一指標にする。

期待限界効果
変数の期待値で評価する。

統計分析を理解しよう-ロジスティック回帰分析の概要-
ロボティクスにおける対数オッズについて
ロジット・プロビットの限界効果とRでの計算



R

GVLMA (Global Validation of Linear Models Assumptions)

Python

sklearn.linear_model.LogisticRegression
1.1.11. Logistic regression

パラメータ
fit_interceptFalseの場合、切片を求めない。
目的変数が原点を通る性質のデータの場合に利用する。
max_iter最適解探索の際の最大探索回数。
multi_class二項分類か他項分類かの選択。
random_stateデータのシャッフルに使用される疑似乱数生成のシード値。
solverにsag、liblinearが選択されたときに参照される。
solver最適解の探索方法。
multi_classautoデータが2値の場合、ovr。
solverにliblinearが選択された場合、multinominal
multinomial他項分類
ovr二項分類

アトリビュート
coef_回帰式の係数
intercept_回帰式の切片

メソッド
fit()学習
predict()予測
predict_log_proba()確率評価の対数
predict_proba()確率評価
score()決定係数R^2
平均精度

Scikit-learnによるロジスティック回帰

参照