日々の事柄に関する雑記帳。


用語

cross validation交差検証
determination coefficient決定係数
directional test方向性検定
片側検定、あるいは両側検定。
global test包括検定
hetero-異なる〜
heterogeneity不均一
heteroscedasticity不均一分散
least Squares principle最小二乗法の原理
LOOCVLeave-One_out Cross Validation
一個抜き交差検証
multicollinearity多重共線性
multivariate analysis多変量解析
multiple correlation coefficient重相関係数
OLSOrdinary Least Squares regression
最小二乗回帰
regression coefficient回帰係数
regression diagnostic回帰診断
residual残差
残差=観測値―予測値
傾きslope
tilt
証明するgive proof
obtain proof
prove

回帰

単回帰分析一つの従属変数(目的変数)を、一つの独立変数(説明変数)で予測する。
重回帰分析一つの従属変数(目的変数)を、複数の独立変数(説明変数)で予測する。
どの説明変数が、目的変数にどの程度の影響を与えているかを知ることができる。
linear regression線形回帰
multiple regression重回帰
dummy regression
dummy variable regression
ダミー変数を用いる分析

y = a + bx1 + cx2 + dx3
yobjective variable目的変数予測したい変数
物事の結果と解釈できる。
dependent variable従属変数
xexplanatory variable説明変数目的変数を説明する変数
物事の原因と解釈できる。
independent variable独立変数
aintercept切片
b
c
d
regression coefficient回帰係数
偏回帰係数

最小二乗法の原理

誤差を伴う測定値の処理において、誤差の二乗の和を最小にすることで、最も確からしい関係式を求める。
データの組 (x, y) が多数与えられたとき、xとyの関係を表すもっともらしい関数y = f(x)を求める。

最小二乗法(直線)の簡単な説明
最小二乗法の意味と計算方法 - 回帰直線の求め方

決定係数

モデルの当てはまりの良さを表す指標。
目的変数(従属変数)の変動のうち、回帰によって説明された変動の割合。
目的変数Yが説明変数Xによってどれだけ説明できているか、ということ。

ESS説明変数の平方和予測値から観測値までの距離回帰モデルでは説明できない範囲
RSS残差の平方和平均値から予測値までの距離回帰モデルで説明できる範囲
TSS全体の平方和平均値から観測値までの距離説明変数の個体差
R^2決定係数
R重相関係数
TSS = ESS + RSS
R^2 = ESS / TSS = ESS / (ESS + RSS) = 1 - (RSS / TSS)
ESS / TSS回帰モデルでは説明できない範囲 / 回帰モデル全体
1 - RSS / TSS1 - (回帰モデルで説明できる範囲 / 回帰モデル全体

0≦R^2≦1
R^2が1に近いほど、回帰モデルは有効である。
回帰モデル全体の内、回帰モデルで説明できる範囲が多くを占めている。
R^2 = 1のとき、RSS = 0。RSS = 0とは、残差が0の状態であり、それは全ての観測値が直線状に並ぶことを意味する。


説明変数の個数が増加すると、決定係数も増加する。→説明変数の個数が増加するほど、決定係数は1に近づく。
説明変数の個数の増加を修正する必要がある。
k説明変数の個数
n観測値の個数
R^2決定係数
R^2`自由度修正済み決定係数
R^2` = 1 - (1 - R^2){(n - 1) / (n - k - 1)}
R^2` = 1 - {RSS / (n - (k + 1)} / {TSS / (n - 1)}

仮説検定

2つの検定
個々の係数に関する仮説検定
切片と回帰係数の検定
t検定を用いる。
複合仮説
決定係数の検定。
model utility test
f検定(分散分析)を用いる。
切片と回帰係数に関する検定
切片も回帰係数も確率変数である。
真の係数が0のとき、従属変数(目的変数)と独立変数(説明変数)は無関係である。
切片と回帰係数に関する検定を実施する。
両側検定H0真の回帰係数=0
真の回帰係数=回帰係数=0
H1not H0
片側検定H0真の回帰係数=0
真の回帰係数=回帰係数=0
H1回帰係数>真の回帰係数
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。
決定係数の検定(model utility test)
決定係数も確率変数である。
真の係数が0のとき、従属変数(目的変数)と独立変数(説明変数)は無関係である。
決定係数に関する検定を実施する。
H0すべての回帰係数=0
すべての説明変数に説明力がない。
説明変数は目的変数に影響を与えていない。
H1not H0
少なくとも一つの回帰係数≠0
少なくとも一つの説明変数が説明力を持つ。
少なくとも一つの説明変数は目的変数に影響を与えている。
p > αH0が採用され、H1が棄却される。
p <= αH0が棄却され、H1が支持される。

多重共線性

説明変数間で相関係数が高い時に発生する現象。
一次従属説明変数間の線形関係
共線性一次従属が認められること
多重共線性複数の共線性が認められること
完全な多重共線性が存在する場合、偏回帰係数を求めることができない。

複数の説明変数が比例関係にある→それらの変数が本質的に同じ情報を持ち、冗長である。

症状
  • 分析結果における係数の標準誤差が大きくなる。
  • t値が小さくなる。
  • 決定係数が大きくなる。
  • 回帰係数の正負が本来のものと逆転する。

多重共線性が起こりやすい状況
  • 説明変数間の相関係数が±1に近い組み合わせが含まれる。
  • 説明変数の個数がサンプル数に比べて大きい。
対応方針相関関係が高いと考えられる説明変数を外す。
対応方法関係する説明変数を一つずつ除外し、分析を繰り返す。
除外の基準主観
分析結果を比較し、t値の高い方を残す。

多重共線性とは? 〜 概要と対応方法 〜
多重共線性
EBPT用語集

回帰診断

回帰分析の仮定を検証する。
回帰分析の後に実施する、事後診断である。
たとえ回帰モデルの決定係数が1に近くとも、回帰分析の仮定が満たされないことがある。

次の仮定を検証する。
多重共線性説明変数間の散布図を用いる。
線形性目的変数と説明変数の関係は直線で近似できる。目的変数と説明変数間の散布図を用いる。
独立性標本は互いに独立である。残差プロットを用いる。
等分散性誤差項の分散、目的変数の分散はσ^2で一定である。残差プロットを用いる。
正規性誤差項はN(0, σ^2)の正規分布に従う。残差のQQプロットを用いる。
残差が直線状に並ぶかを確認する。

残差プロット:縦軸に残差、横軸に目的変数を用いる。

ダミー変数

量的な意味のない、見せかけの変数。
数字ではないデータを、数字に変換する手法。
数字は0か1のみ。

二者択一の場合
0はい含まれる合格成功
1いいえ含まれない不合格失敗
男ダミー(1, 0)、女ダミー(1, 0)とはしない。
両ダミー間に多重共線性が生じる。


複数から選択する場合
月曜日ダミー火曜日ダミー水曜日ダミー木曜日ダミー金曜日ダミー土曜日ダミー日曜日ダミー
0月曜日火曜日水曜日木曜日金曜日土曜日日曜日
1月曜日以外火曜日以外水曜日以外木曜日以外金曜日以外土曜日以外日曜日以外

ダミーは全て用いない。
必要なダミー数=カテゴリー数−1
dummy Adummy Bdummy C
0not Anot Bnot C
1ABC
dummy A = 0、dummy B = 0のときCと解釈すれば、dummy Cは不要。
目的変数がダミー変数の場合
線形確率モデル線形回帰モデルLPM
Linear Probability Model
説明変数の線形関数によって、目的変数の期待値が決まると仮定。
非線形確率モデルロジット・モデルロジスティック分布を用いたモデル。
プロビット・モデル標準正規分布を用いたモデル。

統計分析を理解しよう-ロジスティック回帰分析の概要-

R

lm線形モデルの近似
predict.lmモデル予測
scaleデータの正規化
standardizeデータの正規化
library(robustHD)
gvlmaGlobal Validation of Linear Models Assumptions
回帰診断
データの正規化
センタリングデータの平均を0にする。
スケーリングデータの分散を1にする。
R scale関数でデータフレームを正規化
GVLMA (Global Validation of Linear Models Assumptions)
Global Validation of Linear Model Assumptions
残差を用いた線形モデルの包括的検査 GVLMAの紹介
  • 線形モデルの残差に注目し、その分布を検証する。
  • 交差検証を実施する。→パッケージ中でdeletionと呼ばれるもので、leave-one-out(一個抜き交差検証)を実施する。
leave-one-out cross-validation (LOOCV,一個抜き交差検証) は、標本群から1つの事例だけを抜き出してテスト事例とし、残りを訓練事例とする。これを全事例が一回ずつテスト事例となるよう検証を繰り返す。これはK-分割交差検証の K を標本サイズにした場合と同じである。
交差検証
gvlmaGVLMAオブジェクトの生成
deletion.gvlma一個抜き交差検証を実行する。
外れ値を抽出する。
gvlmaDelオブジェクトを返す。
gvlmaDelオブジェクト=一個抜き交差検証実行後のgvlmaオブジェクト

summary.gvlmaの読み方
                     Value p-value                   Decision
Global Stat        9.08857 0.05892    Assumptions acceptable.
Skewness           2.31988 0.12773    Assumptions acceptable.
Kurtosis           0.05758 0.81036    Assumptions acceptable.
Link Function      2.81911 0.09315    Assumptions acceptable.
Heteroscedasticity 3.89200 0.04852 Assumptions NOT satisfied!
Global Stat線形性の検定
目的変数と説明変数が線形関係にあるか?
p >= 0.05Assumptions acceptable.線形関係
p < 0.05Assumptions NOT satisfied!非線形関係
Skewness残差分布の正規性の検定
歪度
p >= 0.05Assumptions acceptable.正規性
p < 0.05Assumptions NOT satisfied!非正規性
Kurtosis残差分布の正規性の検定
尖度
p >= 0.05Assumptions acceptable.正規性
p < 0.05Assumptions NOT satisfied!非正規性
Link Function目的変数の分布の検定
リンク関数の誤用
p >= 0.05Assumptions acceptable.正規性
p < 0.05Assumptions NOT satisfied!非正規性
リンク関数の誤用→説明変数の取捨選択を誤っている可能性を示唆する。
Heteroscedasticity残差分布の等分散性の検定:不均一分散p >= 0.05Assumptions acceptable.分散が均一である。
p < 0.05Assumptions NOT satisfied!分散が一定ではない。
残差の分散が不均一である。
説明変数の特定範囲において、予測が良かったり、悪かったりする。
Using and interpreting output from gvlma

R、Pythonの線形回帰、対応関係

RR lm valuePython LinearRegression attribute, method
lmResiduals残差のサマリー
summary($residuals)
Coefficients回帰係数$coefficientscoef_
intercept_
Residual standard error   
R-squared決定係数summary()$r.squaredscore()
Adjusted R-squared調整済み決定係数summary()$adj.r.squared
F-statisticF値summary()$fstatistic
p-valueP値
実行時の呼び出し$call 
predict.lm予測値 predict()
タグ

管理人/副管理人のみ編集できます