日々の事柄に関する雑記帳。


用語

binarization二値化
coefficient係数
confirmatory確認の
covariance共分散
descriptive記述的な
descriptive statistics記述統計学
explanatory説明的な
hypo testhypothesis test
仮設検定
interquartile range四分位範囲
kurtosis尖度
observation観察
percentile百分位数
quantile分位数
skew歪度

データの種類

分類1分類2特徴分布の中心グラフ分布のばらつき
Quantitative data
量的データ
間隔尺度
interval data
値の間隔に意味がある気温、体温mean
平均
ヒストグラム標準偏差
比尺度
ratio
比率に意味がある
0が起点となる
経過時間、速度、身長
Qualitative data
質的データ
名義データ
nominal data
区別することに意味があるID、性別mode
最頻値
棒グラフ
円グラフ
二項分布~多項分布
順序データ
ordinal data
順序に意味があるよい/どちらでもない/わるいmedian
中央値
棒グラフ
ヒストグラム
四分位範囲
温度は間隔尺度である。温度にとって10度、15度の間隔(5度)に意味はあるが、その比率(50%)に意味はない。


数値データ
numerical data
時系列データ
time-series data
特定期間のデータ
GNP、失業率、株価推移
横断的データ
cross-sectional data
特定時点のデータ
人口調査、消費者調査、世論調査
統合データ
pooled data
時系列データと横断的データの組み合わせ
10か国、20年間の失業率推移

データの要約

分布度数分布バー・チャート
ヒストグラム
正規性時系列グラフ、Q-Qプロット
二変数積み重ねバー・チャート
散布図
分散
バラツキ
箱ひげ図
平均最頻値
中央値
平均値
分散
バラツキ
偏差
分散
標準偏差
品質改善パレート図
mean chart
range chart
S chart
control chart

標本分散と標準偏差

標準偏差

0.3413
0.4772
0.4987
±1σ0.682668.26%
±2σ0.954495.44%
±3σ0.997499.74%
±1σ - ±2σ0.271827.18%
±1σ - ±2σ - ±3σ0.04304.30%
標準偏差が小さい平均値周辺に集中している分布
標準偏差が大きい平均値から離れて分布している

標準化=平均値を0、標準偏差を1として変換する。

正規分布と歪度、尖度

歪度 > 0分布は左に偏る。分布の先端が最頻値、その右に中央値、さらに右に平均値。圧倒的多数は給料が少なく(左に偏った分布)、少数(右の裾野)の給料は多い。
歪度 = 0正規分布分布の中心が最頻値、中央値、平均値。平均的な給与額が多数派、給料の少ない者、多い者が少数派として存在する。
歪度 < 0分布は右に偏る。分布の先端が最頻値、その左に中央値、さらに左に平均値。例:圧倒的多数は製品寿命が長く(右に偏った分布)、少数(左の裾野)の製品寿命は短い。
尖度 > 0尖った分布分布が平均に集中している。
尖度 = 0正規分布
尖度 < 0お椀上の分布分布が散らばっている。

モーメント(積率)

分布の特徴を表す。
1次のモーメント平均分布の値
2次のモーメント分散分布の広がり、散らばり
3次のモーメント対称性、歪度正規分布と比較した、分布の偏り
4次のモーメント尖度正規分布と比較した、平均の集中

箱ひげ図

分散(バラツキ)を見るのに適している。
第1四分位25th percentile
第2四分位median
50th percentile
第3四分位75th percentile
四分位範囲75th percentile - 25th percentile

相関

共分散

2つの対応するデータ間の、偏差の積の平均。
2つの変数の関係を示す。
偏差の積なので、単純に価の大小だけで関係の強度を決めることはできない。

相関係数

共分散同士を直接比較することはできないため、相関係数を用いて比較する。
2変数の共分散を、それぞれの偏差の積で割ることで求める。
相関係数は-1から1の間の値を取る。両端に値に近いほど、強い関係性を示す。
相関係数強さ
-1〜-0.7強い負の相関
-0.7〜-0.4かなりの負の相関
-0.4〜-0.2やや負の相関
-0.2〜0.2ほとんど相関無し
0.2〜0.4やや正の相関
0.4〜0.7かなりの正の相関
0.7〜1強い正の相関
タグ

管理人/副管理人のみ編集できます