日々の事柄に関する雑記帳。


用語

covariance共分散
CRISPCross Industry Standard Process
exponentiation累乗
frequency distribution度数分布
normality正規性、正常性
Q-Q plot観測値をx軸、正規分布に従う場合の期待値をy軸
一直線上に並べば正規分布
time series時系列
variability変動制、ばらつき

データ分析

データを分類する。
データをプロットする。グラフ
データの平均値、分散を知る。
不自然な形状、パターンを捉える。スキュー、例外的な値
分布度数分布バー・チャート
ヒストグラム
正規性時系列グラフ、Q-Qプロット
二変数積み重ねバー・チャート
散布図
バラツキ箱ひげ図
平均最頻値
中央値
平均値
バラツキ偏差
分散
標準偏差
品質改善パレート図
mean chart
range chart
S chart
control chart

演算子

Python

**累乗

R

%/%整数商
%%剰余
%>%パイプ

テキスト・ファイル操作

Python

pandasを利用する。
read_csvCSVファイル
read_tableTSVファイル
read_ExcelExcelファイル
to_csvCSVファイルの生成
to_excelExcelファイルの生成
read_csvとread_table
どちらも実態は同じ。
read_csvデフォルトの区切り文字が","
read_tableデフォルトの区切り文字がタブ"\t"

カンマ、タブ以外の区切り文字を指定する場合、sep、delimiterで設定する。
1行目がヘッダー(列名)として認識される。ヘッダーを自動付与する場合、引数に次の値を設定する。
heade=None
1列目がインデックス(行番号)として認識させる場合、引数に次の値を設定する。
index_col=0

R

read.csv区切り文字がカンマ
read.csv2区切り文字がコロン、少数点がカンマ
read.delimタブ区切り
read.delim2タブ区切り、少数点がカンマ
read.xlsxExcelファイルの操作
write.csvCSVファイルの生成
write.xlsxExcelファイルの生成

データ構造

Python

配列array同一のデータ型だけを含む一次元配列。
リストlistデータに順序がある。複数の異なるデータ型を含むことができる。
辞書dictデータに順序がある。キーと値を含む。
キーは重複不可。
タプルtupleデータに順序がある。変更できないリスト。
辞書のキーとして利用できる。
セットsetデータに順序がない。重複した値を持てないリスト。
セット関数にリスト、辞書、タプルを代入して作成すると、元のデータの重複が排除される。
セットは順序を持たないので、添え字(index)で参照することができない。

Pandas
シリーズSeriesラベル付き一次元配列。
データフレームDataFrameラベル付き二次元配列。

DataFrameでの位置指定
index行ラベル
columns列ラベル
locラベル指定
ilocインデックス番号指定
ix両方
Numpy
一次元配列array
他次元配列ndarray
行列matrix

R

ベクトルvectorRの基本データ
同じ型のデータ集合
Rでは、単独のデータは、要素一つのベクトル。
行列matrixt縦横、2次元のデータ集合。
配列array行列を多次元に拡張したもの。
リストlist異なる構造のデータを集めて、1つにまとめたオブジェクト。
データフレームdata.framedata.frameクラスを持つリスト。
必ずラベルを持つ。
is.〜指定のデータ構造であるか、確認する。
as.〜指定のデータ構造へ変換する。

行列

R

%*%行列積
crossprod()クロス積
t(X) %*% Y
det()行列式
prod(svd(X)$d)
eigen()固有値と固有ベクトル
prod()総乗
solve()逆行列
svd()特異値分解
t()転置
タグ

管理人/副管理人のみ編集できます