日々の事柄に関する雑記帳。




用語

Connected Industries日本版Industry 4.0
Industry 4.0第4次産業革命
IoTなどの技術活用により製品の品質や稼働状態を可視化し、生産性を高める。
Society 5.0AIやIoT等の最新技術を活用した便利な社会
1.0=狩猟社会
2.0=農耕社会
3.0=工業社会
4.0=情報社会
アノテーション注釈
データに関する情報を注釈として付与する→機械学習でのデータへのラベル付け
中国製造2025中国版Industry 4.0

PART1

KKD勘、経験、度胸
DNAData, Number, AI
トリプルH平均、変態、発想

データに基づいた仕事の進め方
  1. データ取得
  2. 実行
  3. 再現性認識
  4. 結果を反映
  5. データ更新

PART2

データサイエンティストに求められるスキルセット(一般社団法人データサイエンティスト協会)
ビジネス課題背景を理解した上で、ビジネス課題を整理し、解決する
データサイエンス情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
データエンジニアリングデータサイエンスを意味のある形に使えるようにし、実装、運用できるようにする
これらのスキルをすべて一人に任せる体制に無理がある
何が問題か分かっている。
解決するための仮説が浮かんでいる。
確証的データ分析課題解決型
仮説検証
打開
何が問題か分からない。
仮説すら浮かばない。
探索的データ分析課題発見型
仮説構築
把握
探索的データ分析から始める。
間違った疑問に対して正しい回答を導くのではない。
正しい疑問に対して間違った回答を導く方がまし。


データサイエンスビジネスのプロセス
  1. 目的を定義する
    1. ドメイン・ナレッジが求められる
  2. データを収集する
  3. データをチェックする
  4. 分析する
    1. 新たな仮説を見つけた場合、「目的を定義する」に戻る
  5. 発表する
    1. 発表フォーマット:結論→次に取るべき行動
  6. 意思決定する
分析したら
分かった分からなかった
依頼したが知っていたここが多いデータに表れない暗黙知
知らなかった本来期待されている
知りたい答えを定義する
  • 課題を発見するヒント
  • 課題を解決する方法
ここまで分かっている。ここから先が分かると嬉しい。


数値化=曖昧で割り切れない現実をどこかで区切って、曖昧ではないデータに置き換える作業

要約

要約
  • データの姿、形の把握
  • データの特徴を代表する値を作成する=代表値の抽出
Rでのsummary()

縮約

縮約=次元削減
行と列が増えると、とにかく量が多すぎて理解するだけでも時間がかかります。せめて似通った列を減らしたいと思うかもしれませんが、それによって計測したデータの制度を落としたくはありません。
データの制度はなるべく落とさないままで、列を削減する「縮約」という方法を用います。
主成分分析たくさんのデータをコンパクトにまとめたい複数列あるデータを「主成分」としてまとめるより少ない列に縮約する
関係がありそうな列をなるべく一つにまとめ、それぞれがほとんど関係しなさそうな列のみに縮約する
関係がありそうな列を一つにまとめてしまうことで、関係がなかったデータまで切り捨ててしまう可能性がある
因子分析データを結果と見なして背景にある原因を知りたい複数列あるデータの潜在的な「因子」を発見するたくさんある列を精査して、隠されている因子を求める
因子分析は、「知能」という目には見えず、直接測れない概念を研究する中から生まれた分析手法です。知能があるなら試験などの結果として現れると仮定し、様々な事象から概念を推定するしかないと考えたのです。

分類

データをグループごとに分ける
クラスタリング関係がありそうなデータをまとめる
クラス分類ルールに基づいて分類するロジスティック回帰
k近傍法

関係性

因果関係原因が起きたから結果が起きた
相関関係原因と結果の関係ではない
単回帰分析説明変数が一つy = ax + b
重回帰分析説明変数が複数y = ax1 + bx2 + cx3 ... + d
それぞれのxが、お互いに影響しないこと。

検定

  • ある事象が偶然起きたのかそうでないのか、を判別する。
  • 確証的データ分析の代表的手法。
背理法
正反対の過程を否定することで、主張を証明する。
主張犬は動物である対立仮説
正反対の過程犬は動物ではない帰無仮説
検定では、帰無仮説を否定することで、対立仮説を指示する。

帰無仮説が正しいなら、標本によって得られる確率はどのぐらいかを計算する。
水準未満帰無仮説は誤り、対立仮説が採用される。
水準以上帰無仮説が採用、対立仮説が棄却される。
帰無仮説を誤りと判断できなかったとしても、帰無仮説が正しいと証明できたわけではない。
第一種過誤偽陽性帰無仮説が正しいのに棄却してしまう。
第二種過誤偽陰性対立仮説が正しいのに、帰無仮説を採用してしまう。
第一種、二種過誤の両方を同時に下げることはできない。どちらかを下げれば、もう一方が上がる。

時系列データ

横断面データある時点における、複数項目のデータある日、あるクラス全員の身長
ある日、ある組織の事業ごとの売り上げ
時系列データある項目について、時間軸のデータA氏の1年ごとの身長
ある事業部の1年ごとの売り上げ
パネルデータ横断面、時系列、両方の特徴を持つ

時系列データの変動
傾向変動長期的な波動
循環変動周期の確定していない中長期的な波動
季節変動1年を周期とする波動
不規則変動
時系列データ=長期、中、短期要因、外部要因などの事象が重なって作られたデータ
移動平均法
  • 代表的な時系列データの分析手法
  • 平均値を求める期間内におけるトレンドの影響を取り除く

見せかけの相関:双方があたかも関係していそうに見える現象。実際にはデータ外の要因が双方に影響しているだけ。
見せかけの相関を回避する方法
単位根検定時系列データが定常かどうかを判別する
差分系列一次店前のデータとの差を取る

機械学習

教師あり学習データから学習した傾向を、新たに追加されたデータに適用する
教師なし学習データの特徴から本質的な構造を抽出する
ディープラーニング人間が与えていた特徴量を、機械が探す

報告スタイル

  • 目的の確認
  • 結論
  • 理由=分析結果
  • 再度、結論

データサイエンスの限界

曖昧で割り切れない現実をどこかで区切り、曖昧ではないデータに置き換える→データで表現しきれなかった分は情報として抜け落ちる
データで表現できないということは、例外的な事象が常に生まれ得る
データは完璧ではない

今ある現実を再現するには、少し不完全なデータで分析に取り組んでいるという観点が欠かせません。

手元にあるデータに基づいて結論を導く→手元にないデータに対して何ら考えが及ばない
無いデータから理由を想像するには、明示的にA=0と表現できるような、無いことをを示すデータがあってこそ分析することができます。

どれほどデータを集めても、分析精度は、ある一定で飽和する。→最小コスト、労力でデータを集めて精度を上げる方法を考える。

PART3

リアルデータ
  • 生活や産業に密着したデータ
  • 生活や仕事の中で発生するデータ
タグ

管理人/副管理人のみ編集できます