データサイエンス講義(オライリー)

www.amazon.co.jp

データサイエンティストとして必要なスキルセットや考え方を学ぶには最善の本です。
業界の概要を俯瞰して捉えることができます。

データサイエンティストにはどのようなスキルや考え方が必要か。また、必須ワードについて。

  • マンジング
データのフォーマットを変換して加工する技法全般のこと

※ETLのT(Transform)で使用する技法のことですね

  • 標本分布
サンプリングごとで観測値が異なること

※任意に抽出したサンプルにはばらつきがあるということです

  • N=ALLではない
標本=母集団ではない

※そもそも、すべてのデータを取り尽くすことは難しいですので、どんなものでも、サンプルの分析結果に過ぎないと考えます。
※つまり、分析結果というのは完璧ではないということです

  • モデル
特定のレンズを通して、現実世界を理解し、表現しようとする試み。

※訳の通り、型です。
※モデルをフィッティングする≒データからモデルのパラメーターを推測すること

  • EDA(Exploratory Data Analysis)
is an approach to analyzing data sets to summarize their main characteristics,
often with visual methods

モデリングする前にまず、データを可視化してみるということです
※ETL後に行います
http://stat.columbia.edu/~rachel/datasets/nyt1.csv

  • オーバーフィッティング
推定されたモデルが標本データを越えて現実を捉えるほどにはよくできてはいないということ

※モデルはあくまで、標本においてはということです
※◯◯◯の人はできる人だ。(ある組織における法則。他の組織では当てはまらないこともある)

  • データサイエンスのプロセス
ETL
↓
EDA
↓
機械学習アルゴリズム/統計モデル
↓
コミュニケーション/可視化
↓
プロダクトの構築

※ETLの前にどのようなデータが必要かを考えることが最も大切です
※目的の不確かなビッグデータよりも、目的のあるデータを

この商品は人気があるとのレコメンドにより実際に人気が出る場合等

※ランキング上位であるレコメンドは人気を恣意的に増すことができます

  • データの可視化のみが目的の場合
データ・セットをクリーニングして、EDAを実施して、図を作成するだけでもよい

機械学習アルゴリズム/統計モデリングは使用しなくてもよい

  • どのようなデータが必要かを考えることができる
目的のない膨大なデータをETLしてもいいですが、
目的のあるデータ設計が必要です
k近傍法
最近傍法
線形回帰
多重線形回帰
単純ベイズ
ソート
Map Reduce
Pregel
確立勾配降下法
ニュートン法
最小二乗法
ロジスティック回帰
k平均法
ラプラススムージング
対数収益率
逐次回帰
決定木
ランダムフォレスト
刈り込みなし木構造
機械学習アルゴリズム
特異値分解
主成分分析
隣接行列
接続行列
擬似尤度推定
10000通りのユーザーに10000通りの施策は打たない。
ユーザーをクラスタリングして、各クラスタに異なる施策をする
広告が良かったのか、広告の場所が良かったのか
広告が良かった→クリック増加→広告が良いから→クリックが増加
  • オーバーフィットしていないか
アルゴリズムを微調整して、オーバーフィットさせていないか
  • 特徴抽出
生のごみデータにアルゴリズムを適用して、Garbage in, garbage outを避けること
  • 特徴選択
データの部分集合やデータの写像を作成して、
モデルやアルゴリズムに使うべき予測変数を特定するプロセス
モデルがシンプル過ぎると高い偏りを持ち、モデルが複雑すぎると高い分散が生まれ、オーバフィッティングをもたらす
間違って陽性の結果になる
間違って陰性の結果になる

※インフルエンザの診断においては偽陰性の場合は大変ですね

その日に頻繁にアクセスしたユーザーは数多くサンプリングの対象になってしまう
  • 何が知りたいか
他のユーザーに影響力の高い人

高額購入ユーザー

日本初上陸のパンケーキ店やメキシカン料理店は
現地のままの味にするか、日本人に合わせて、
ローカライズすべきか