Jのブログ

人生の記録

【読了】本物のデータ分析力が身に付く本

読みました。初めてデータと向き合う人に、かなりおすすめの本でした。データ分析の設計から、データのクレンジング、平均、標準偏差ヒストグラム、散布図、標準偏差を使いこなすためのイメージがつきます。ワークが充実していて、かなり実践的だったのでおすすめです。

0章

  • 目的・過程、データ収集・データ信頼性確認、計算・結果、知識、説明、採用、効果
  • 「このデータ、うまく何か使えないか?」というのは難しい、手段と目的が逆転している
  • データありきではなく、目的ありきで考える、解決する手段を考える、問を考える、どのようなデータを分析するか考える

1章 データ分析を設計

  • 何のために何を知るのか?どのようなか過程でどのような範囲か?どのようなデータでどのような意味合いの数字を出すのか
  • 分析概念図
    • 問題を決める:何を解決したいか?
    • 評価軸の定義:何をもって解決とするか
    • 要因の列挙:評価に影響しそうな要因を整理
    • 要因の選択:分析に使う要因を選択

第2章 データの事前チェック

  • ヒストグラムで分布を確認し、外れ値を見る
  • データチェックのポイント
    • データの出所:5WH1、一次情報
    • データ全体の概要:サイズ、並び、意味合い、値の大きさ・単位、欠損値・外れ値、そのた目立つ特徴
    • 個別の値:欠損値、外れ値、データ方向、クレンジング
    • データの傾向:値の範囲、分布の形
  • データチェック
    • 欠損値:数値のみ選択、空・または空白を除外など方式があるの注意(データはいろいろ)
    • 外れ値(不正値)
      • ヒストグラム・散布図でチェック
      • 最大・最小でチェック
      • 外れ値の場所をチェック
      • 最大値と最小値は常にチェックする
  • データをクレンジング
    • 欠損値の判断
      • 欠損の理由の確認、理由の想像、想像できなければ除外(平均値でうめるなど、欠損が多いとデータそのものの信頼性が低下する)
    • 外れ値の判断
      • 外れている理由の確認、理由の想像、想像できなければ除外(平均値でうめるなど、欠損が多いとデータそのものの信頼性が低下する)
    • クレンジングは超重要、 分析の9割を占める場合もある
  • データの方向性
    • ポジティブなデータは値が大きくなるようにする
  • データ傾向のチェック
    • クレンジング後に再度可視化(ヒストグラム、散布図)
    • データ分布の確認

第3章 分析方法を学ぶ

  • 代表値(平均値、中央値、最頻値)とクロス集計による分析
  • 代表値:複数の数値を1つの数値で表す手法
    • 平均値:「量」の切り口(合計しデータ数で割る)
    • 中央値:「順位」の切り口(データをソートし真ん中のもの)
    • 最頻値:「頻度」の切り口(データ数が多い値)
    • 平均値を利用する前提
      • 数値データ(長さ、重さ、金額、時間など)、男1・女2みたいなのはNot数値データ
      • 分布の山が1つ
      • 分布対称である
      • 外れ値がないこと
      • 例:平均気温見て薄着でいったら寒かった(寒暖差が大きい場合のあるので最高気温・最低気温を見る)*エラーバー
    • 中央値を利用する前提
      • ある値が真ん中より上か下か知りたい(順位的に見たい)
      • 平均値より中央値の方が、分布の山に近い(極端に値が高い低いデータがある場合)
    • 最頻値を利用する前提
      • 本質的に名前や言葉を表す分類データ
      • 数値データを等しい間隔に区切って作った分類データ
      • (数値がばらばらのものには利用できない)
    • 代表値利用時の注意事項
      • 生データに比べれば情報が失われる
        • 立体的なものを一方向からみたものというイメージ
        • 特徴の中の1つと考える
  • クロス集計
    • 2つ以上の軸でデータを分析することをクロス集計(エクセルだとピボットテーブル)
    • クロス集計の効果
      • データを複数の要因から確認できる
      • 潜在的な要因の発見につながる

第4章 ケース実習

  • 分析設計
    • 目的:3つの新商品をうまく顧客に届けるためには?
      • そもそも商品を店舗で取り扱う?
      • どの商品がフィットする?
      • 各商品の属性と店舗の種類による過去の売り上げ状況を確認する
      • 男性向け 派手シャツをどの店舗に置く?
      • 女性向け かわいいでサインをどの店舗に置く?
      • 男女兼用 中性的なデザインをどの店舗に置く?
      • 各シャツの日、週、月別の売り上げ予測をして、在庫確保する
      • 各シャツの配置場所
    • 評価軸(2種類しかおけない、どの店舗にどう配置する?)
      • 店舗に来店する客層に合わせてチョイス(過去のデータから年齢、性別、購入しているタイプを分析する)
      • 各店舗における
        • 来店の客層は?(年齢、性別)
        • 顧客の嗜好性
        • いつ、何を、どれくらい購入しているか(曜日別、月別で見る

第5章 標準偏差

  • 標準偏差の使い所
    • データのばらつきがどれくらいあるか
    • 多様性や格差、不確実性、リスク、平均値の信頼性、品質管理などに使える
  • 外れ値抽出

第6章 グループ間の差の確からし

  • サンプルデータの抽出具合により、差が確かとは言い切れない
  • 分散分析の結果である危険率により全体として、差が確かか計算できる
  • 同じ個体か、そうでないかで計算式が異なる
    • 同じ人で、薬投与有無による計算(同じ人同士での結果で見る)
    • 薬を投与したグループ、薬を未投与のグループでの計算(グループでの結果として見る)
  • データの平均値、標準偏差、データ数から分散分析を行う

第7章 分析結果の受け止め方と伝え方

  • 評価軸がどれくらいあるか、様々な要因を広くあげて仮説する
  • バイアスに気を付ける
  • 仮説確証バイアス(思い込み)
    • 1つあたりを(予想)つけて分析してしまうと、客観的な分析ができなくなる
  • アンカリング(極端な数字)
    • 問題の中に含まれる数値で印象が変わる
    • 5000円という価格より、8000円が5000円になっている場合の購入判断
    • 10と25、10000と100025では印象が違う
  • フレーミング(言葉の表現)
    • 重い病気で手術の成功率は90%です、受けますか?
    • 重い病気で手術の失敗率は10%です、受けますか?
    • ポジティブ・ネガティブを入れ替えて考える
  • ライミング(情報の順序)
    • 先にポジティブな話をし、ネガティブな話は後半に少しする
    • 情報の提示順を逆にして判断が変わらないか試す
  • 擬似相関(偽の関係)
    • 走る速度が遅いと、給料があがるグラフ
    • 年齢があがると給料があがる、年齢があがると走る速度が遅くなるというのが原因
    • 相関関係がある別の要因により、走るのが遅いと給料があがるという構図になる
    • 相関関係があっても因果関係があるとは限らない
    • 頻繁に起こりやすい誤りなので常に注意
    • 複数の因果を比較し、適切なものを選択する
  • 結果表現の注意
    • データの集め方(データ数、ネガティブな選択肢が少ない、収集途中でやめるなど、条件が同じになっているか)
    • グラフの見せ方(基本0から始める、数字は大きく)
    • 言葉の表現の仕方(数値を相手に刺さる意味合いに、倍率など抽象的な数字だけだと伝わりにくい)