【読了】本物のデータ分析力が身に付く本
読みました。初めてデータと向き合う人に、かなりおすすめの本でした。データ分析の設計から、データのクレンジング、平均、標準偏差、ヒストグラム、散布図、標準偏差を使いこなすためのイメージがつきます。ワークが充実していて、かなり実践的だったのでおすすめです。
0章
- 目的・過程、データ収集・データ信頼性確認、計算・結果、知識、説明、採用、効果
- 「このデータ、うまく何か使えないか?」というのは難しい、手段と目的が逆転している
- データありきではなく、目的ありきで考える、解決する手段を考える、問を考える、どのようなデータを分析するか考える
1章 データ分析を設計
- 何のために何を知るのか?どのようなか過程でどのような範囲か?どのようなデータでどのような意味合いの数字を出すのか
- 分析概念図
- 問題を決める:何を解決したいか?
- 評価軸の定義:何をもって解決とするか
- 要因の列挙:評価に影響しそうな要因を整理
- 要因の選択:分析に使う要因を選択
第2章 データの事前チェック
- ヒストグラムで分布を確認し、外れ値を見る
- データチェックのポイント
- データの出所:5WH1、一次情報
- データ全体の概要:サイズ、並び、意味合い、値の大きさ・単位、欠損値・外れ値、そのた目立つ特徴
- 個別の値:欠損値、外れ値、データ方向、クレンジング
- データの傾向:値の範囲、分布の形
- データチェック
- 欠損値:数値のみ選択、空・または空白を除外など方式があるの注意(データはいろいろ)
- 外れ値(不正値)
- ヒストグラム・散布図でチェック
- 最大・最小でチェック
- 外れ値の場所をチェック
- 最大値と最小値は常にチェックする
- データをクレンジング
- 欠損値の判断
- 欠損の理由の確認、理由の想像、想像できなければ除外(平均値でうめるなど、欠損が多いとデータそのものの信頼性が低下する)
- 外れ値の判断
- 外れている理由の確認、理由の想像、想像できなければ除外(平均値でうめるなど、欠損が多いとデータそのものの信頼性が低下する)
- クレンジングは超重要、 分析の9割を占める場合もある
- 欠損値の判断
- データの方向性
- ポジティブなデータは値が大きくなるようにする
- データ傾向のチェック
- クレンジング後に再度可視化(ヒストグラム、散布図)
- データ分布の確認
第3章 分析方法を学ぶ
- 代表値(平均値、中央値、最頻値)とクロス集計による分析
- 代表値:複数の数値を1つの数値で表す手法
- 平均値:「量」の切り口(合計しデータ数で割る)
- 中央値:「順位」の切り口(データをソートし真ん中のもの)
- 最頻値:「頻度」の切り口(データ数が多い値)
- 平均値を利用する前提
- 数値データ(長さ、重さ、金額、時間など)、男1・女2みたいなのはNot数値データ
- 分布の山が1つ
- 分布対称である
- 外れ値がないこと
- 例:平均気温見て薄着でいったら寒かった(寒暖差が大きい場合のあるので最高気温・最低気温を見る)*エラーバー
- 中央値を利用する前提
- ある値が真ん中より上か下か知りたい(順位的に見たい)
- 平均値より中央値の方が、分布の山に近い(極端に値が高い低いデータがある場合)
- 最頻値を利用する前提
- 本質的に名前や言葉を表す分類データ
- 数値データを等しい間隔に区切って作った分類データ
- (数値がばらばらのものには利用できない)
- 代表値利用時の注意事項
- 生データに比べれば情報が失われる
- 立体的なものを一方向からみたものというイメージ
- 特徴の中の1つと考える
- 生データに比べれば情報が失われる
- クロス集計
- 2つ以上の軸でデータを分析することをクロス集計(エクセルだとピボットテーブル)
- クロス集計の効果
- データを複数の要因から確認できる
- 潜在的な要因の発見につながる
第4章 ケース実習
- 分析設計
- 目的:3つの新商品をうまく顧客に届けるためには?
- そもそも商品を店舗で取り扱う?
- どの商品がフィットする?
- 各商品の属性と店舗の種類による過去の売り上げ状況を確認する
- 男性向け 派手シャツをどの店舗に置く?
- 女性向け かわいいでサインをどの店舗に置く?
- 男女兼用 中性的なデザインをどの店舗に置く?
- 各シャツの日、週、月別の売り上げ予測をして、在庫確保する
- 各シャツの配置場所
- 評価軸(2種類しかおけない、どの店舗にどう配置する?)
- 店舗に来店する客層に合わせてチョイス(過去のデータから年齢、性別、購入しているタイプを分析する)
- 各店舗における
- 来店の客層は?(年齢、性別)
- 顧客の嗜好性
- いつ、何を、どれくらい購入しているか(曜日別、月別で見る
- 目的:3つの新商品をうまく顧客に届けるためには?
第5章 標準偏差
- 標準偏差の使い所
- データのばらつきがどれくらいあるか
- 多様性や格差、不確実性、リスク、平均値の信頼性、品質管理などに使える
- 外れ値抽出
第6章 グループ間の差の確からしさ
- サンプルデータの抽出具合により、差が確かとは言い切れない
- 分散分析の結果である危険率により全体として、差が確かか計算できる
- 同じ個体か、そうでないかで計算式が異なる
- 同じ人で、薬投与有無による計算(同じ人同士での結果で見る)
- 薬を投与したグループ、薬を未投与のグループでの計算(グループでの結果として見る)
- データの平均値、標準偏差、データ数から分散分析を行う
第7章 分析結果の受け止め方と伝え方
- 評価軸がどれくらいあるか、様々な要因を広くあげて仮説する
- バイアスに気を付ける
- 仮説確証バイアス(思い込み)
- 1つあたりを(予想)つけて分析してしまうと、客観的な分析ができなくなる
- アンカリング(極端な数字)
- 問題の中に含まれる数値で印象が変わる
- 5000円という価格より、8000円が5000円になっている場合の購入判断
- 10と25、10000と100025では印象が違う
- フレーミング(言葉の表現)
- 重い病気で手術の成功率は90%です、受けますか?
- 重い病気で手術の失敗率は10%です、受けますか?
- ポジティブ・ネガティブを入れ替えて考える
- プライミング(情報の順序)
- 先にポジティブな話をし、ネガティブな話は後半に少しする
- 情報の提示順を逆にして判断が変わらないか試す
- 擬似相関(偽の関係)
- 走る速度が遅いと、給料があがるグラフ
- 年齢があがると給料があがる、年齢があがると走る速度が遅くなるというのが原因
- 相関関係がある別の要因により、走るのが遅いと給料があがるという構図になる
- 相関関係があっても因果関係があるとは限らない
- 頻繁に起こりやすい誤りなので常に注意
- 複数の因果を比較し、適切なものを選択する
- 結果表現の注意
- データの集め方(データ数、ネガティブな選択肢が少ない、収集途中でやめるなど、条件が同じになっているか)
- グラフの見せ方(基本0から始める、数字は大きく)
- 言葉の表現の仕方(数値を相手に刺さる意味合いに、倍率など抽象的な数字だけだと伝わりにくい)