集計・可視化・基礎統計
データの理解が基礎
⚫︎記述統計
・平均値 = (全データの合計値)/(データ数)
弱点:平均値は極端に大きい値に影響されて、データ全体の中で相対的に大きめの値になってしまう
・中央値 =
データを小さい順(大きい順)に並べたときに、順位が中央である値のこと。極端な数値の変動の影響を受けにくい
・分散、標準偏差 ・・・データのばらつきがどのくらい大きいか、小さいかを判断する
分散・・平均を中心にどのくらいデータがバラついているかを表す統計量
標準偏差・・・√分散
・最大値、最小値
(EXCEL関数)
平均値:Average()
中央値:MEDIAN()
分散:VAR.S()
標準偏差:STDEV.S()
最大値:MAX()
最小値:MIN()
◼️可視化のグラフ
・ヒストグラム (各棒・・ピン)
・連続変数:値が連続的に変化する変数(売上、個数など)
・カテゴリカル変数:値と値の間に距離がない変数(名前、性別、商品分類など)
(グラフの見方)
・山がいくつあるか?
・外れ値がないか?
・データの中心はどのあたりか?
・データのばらつきはどの程度か?
・棒グラフ ・・・変数の値が独立した集団のデータ、カテゴリカル変数におけるカテゴリ間の値の大小を比較したい
・折れ線グラフ・・・一連のの関連性があり、時間などを通じた推移や変化を表したい場合に使う
・ヒートマップ・・・行列間のデータ特徴を把握。2次元データを色の濃淡で表したもの (年・月・販売個数の3次元データを2次元空間上に表現可能)
・散布図・・・2つの連続変数の傾向を把握する。相関:ある変数が増加・減少するともう多方の変数もそれに伴い増加・減少するかの関係性を見る
・相関行列(相関係数)・・・変数間の相関関係が一目瞭然
※相関係数が低いからといって関係性が無いわけでは無い!(気温と電気の関係)
⚫︎ピポットテーブル
⚫︎確率分布(正規分布、二項分布、ポアソン分布など)
⚫︎仮説検定(t検定、カイ2上検定など)
⚫︎データの前処理(ダミーの変数、欠損値の補完、外れ値の考慮など)