集計・可視化・基礎統計

データの理解が基礎

 

⚫︎記述統計

・平均値  = (全データの合計値)/(データ数)

弱点:平均値は極端に大きい値に影響されて、データ全体の中で相対的に大きめの値になってしまう

・中央値 =

データを小さい順(大きい順)に並べたときに、順位が中央である値のこと。極端な数値の変動の影響を受けにくい

分散、標準偏差 ・・・データのばらつきがどのくらい大きいか、小さいかを判断する

分散・・平均を中心にどのくらいデータがバラついているかを表す統計量

標準偏差・・・√分散

・最大値、最小値

(EXCEL関数)

平均値:Average()

中央値:MEDIAN()

分散:VAR.S()

標準偏差:STDEV.S()

最大値:MAX()

最小値:MIN()

◼️可視化のグラフ

・ヒストグラム (各棒・・ピン)

・連続変数:値が連続的に変化する変数(売上、個数など)

・カテゴリカル変数:値と値の間に距離がない変数(名前、性別、商品分類など)

(グラフの見方)

・山がいくつあるか?

・外れ値がないか?
・データの中心はどのあたりか?

・データのばらつきはどの程度か?

・棒グラフ ・・・変数の値が独立した集団のデータ、カテゴリカル変数におけるカテゴリ間の値の大小を比較したい

・折れ線グラフ・・・一連のの関連性があり、時間などを通じた推移や変化を表したい場合に使う

・ヒートマップ・・・行列間のデータ特徴を把握。2次元データを色の濃淡で表したもの (年・月・販売個数の3次元データを2次元空間上に表現可能)

・散布図・・・2つの連続変数の傾向を把握する。相関:ある変数が増加・減少するともう多方の変数もそれに伴い増加・減少するかの関係性を見る

・相関行列(相関係数)・・・変数間の相関関係が一目瞭然

※相関係数が低いからといって関係性が無いわけでは無い!(気温と電気の関係)

⚫︎ピポットテーブル
⚫︎確率分布(正規分布、二項分布、ポアソン分布など)

⚫︎仮説検定(t検定、カイ2上検定など)

⚫︎データの前処理(ダミーの変数、欠損値の補完、外れ値の考慮など)

error: Content is protected !!