スプレッドシートで簡単に!日別データの異常値を検知する方法

Pocket


marketing

みなさん、こんにちは。志々目です。

広告運用に携わっている方であれば、「異常値」にはかなり注意を払うものだと思います。競合がCMを打ち出したことによる相乗効果でインプレッションが一気に倍増!など、通常では起こりえない「異常値」は、統計学で言う「外れ値」として扱うことでスプレッドシート等で簡単に検知することが可能です。今回は、具体的な方法をご紹介させていただきます。

異常値として検出する「外れ値」とは?

以下の分布図の赤い点を「外れ値」と呼びます。

%e5%a4%96%e3%82%8c%e5%80%a4_%e5%9b%b3

外れ値(はずれち、英:outlier )は、統計において他の値から大きく外れた値をさす。

外れ値かどうか検定したい標本について、偏差を不偏標準偏差で割った検定統計量

%e5%a4%96%e3%82%8c%e5%80%a4_%e5%bc%8f

を求め(x1 は標本値、μ は平均、σ は標準偏差)、この値(両側検定をする場合はこの絶対値)が有意点より大きいかどうかで検定する。
簡単な方法では、2または3を有意点とする。つまり、μ ± 2–3 σ の外なら外れ値とする。

参照:Wikipedia

 

「外れ値」検証の式に当てはめていきます。
%e5%a4%96%e3%82%8c%e5%80%a4_%e5%bc%8f
(x1 は標本値、μ は平均、σ は標準偏差)

x1には、チェックを行う日のデータを指定します。

u は平均値になりますので、今回は移動平均を使用します。

移動平均とは、時系列データにおいて、ある一定区間ごとの平均値を区間をずらしながら求めたものです。

※チェックを行う日を含む7日分のデータの平均を使用。

次に、分母のσ に使用する標準偏差について、

標準偏差とは、複数のデータがあるときに、各データの値のバラつきを示す統計手法のひとつ

<参照:それ、根拠あるの?と言わせないデータ・統計分析ができる本 柏木吉基著>

標準偏差の計算式は以下になります。Excel・スプレッドシートに関数が用意されていますので、具体的な説明は省略します。

偏差 = 各データ - 平均値
分散 = (偏差)の二乗の合計 /データの数
標準偏差 = √分散

スプレッドシートの関数を用いて算出

%e5%a4%96%e3%82%8c%e5%80%a4_%e8%a8%88%e7%ae%97%e5%bc%8f

上記シートの赤枠内に入れた計算式
ABS((D62-AVERAGE(D56:D62))/STDEVP(D56:D62))

D62 → チェックを行う日のデータを指定
D56:D62 → チェックを行う日を含む7日分のデータ範囲を指定

ABS  絶対値を返す数式。値がマイナスにならないように。
STDEVP 標準偏差を求める数式。分母をn-1として算出。
AVRAGE 平均を求める数式

異常値の場合は、条件付き書式でセルの色が変わるように設定

一般的には、「1.3以上」で異常値と見なすことが多いですが、クライアント様のビジネスによってバラつきがありますので、テストをしながら設定する必要があります。
あまり慎重な設定をしすぎると頻繁にアラートが上がり、本当に重要な異常値を見逃すことになりますので、「1.5」ぐらいで様子を見ると良いと思います。

%e7%95%b0%e5%b8%b8%e5%80%a42

さいごに

いかがでしたでしょうか?
問題が起こったときに、すぐに気付く仕組みを作っておくということは、業種問わず重要なことだと思います。
今回は、計算式を用いた方法でご紹介させていただきましたが、そこまでは必要ないという方でも、グラフにして時系列で見ていくだけでも効果はありますので、試してみていただけると幸いです。
%e3%82%b0%e3%83%a9%e3%83%95

次回は、スプレッドシートで検知した異常値をチャットワークに通知する方法について、ご紹介させていただきます。それでは。