ネットワークセキュリティと変化点検出(1)

※宍道湖の湖辺にたたずむ兄貴

たまには研究のことでも書いておこうと思います。

僕の研究は、ネットワークセキュリティを変化点検出の立場から考えていこうというものです。

ここでいう変化点検出というものは、

ある時系列データ(時間に依存する数値データ)に対して、独自の変化点検出エンジンを用いることで、その時系列データのトレンドが変化した点を検出すること

です。

すごく単純な話ですが、これが様々な分野、例えば株価の変動や気象の変化などトレンド変化を解析するような分野、に応用することができる手法なのです。

しかし、理論自体はやっていることと比べると、かなり難しくなっています。

ここでは、誰にでも（母親にでも）分かるように、簡単に変化点検出について説明したいと思います。

変化点検出は、「変化点を検出する」ことであるため、当然「変化していない状態」というものを定義する必要があります。

そして、

「変化していない状態」を数学的に定義することで、その状態と違う振る舞いをした場合、その振る舞いをしだす最初の点を「変化点」とすることができる

のです。

つまり、変化していない状態つまり「通常状態」も「変化している状態」も、どのように定義するかは、それを定義する人に依存するのです。

だから、単純に、変化する点を見つければいいじゃん、という話ではなくて、どのように「変化していない状態を定義」するか、という問題にまず行き着くわけです。

「変化していない状態」を定義することで、それ以外の振る舞いを変化した状態、とみなすことができます。

しかし、ここでまた問題が出てきます。

「一瞬変化してまた通常状態に戻る変化」と「変化したあとは、しばらく通常とは違う振る舞いをし続ける変化」をどのように区別するか、

という問題です。

自然現象のような時系列データを扱う場合は、様々な条件から「ノイズ」というものが含まれることが多々あります。

このノイズが、いわゆる「一瞬変化してまた通常状態に戻る変化」であると考えることができます。

自然現象のトレンドのようなものの変化点検出を行う場合は、このようなノイズは除去するべきだと考えることができます。

大きなトレンドの変化を知りたいのに、そんな一瞬の変化を変化点として毎回検出してしまうと、トレンドの解析の邪魔になりますからね。

一般に、時系列データを統計的に解析する場合に、このようなノイズのことを、変化点と区別するために、「外れ値」と呼ぶことがあります。

つまり、

「外れ値」と「変化点」、これらを、変化点検出の手法内において区別して検出する問題

が新たに出てくるわけです。

次回は、そのような問題をどう考えるか、または「自然現象においては」と書いているということは、それ以外の場合、つまり「ネットワークセキュリティにおいては」どのように考えるのかを書いていきたいと思います。