異常検出

異常とは、通常の動作条件と一致しないデータ ポイントまたはイベントです。 インフラストラクチャやアプリケーション内の問題点を発見し、トレンドを理解するために異常を検出することは、AIOps の重要なユース ケースです。 検出により、ツールは通常とは異なる動作(通常よりも応答が遅いサーバや、違反によって生成された一般的でないネットワーク アクティビティなど)を認識し、それに応じて対応することができます。
AIOps ソリューションで異常検出を使用すると、以下の利点が得られます。
  • AIOps ソリューションは、アラームやイベントだけでなく、メトリックを取り込みます。 メトリックは、効果的な異常検出のために必須です。
  • AIOps ソリューションでは、しきい値を設定する必要はありません。 データをデータ レイクに送信するだけで、AIOps ソリューションがデータを相関させ、異常を特定します。
  • AIOps ソリューションは、単一の変量だけに依存するのではなく、多変量の異常検出を行います。
  • AIOps ソリューションは 10 種類以上の AI と ML アルゴリズムを特徴とし、当社の専門知識に基づいて調整されています。 これらの最適化されたアルゴリズムを使用すると、高速な根本原因解析と予測 IT を実現します。
  • 自動化とトポロジのマッピングによって、異常を正確に検出し、イベント ノイズを低減し、問題の根本原因を特定できます。
  • AIOps ソリューションの根本原因の特定に誤りがある場合は、オペレータから入力を受け取り、この情報から学習できます。
動的ベースライン化
異常の概念を理解するのは簡単かもしれませんが、最新のソフトウェア環境の AIOps で異常検出を特に困難にしているのは、多くの場合、
通常の
動作条件を定義する一貫した手段がないことです。特定の環境が消費するネットワーク トラフィック、メモリ、およびストレージ スペースの量は、1 日を通して大きく変動する可能性があります。これには、アクティブなユーザやアプリケーション インスタンスの数も含まれます。 このような状況で効果的に検出するには、動的なベースラインを設定するのに十分なインテリジェントな AIOps ツールが必要です。 動的ベースラインを使用すると、ツールは、所定の状況(時間やアプリケーションの登録ユーザ数など)で通常のアクティビティをどのように構成するかを判断し、動的ベースラインに一致しないデータまたはイベントを検出できます。
時系列異常検出
時系列データは、環境内にあるさまざまなプローブのタイムスタンプ付きの観測値を表します。 大規模な展開では、膨大な数のメトリックを収集できます。 これらのメトリックの大部分は時間平均化されており、システムのトランザクションまたはリソース関連の状態についての詳細な情報を得ることができます。
個々のメトリックはそれぞれ分布に従います。 分布を仮定することなく、KDE アルゴリズムは、各メトリックの履歴データ ポイントの分布のカーネルを描画します。 この分布を使用して、メトリックの値が発生する確率を推定します。 この分布では、四分位数ベースの内訳を使用して、異常検出が 1 日の特定の時間における特定のメトリックのデータ値がどれだけ珍しいか、または一般的かを推定するのに役立ちます。 これらの領域は、異常検出が正常と見なすことができるバンドを形成します。
そして、AIOps ソリューションはこれらのバンドを解釈します。 メトリック値が十分に長い間レア バンドにある場合に、異常が発生します。
Raw メトリックは、異常検出エンジンが存在する Data Science Platform (DSP)に発行されます。