ネットワーク監視を強化する方法: 3 つの異常検出の使用例

警告と虫眼鏡を備えた画面上の異常検出

LM Envision プラットフォームでは、メトリクスの異常検出は機能名「」で参照されます。動的しきい値より一般的な機械学習用語「異常検出」ではなく、「」。動的なしきい値を使用すると、ユーザーは観察されたデータ ポイントに基づいてカスタム アラートしきい値を特定し、設定できます。

ルールベースのシステムのメトリックしきい値は、望ましい結果が明確な場合に効果的です。ただし、静的なしきい値では新たな問題を予測できない場合があります。たとえば、遠隔地にある IT センターの温度が予期せず上昇した場合などです。そこで、動的なしきい値や異常検出が重要な役割を果たします。

単一のサイズではすべてのしきい値に適合しない

多くのメトリックは、リソース タイプのすべてのインスタンスに対して定義するのが困難です。たとえば、リンク間の距離が異なるため、あるリンクでの良好な遅延または平均遅延を構成する値は、リンクごとに異なる場合があります。もう 1 つの例は CPU 使用率です。これは、異なるアプリケーションやサービスが実行されているため異なる場合があります。記憶も同様です。 

すべての問題を確認しようとしてしきい値の設定が低すぎる場合、これにより誤検知が発生します。誤警報を減らすためにしきい値を高く設定しすぎると、誤検知が発生する可能性もあります。各リソースのしきい値を最適化しようとすると、手動で時間がかかり、不正確になる可能性があります。 

しきい値レベルの自動化

アラームしきい値の設定を自動化する方法は数多く考えられますが、機械学習ベースの異常検出が多くのメトリクスにとって優れたオプションとして浮上しています。 

異常検出では、機械学習を使用してメトリクスの正常なパターンを検出し、自然に変動する可能性がある同じリソースのさまざまなインスタンスのさまざまなパターンを自動的に学習します。正常とは何かを学習した後、異常検出は、正常からの逸脱がどれだけ警告すべきかをアルゴリズム的に判断します。 LM Envision では、警告、エラー、および重大なアラートを、通常とは異なる変化に基づいて設定できます。

このアプローチを使用すると、運用チームはしきい値レベルを設定する必要がなく、さまざまなリソースの正常な状態に合わせてアラートが自動的に調整され、より良い洞察が得られ、作業が軽減されます。

使用例: 過熱するコンピューター室

IT リソースを人員のいない遠隔地に導入する場合、問題が発生する可能性があります。何かが壊れた場合、組織は問題を調査し、問題を解決または軽減するために誰かを派遣する必要があります。必要な部品を注文すると、診断と解決策の両方がさらに遅れる可能性があります。

多くのデバイスタイプは温度測定値を提供します。異常検出では、これらの測定値を使用して、1 つ以上のデバイスの温度が通常の範囲を超えているかどうかを判断できます。この情報により、遠隔地へのメンテナンス コールをスケジュールして、大規模な停止が発生する前にデバイスまたは部屋レベルで問題を事前に特定して解決できます。

ユースケース: 光レベルの劣化

光トランシーバーは、故障して機能停止やパフォーマンスの低下を引き起こす可能性があるコンポーネントの例です。最新のデバイスの多くでは、トランシーバーの光レベルを測定できます。異常検出を適用することで、運用チームはトランシーバーが故障しそうになったことを判断し、故障が発生する前に修正措置を講じることができます。

使用例: CPU 使用率が異常な負荷を知らせる

CPU メトリクスは、ネットワーク、ストレージ、サーバー デバイスで使用できます。すべての場合において、特定の「適切な」CPU 使用率レベルはありません。 「通常」レベルは、予想される負荷によって異なります。このようなユースケースには、静的なしきい値よりも異常検出の方が適しています。

静的しきい値と異常検出または動的しきい値の併用

メトリクスの異常検出は強力ですが、さらに優れている可能性があります。たとえば、指標レベルがゆっくり上昇する場合、機械学習は新しい「正常」を継続的に学習し、アラートはトリガーされません。異常検出と動的しきい値は、予期せぬ急速な変化に優れています。ただし、一部の顧客は、高いレベルに設定された静的しきい値を使用してそれらをバックアップしています。このように、静的しきい値を使用して高いメトリック レベルを捕捉することでノイズが低減され、誤検知が回避されます。また、動的しきい値を使用して、通常からの予期しない重大な逸脱も特定します。

異常検出と静的しきい値を組み合わせて効率を最大化する

2019 年に初めて導入された LM Envision のメトリクス異常検出は、より適切なアラートと変化率を実現するための季節パターンの検出など、進化しました。このブログでは、環境、パフォーマンス、トラフィックのメトリクスなど、一部の異常検出の用途についてのみ触れてきました。重大な誤検知または誤検知があり、すべてのインスタンスに対して単一のしきい値レベルがないメトリクスがある場合は常に、異常検出または動的しきい値によって時間を節約し、ノイズを減らすことができます。異常検出または動的しきい値と静的しきい値を組み合わせると、その有効性を高めることもできます。

異常検出に関するドキュメントを参照するための行動喚起