データポイントの動的しきい値の有効化

最終更新日: 24 年 2021 月 XNUMX 日

機能の可用性:動的しきい値機能は、LogicMonitorEnterpriseのユーザーが利用できます。

概要

動的しきい値は、特定のデータポイントの予想されるデータ範囲の境界を表します。 とは異なり 静的データポイントのしきい値 手動で割り当てられる動的しきい値は、異常検出アルゴリズムによって計算され、データポイントの最近の履歴値によって継続的にトレーニングされます。

データポイントに対して動的しきい値が有効になっている場合、これらのしきい値を超えるとアラートが動的に生成されます。 つまり、異常値が検出されるとアラートが生成されます。

動的しきい値が有効になっている場合、アルゴリズムで決定された予想範囲(青色の網掛け)から外れた値について自動的に警告されます。

動的しきい値は、次のタイプのデータパターンを検出します。

  • 異常
  • 変化率
  • 季節性(毎日/毎週)の傾向

動的しきい値(およびその結果のアラート)は、データポイントの履歴に基づいて自動的かつアルゴリズムで決定されるため、静的しきい値を特定するのが難しいデータポイント(接続数や遅延などを監視する場合など)に最適です。または、許容可能なデータポイント値が環境全体で必ずしも均一であるとは限らない場合。

たとえば、一部のサーバーが90%のCPUで意図的に高度に使用されるように、インフラストラクチャを最適化した組織について考えてみます。 この使用率は、LogicMonitorのデフォルトの静的CPUしきい値に違反します。これは、通常、最大80%(またはそれ以上)のCPUをアラート状態と見なします。 組織は、不要なアラートノイズを回避するために、使用率の高いサーバーに設定されている静的しきい値をカスタマイズするために時間をかけることができます。あるいは、CPUメトリックの動的しきい値をグローバルに有効にすることもできます。 動的しきい値を有効にすると、異常な値が検出された場合にのみアラートが発生し、サーバー間で異なる消費パターンを共存させることができます。

このような状況では、返されるメトリックが異常であるかどうかを判断する方が意味があり、動的しきい値には非常に大きな価値があります。 それらはより正確なアラートをトリガーするだけでなく、多くの場合、問題はより早く発見されます。 さらに、動的しきい値では手動の事前構成も継続的な調整も必要ないため、管理作業が大幅に削減されます。

動的しきい値のトレーニング

動的しきい値には、ポーリング間隔が5分以下のデータデータに対して最低15時間のトレーニングデータが必要です。 より多くのデータが収集されると、アルゴリズムは継続的に改良され、最大15日間の最近の履歴データを使用して、予想されるデータ範囲の計算が通知されます。

毎日および毎週の傾向も、動的なしきい値の計算に考慮されます。 たとえば、月曜日から金曜日までトラフィック量が多いが、土曜日と日曜日にトラフィック量が大幅に減少しているロードバランサーでは、平日と週末の間でそれに応じて調整されるデータ範囲が予想されます。 同様に、動的しきい値では、夕方と比較して朝の大量のトラフィックも考慮されます。 毎日の傾向を検出するには、最低2.5。9日間のトレーニングデータが必要であり、毎週の傾向を検出するには、最低XNUMX日間のデータが必要です。

動的しきい値の有効化

前のセクションで説明したように、動的しきい値の操作には最低5時間のデータが必要です。 つまり、ポーリング間隔が運用可能になる前に5分ごとよりも頻度が低い場合は、この機能を15時間以上有効にする必要があります。 この起動期間中、アラートは静的データポイントのしきい値に基づいて通常どおりルーティングされ続けます(静的しきい値が設定されていると想定)。

静的データポイントしきい値と同様に、動的しきい値を有効にできるレベルは複数あります。

  • グローバルレベル。 グローバルデータソースレベルでデータポイントに対して有効にされた動的しきい値は、データソースが適用されるすべてのインスタンス(すべてのリソースにわたって)にカスケードされます。 このレベルは、(1)個々のインスタンスのパフォーマンスパターンが異なる場合(たとえば、最適なCPU消費率が異なるサーバーは、特定の消費パターンを動的に調整するしきい値の恩恵を受ける可能性がある)、または(2)データポイントのパフォーマンスが重要である場合に適しています。ただし、すべてのインスタンスに意味のある妥当な静的しきい値はありません(たとえば、接続または要求の数は、負荷に応じてインスタンスごとに異なると予想されます)。
  • リソースグループレベル。 リソースグループレベルでデータポイントに対して有効になっている動的しきい値は、リソースグループ(およびそのサブグループ)内のすべてのリソースのすべてのインスタンスにカスケードされます。
  • インスタンスレベル。 インスタンスレベルでデータポイントに対して有効になっている動的しきい値は、データソースが適用される単一リソース上の単一インスタンス、単一リソース上の複数インスタンス、または単一リソース上のすべてのインスタンスに適用するように構成できます。 このレベルは、(1)同じデータソースが適用される他のインスタンスと同じパターンに従わない単一のリソース上の2つ以上のインスタンスのノイズを減らすことを検討している場合に適しています(たとえば、XNUMXつある場合など)常により多くのMySQLテーブルを開いている外れ値データベース)または(XNUMX)インフラストラクチャのサブセットで動的しきい値を開始点として実験します。

動的しきい値は、グローバルデータソースレベルからカスケードダウンします。 ただし、リソースツリーのより深いレベルで他の動的しきい値構成が検出された場合、それらのより深い構成は、より高いレベルで見つかった構成をオーバーライドします。 たとえば、リソースグループレベルで設定された動的しきい値は、グローバルデータソースレベルで設定されたしきい値を上書きします。 同様に、インスタンスレベルで設定された動的しきい値は、リソースグループレベルで設定されたしきい値を上書きします。

次の表は、データポイントを評価するときに使用されるしきい値構成のセットを示しています。 表を解釈するときは、次の条件が当てはまると想定してください。

  • 評価されるデータポイントはデータソースDに属します
  • 評価されるデータポイントはインスタンスAにあります
  • インスタンスAは、リソースグループBおよびCのメンバーであるリソースに存在します
  • リソースグループBとCは、リソースツリーの兄弟です。 リソースグループBは、リソースグループCの前に作成されました
さまざまなレベルに存在するしきい値構成 インスタンスAのデータポイントを優先する構成
インスタンスA リソースグループB リソースグループC データソースD
いいえ いいえ いいえ 有り グローバルデータソースD定義で設定された構成が継承され、適用されます。
いいえ いいえ 有り 有り リソースグループCに設定された構成が継承され、適用されます。
いいえ 有り いいえ 有り リソースグループBに設定された構成が継承され、適用されます。
いいえ 有り 有り 有り リソースグループBに設定された構成が継承され、適用されます。 (リソースがXNUMXつの兄弟リソースグループに属している場合、最初に作成されたのはリソースグループ(この場合はリソースグループB)であり、その構成が優先されます。)
有り 有り 有り 有り インスタンスAに設定された構成が適用されます。

注: ポータルごとに許可される動的しきい値の数は、許可される監視対象リソースの総数ごとに100つに制限されています。 この制限は、リソースごとのレベルではなく、アカウントレベルで適用される集計制限です。 たとえば、アカウントで最大800個の合計リソース(監視対象のすべてのデバイス、クラウドとKubernetesのリソース、およびサービスを含む)の監視が許可されている場合、ポータル全体で合計XNUMX個の動的しきい値が許可され、適切と思われる方法で適用されます。 この合計は、動的しきい値が潜在的に評価される回数を表します。つまり、動的しきい値がXNUMX回だけ構成された場合でも、複数のインスタンスに継承される場合、各インスタンスが合計に寄与します。 現在の使用状況と制限を確認するには、次の場所に移動してください 設定| 口座情報.

グローバルレベルでの有効化

原則として、インフラストラクチャ内のインスタンスの大部分が恩恵を受ける場合は、動的しきい値をグローバルに有効にすることをお勧めします。 動的しきい値のグローバルレベルの有効化は、データソース定義で行われます。

グローバルレベルでデータポイントの動的しきい値を有効にするには:

  1. 次の場所に移動して、データソース定義を開きます。 設定| データソース またはをクリックして グローバル定義の編集 リソースツリーからデータソースまたはインスタンスデータを表示するときに使用できるハイパーリンク。

    注: Exchangeページから利用できるデータソースエディタは、現在、動的しきい値設定をサポートしていません。

  2. データソース定義の編集ビューから、データソースに関連付けられているすべてのデータポイントを表示および編集できます。 動的しきい値を有効にするデータポイントを見つけ、その管理アイコンをクリックして、[データポイントの編集]ダイアログから、 動的しきい値 右のスライダー。
    データソースレベルで動的しきい値を有効にする

    注: 同じデータポイントに対して静的なしきい値が設定されている場合もあります。 静的しきい値と動的しきい値は、で説明されているように、互いに組み合わせて使用​​できます。 静的しきい値と動的しきい値の両方をデータポイントに割り当てる.

  3. アラートの重大度レベルごとに、動的しきい値でアラートをトリガーするか、アラートを抑制するか、またはその両方を選択できます。
    • チェック アラートをトリガーする データポイント値が予想範囲外になったときに動的しきい値を有効にしてアラートをトリガーするオプション。
    • チェック バンド内の通知を抑制する 静的なしきい値によってトリガーされるアラートのアラート通知ルーティングを自動的に抑制するオプション。ただし、予想される範囲の範囲外にはなりません。 アラート通知の抑制動作は、アラートの重大度レベルに静的なしきい値も設定されている場合にのみ発生します。 アラート通知ルーティング抑制の詳細については、を参照してください。 静的しきい値と動的しきい値の両方をデータポイントに割り当てる このサポート記事のセクション。
  4. 動的しきい値を使用してアラートをトリガーしている場合は、 高度な設定 選択した各重大度レベルの現在のアラート条件を表示するハイパーリンク。

    デフォルトでは、LogicMonitorは重大度ごとに適切な範囲感度を自動決定しようとしますが、次の高度な構成を調整できます。

    • 動的しきい値に違反する必要がある、連続するポーリング間隔中に返される値のパーセンテージ。 たとえば、100%が設定されている場合、アラートがトリガーされるためには、返されるすべての値が異常である必要があります。
    • 動的しきい値を設定する必要がある通常のパフォーマンスからの帯域係数の数。 これは、概念的には通常からの標準偏差の倍数に似ています。
    • 動的しきい値の上限、下限、またはその両方からの逸脱でアラートが発生するかどうか。
    • 作成セッションプロセスで 最大値/最小値 動的しきい値の場合。 設定した場合、アラートは、メトリック値が定義されたしきい値範囲を上回っている/下回っている場合にのみ生成されます。 これは、メトリック値が異常に変化したものの、まだ想定範囲内にあるリソースの異常アラートを受信しないようにするのに役立ちます。
    • 上記の条件が満たされなければならない期間。 この期間は、指定された数のポーリング間隔(アラートトリガー間隔と呼ばれます)に、データソースに割り当てられたポーリング間隔( すべて収集 フィールド)。 この設定は、静的しきい値に設定されたアラートトリガー間隔を上書きしますが、同じように動作します。 見る データポイントの概要 アラートトリガー間隔の動作、および静的しきい値と動的しきい値の両方で使用されるアラートクリア間隔の詳細については、
  5. Save データポイント設定を更新して終了します。
  6. 必ずクリックしてください Save もう一度データソースを更新します。

インスタンスまたはリソースグループレベルでの有効化

インスタンスまたはリソースグループレベルで動的しきい値を有効にするには、[リソース]ページで行います。 次に強調表示するように、単一のリソース上の単一のインスタンス、単一のリソース上の複数のインスタンス、またはリソースグループ内のすべてのインスタンスに対して動的しきい値を有効にするかどうかに応じて、さまざまなエントリポイントがあります。

リソースグループまたはインスタンスレベルでデータポイントの動的しきい値を有効にするには:

  1. リソースページを開きます。
  2. 次の動的しきい値を有効にするには:
    • 単一インスタンスのデータソース(したがって単一のインスタンス)で、リソースツリーのデータソースに移動し、[アラートチューニング]タブを開きます。
    • マルチインスタンスデータソースの単一インスタンス。リソースツリーでインスタンス自体に直接移動し、[アラートチューニング]タブを開きます。
    • マルチインスタンスデータソースのすべてのインスタンスで、リソースツリーのデータソースに移動し、[アラートチューニング]タブを開きます。
    • インスタンスグループ内のすべてのインスタンスで、[リソース]ツリーのインスタンスグループに移動し、[アラートチューニング]タブを開きます。
    • リソースグループ内のすべてのインスタンスで、[リソース]ツリーのリソースグループに移動し、[アラートチューニング]タブを開き、グループ内のXNUMXつ以上のリソースに適用されるすべてのデータソースのリストから、データソースを見つけて展開します。データポイントは属します。
  3. 動的しきい値を有効にするデータポイントを見つけて、[動的しきい値]列にある鉛筆アイコンをクリックします。
  4. これにより、[しきい値]ダイアログが開きます。 デフォルトでは、インスタンスは親に割り当てられた動的しきい値設定を継承するように設定されています(たとえば、グローバルデータソースからの設定は自動的に継承されます)。 これらを現在のレベルで上書きするには、ドロップダウンメニューから[カスタム]を選択します。
    インスタンスレベルで動的しきい値を有効にする

    注: 同じデータポイントに対して静的なしきい値が設定されている場合もあります。 静的しきい値と動的しきい値は、で説明されているように、互いに組み合わせて使用​​できます。 静的しきい値と動的しきい値の両方をデータポイントに割り当てる.

  5. アラートの重大度レベルごとに、動的しきい値でアラートをトリガーするか、アラートを抑制するか、またはその両方を選択できます。
    • チェック アラートをトリガーする データポイント値が予想範囲外になったときに動的しきい値を有効にしてアラートをトリガーするオプション。
    • チェック バンド内の通知を抑制する 静的なしきい値によってトリガーされるアラートのアラート通知ルーティングを自動的に抑制するオプション。ただし、予想される範囲の範囲外にはなりません。 アラート通知の抑制動作は、アラートの重大度レベルに静的なしきい値も設定されている場合にのみ発生します。 アラート通知ルーティング抑制の詳細については、を参照してください。 静的しきい値と動的しきい値の両方をデータポイントに割り当てる このサポート記事のセクション。
  6. 動的しきい値を使用してアラートをトリガーしている場合は、 高度な設定 選択した各重大度レベルの現在のアラート条件を表示するハイパーリンク。 デフォルトでは、LogicMonitorは重大度ごとに適切な範囲感度を自動決定しようとしますが、次の高度な構成を調整できます。
    • 動的しきい値に違反する必要がある、連続するポーリング間隔中に返される値のパーセンテージ。 たとえば、100%が設定されている場合、アラートがトリガーされるためには、返されるすべての値が異常である必要があります。
    • 動的しきい値を設定する必要がある通常のパフォーマンスからの帯域係数の数。 これは、概念的には通常からの標準偏差の倍数に似ています。
    • 動的しきい値の上限、下限、またはその両方からの逸脱でアラートが発生するかどうか。
    • 作成セッションプロセスで 最大値/最小値 動的しきい値の場合。 設定した場合、アラートは、メトリック値が定義されたしきい値範囲を上回っている/下回っている場合にのみ生成されます。 これは、メトリック値が異常に変化したものの、まだ想定範囲内にあるリソースの異常アラートを受信しないようにするのに役立ちます。
    • 上記の条件が満たされなければならない期間。 この期間は、指定された数のポーリング間隔(アラートトリガー間隔と呼ばれます)に、データソースに割り当てられたポーリング間隔( すべて収集 フィールド)。 この設定は、静的しきい値に設定されたアラートトリガー間隔を上書きしますが、同じように動作します。 見る データポイントの概要 アラートトリガー間隔の動作、および静的しきい値と動的しきい値の両方で使用されるアラートクリア間隔の詳細については、
  7. 単一のインスタンスに対してのみ動的しきい値を構成している場合は、動的しきい値構成のすぐ下に異常検出グラフが表示されます。 このグラフは、有効になっている最高のアラート重大度に対して適切な予想範囲(動的しきい値)をデータポイントの最近のパフォーマンスとともに表示することにより、将来のアラートをトリガーする値のアイデアを提供することを目的としています。

    注: 異常検出グラフは、集約された(リサンプリングされた)データに基づいているため、グラフ座標と予想範囲バンドのレンダリングは、アラートの生成に使用される予想範囲とわずかに異なる場合があります。 グラフを有限の画面サイズに合わせるには、より多くのリサンプリングが必要になるため、この視覚的な不一致は、グラフの時間範囲が大きくなるにつれて大きくなる可能性があります。 このため、必要なリサンプリングの量を最小限に抑えるために、可能な場合はより短い時間範囲を設定することをお勧めします。 異常検出グラフの詳細については、を参照してください。 異常検出の視覚化.

  8. 保存して閉じる.

静的しきい値と動的しきい値の両方をデータポイントに割り当てる

動的しきい値(およびその結果のアラート)は、データポイントの履歴に基づいて自動的かつアルゴリズム的に決定されます。 動的しきい値が有効になっているデータポイントに対して、静的しきい値を追加で確立する必要はありません。

ただし、単一のデータポイントに静的しきい値と動的しきい値の両方を割り当てることは可能であり、適切なユースケースでは望ましいことです。 データポイントに両方のタイプのしきい値が設定されている場合、アラート動作はより柔軟になり、データポイントごとに次の動作のいずれかまたは両方をサポートします。

  • アラートの自動生成 値が、データポイントに設定されている予想される警告、エラー、および/または重大なアラートの重大度の範囲外にある場合。
  • アラート通知ルーティングの自動抑制 トリガー値が同じアラート重大度に割り当てられた動的しきい値の予想範囲内にある場合、データポイントに設定された静的しきい値によってトリガーされたアラートの場合。 たとえば、静的なしきい値がアラートの重大度レベルの警告をトリガーしたが、同じアラートの重大度レベルの動的なしきい値が値が異常ではないことを示している場合(つまり、計算された予想範囲から外れていない場合)、アラートがトリガーされました静的しきい値によって、その後はルーティングされません。 アラート通知が動的しきい値に基づいてルーティングまたは抑制されているかどうかに関係なく、発信元のアラート自体は常にLogicMonitorインターフェイス内に表示されます。

これらのXNUMXセットの動作(独立して、または相互に連携して機能することができます)の結果として、動的しきい値を使用して次のことができます。

  • 静的しきい値が適切に調整されていない場合のアラートノイズを減らし、静的しきい値に捕らえられない問題についても警告します。 このユースケースでは、静的しきい値を設定し、動的しきい値を次のように構成する必要があります。 両言語で アラートを抑制してトリガーします。

    動作の両方のセット(トリガーと抑制)を最適化するための優れた戦略は、データポイントの警告やエラーの重大度レベルのアラートに対して動的なしきい値を有効にし、重大な重大度レベルのアラートに対してのみ静的なしきい値を有効にすることです。 これにより、静的しきい値が重要ではないアラートに対して適切に調整されていない場合、アラートノイズが減少し、動的しきい値が静的しきい値では捕捉されない問題を捕捉します。 また、重大な状態を表す値の場合、静的しきい値は間違いなくアラートになります。

  • 静的しきい値が適切に調整されていない(または簡単に調整できない)場合にのみ、アラートノイズを減らします。 このユースケースでは、静的しきい値を設定し、動的しきい値を構成してアラートを抑制する必要があります。

    これは、抑制とアラート生成のユースケースが異なる場合に役立ちます。 たとえば、非常に明確な良い範囲と悪い範囲があるパーセンテージベースのメトリックは、異常と見なされるアラートの生成よりも、期待される範囲外でない場合の抑制の方がメリットがあります。

注: 同じデータポイントに対して静的しきい値と動的しきい値の両方が有効になっていて、アラートが両方によってトリガーされる場合、最も重大度の高いアラートが常に優先されます。 これらのアラートが同じ重大度でトリガーされた場合、静的しきい値によってトリガーされたアラートが常に優先されます。

静的しきい値の詳細については、を参照してください。 データポイントの静的しきい値の調整.

動的しきい値のアラートの表示

動的しきい値によって生成されたアラート(または動的しきい値によって通知の配信が抑制されたアラート)は、通常どおりLogicMonitorインターフェイスに表示されます。

動的しきい値によって生成されたアラートは、アラートの説明とグラフに偏差の詳細(予想範囲と予想範囲からの偏差)を提供します。どちらも[概要]タブにあります。

動的しきい値によってトリガーされたアラートの表示
概要グラフには、データポイント値が下がると予想される範囲(青で網掛け)と、現在の時間枠を正確に24時間、30週間、またはXNUMX日前に収集された値と比較するオフセットをプロットする機能が含まれます。 予想範囲の計算方法またはオフセットの使用の詳細については、を参照してください。 異常検出の視覚化

異常フィルター

[アラート]ページまたは[リソース]ページの[アラート]タブからアラートを表示する場合(またはアラートリストウィジェットまたはアラートレポートを構成する場合)、異常フィルターを使用して、動的しきい値によってトリガーされたアラートのみにアラート表示を制限できます。 アラートフィルタの詳細については、を参照してください。 アラートページからのアラートの管理.

注: デフォルトでは、アラートテーブルにはクリアされたアラートは表示されません。 動的しきい値によってトリガーされたすべてのアラートの履歴アカウントを表示するには、異常フィルターと組み合わせてクリアされたフィルターを有効にします。

アラートしきい値レポート

Alerts Thresholdsレポートは、LogicMonitorプラットフォーム全体で設定されたデータポイントのしきい値を可視化します。 オーバーライドされたしきい値の詳細や、アラートが無効になっているリソースの強調表示など、複数のリソースで有効なしきい値についてレポートします。 このレポートの詳細については、を参照してください。 アラートしきい値レポート.

注: カスタム動的しきい値が設定されているポータル全体のリソース/インスタンスを確認する場合は、次のコマンドを使用してこのレポートを実行します。 カスタムしきい値のみを表示 オプションがチェックされています。

ベストプラクティス

次に、動的しきい値を有効にするときに留意すべきいくつかのベストプラクティスを示します。

  • ステータスデータポイント(たとえば、アップまたはダウンステータスを示すデータポイント)または離散値を表すデータポイント(たとえば、HTTPエラーコード)の動的しきい値を有効にしないでください。
  • メトリックの特定の良い範囲と悪い範囲が常に当てはまることが一般的にわかっている場合(たとえば、90%を超えると常に悪い、90%未満が常に良い)、静的なしきい値を使用します。 動的しきい値は、インスタンス全体の一般的な範囲を特定することが不可能または困難な場合に最も役立ちます(たとえば、10MBを超えるとインスタンスAの場合は不適切ですが、インスタンスBの場合は許容されます)。
  • 次の場合は、動的しきい値をグローバルに(データソース定義で)設定します。
    • 個々のインスタンスには異なるパフォーマンスパターンがあります(たとえば、すべて異なる量のCPUを消費するサーバーは、特定の消費パターンのそれぞれに動的に調整されるしきい値の恩恵を受ける可能性があります)。
    • データポイントのパフォーマンスは重要であり、意味のある妥当な静的しきい値はありません(たとえば、データポイントについて報告される接続または要求の数は、負荷に応じてインスタンスごとに異なります)。
  • 次の場合は、インスタンスレベルで動的しきい値を設定します。
    • 目標は、同じデータソースの他のインスタンスと同じパターンに従わない外れ値インスタンスのノイズを減らすことです(たとえば、常に他のデータベースよりも多くのMySQLテーブルを開いているXNUMXつのデータベース)
    • 目標は、開始するインフラストラクチャの小さなサブセットで動的しきい値を試すことです。
  • 動的しきい値を静的しきい値と組み合わせて使用​​する場合は、可能であれば、静的しきい値を構成するときに「値」比較方法(データポイント値をしきい値と比較する)を選択します。 場合によっては、競合を回避するために動的しきい値が使用されているときに、UIによってデルタなどの一部の演算子が選択されないことがあります。
  • 静的しきい値と動的しきい値の両方を組み合わせて活用するための優れた戦略は、データポイントの警告やエラー重大度レベルのアラートに対して動的しきい値を有効にし、重大な重大度レベルのアラートに対してのみ静的しきい値を有効にすることです。 これにより、静的しきい値が重要ではないアラートに対して適切に調整されていない場合、アラートノイズが減少し、動的しきい値が静的しきい値では捕捉されない問題を捕捉します。 また、重大な状態を表す値の場合、静的しきい値は間違いなくアラートになります。
  • 動的しきい値を有効にするデータポイントを決定するときは、アラートトレンドレポートを生成するか、アラートページをフィルタリングして、環境のどの領域で最もノイズが発生しているかを確認することを検討してください。
記事上で