LogicMonitorのデータセンター監視の階層

そのため、キャッチフレーズについて尋ねられることがあります。 重要なことを監視する。

すべての監視が重要ではありませんか? ええ、そうです。 しかし、George Orwellをひどく言い換えると、すべての監視が重要ですが、一部の監視は他の監視よりも重要です。

監視が重要な理由は何ですか? それはどんな監視でも 停止を減らし、許容できないパフォーマンスの問題を減らし、またはこれらの問題と停止を解決するまでの時間を短縮します。

モニタリングはマズローの階層と同じように考えたいと思います。最初に満たす必要のある基本レベルがありますが、上に行くほど良いです。

  1. 監視の基本レベルは「私のホスト/サイトは生きていますか?」です。 誰もがこれを必要としています(しかし、誰もがそれを持っているわけではありません)。
  2. 「私のホストは近いうちに働き続けるつもりですか?」 これは、ディスクがいっぱいになった、または使用されているスペースとメモリを交換したことに関するアラートを意味します。 これは、一部の停止を減らすのに役立ちます。
  3. 「私のホストはどのように機能していますか?」 CPU負荷、スワッピング率など。 これらのメトリックに関するアラートは、対処可能なパフォーマンスの問題が差し迫っていることを警告します。
  4. 「アプリケーションのパフォーマンスはどうですか?」 表現型アプリケーションのパフォーマンスの測定。 これは、データベーストランザクション時間、Webサイトが要求を処理する時間、さらにはストレージアレイの場合は書き込み要求の待ち時間などです。 これは実際にはレベル3よりも基本的なレベルの監視です。レベル3のCPU負荷に関するアラートは、何も問題を示していない可能性があります。NetApp監視の場合、毎週のRAIDスクラブであり、レイテンシーを要求する可能性があります。本当に重要ですが、まったく影響を受けません。 ただし、アプリケーション固有のパフォーマンスメトリック(データベーストランザクション時間など)よりも汎用メトリック(CPUなど)を監視する方が簡単(かつ一般的)であるため、レベル3よりも高くランク付けしています。
  5. 「アプリケーションがそのまま実行されるのはなぜですか?」 これは、監視が本当に重要になり始めるところです。 収集および傾向分析するデータが多いほど、監視システムは問題を迅速に特定して解決するのに役立ちます。 (もちろん、グラフ化するデータが多いほど、監視システムはそのデータを意味のある方法で表示および整理する必要があります。システムの4つのグラフを表示するのは簡単ですが、120つのシステムにXNUMXの異なるグラフがある場合、そして相関関係を確認するには、それらをすばやくスキャンする必要があります。UIの課題はより興味深いものになります。)データベースでは、応答時間に関するアラートは明らかに重要ですが、原因はわかりません。 ただし、最後のソフトウェアリリース後にデータベースのシーケンシャルテーブルスキャンが急増したことを監視システムがすばやく表示できる場合、または同じ物理ディスクを共有する別のボリュームで異常な速度のIO操作が発生しているために、ストレージアレイボリュームの遅延が大きい場合は、次のようになります。あなたの問題を解決することができます ずっと より速く。
  6. 「どうすれば問題を解決できますか?」 これはピークレベルであり、監視システムはすべてのデータを表示するだけでなく、問題を解決する方法についての指示を示します。 LogicMonitorは、場合によってはこれを実行できます(たとえば、MySQLクエリキャッシュの拡大、縮小、または無効化を推奨するために、選択操作の数、クエリキャッシュヒット、およびメモリ不足によるキャッシュプルーンからのデータを使用します)。 しかし、これは、特に相互作用するシステム全体で、一般化するのがはるかに難しい問題です。 しかし、私たちは常に改善しています。

監視は階層のどのくらい上にありますか? システムのすべての側面に関する豊富なデータがなく、リアルタイムで傾向を把握して履歴を確認できる場合は、停止とパフォーマンスの問題が頻繁に発生し、長すぎることはほぼ間違いありません。