停止がない場合でも監視が必要な理由

たまに起こることですが、ある会社の技術者がLogicMonitorを試し、それを気に入って、経営陣からの抵抗に直面しました。 この場合、プッシュバックは「停止は発生していません。 なぜ監視が必要なのですか?」

彼らはすでに監視システムを持っています–システムのユーザー(顧客であろうと内部スタッフであろうと)。ユーザーが最初に停止を報告しても問題がなければ、おそらく監視は必要ありません。 それが本当なら、おそらくアプリケーションは実際には問題ではなく、アプリケーションを実行してサーバーリソースを消費することすらすべきではありません。 しかし、彼らがそれを実行している場合、一部のユーザーはそれに依存することになります。 停止が発生した場合、これらのユーザーは、サービスがダウンしているために顧客にならずに会社に収益をもたらすか、または内部スタッフが仕事からブロックされ、莫大なオーバーヘッドコストがかかります。 (XNUMX時間ブロックされたXNUMX人の従業員は、多くの無駄な給与と失われた活動になります)。

適切な監視を行わずに停止を回避する方法はいくつかあります。

  • 誰かに頻繁にチェックしてもらうことで、成長のボトルネックにぶつかることがなく、できるだけ早く失敗に気づきます
  • 冗長性が高い
  • 幸運でギャンブルをしている

最初のケースでは、彼らは監視を行っています–彼らは手動でそれを行っているので、彼らはそれをそれと呼んでいません。 人々にチェックを行わせている場合、それはスケーリングされません。 彼らがまったく成長している場合、すぐに次のサーバーまたはネットワークデバイスまたはアプリケーションのコストは5000ドルにならず、サービスのレベルと手動チェックを維持するために人員を増やす必要があるため、年間100,000万ドルのコストがかかります。 (言うまでもなく、システムごとに数百のデータポイントをチェックする自動システムよりもはるかに表面的に行われています。)

冗長性がある場合は、より多くのものを、さらに頻繁にチェックする必要があります。 冗長ルーター(または電源、サーバー、またはレイドシステム)が引き継いで別のルーター(電源|サーバー|ディスク)の障害を隠すことができますが、それはあなたが持っていたことを知ることは重要になる可能性があることを意味します障害が発生し、現在冗長性はありません。 これは、別の障害が発生した場合、つまり、ハードな停止が発生した場合を意味します。 さらに悪いことに、運用手順はおそらく冗長性があることを前提としており、サービスに影響を与える即時の問題に対処するためのセットアップやスタッフがいないため、停止の原因となる冗長システムの障害をタイムリーに処理しないでください。

すべてのデータセンターデバイスの故障率がゼロを大幅に上回っていることを考えると、幸運に依存している場合(一部のドライブでは、8年以上経過したハードドライブでは年間> 3%、 でログイン)、そしてすべてのコンポーネントが時間の経過とともに平均に回帰すること–そしてそれらの失敗の可能性は現在増加しています。 (過去5回の黒の結果が次の結果に影響を与えないルーレットとは異なり、過去5年間の失敗は、短期的な失敗の可能性に影響を与えます。)それは私がビジネスにお金をかけるギャンブルではありません。

停止は簡単で明白なケースです。 ワークロードが実質的に変わらない限り、パフォーマンスの問題が発生します。 なし パフォーマンス監視、彼らは制限がどこにあるかについて推測するでしょう。 (実際にはストレージIO容量の制限であったのに、CPUリソースの更新に数万を費やそうとしているケースが見られました。)

そして、部分的な障害があるという難しい問題があります。 たとえば、私の前世の直接の例:稼働中のロードバランサーで、トラフィックをほぼ正しく処理していますが、内部リソースの制限に達したため、大量のUDPトラフィックをドロップしています。 そのため、Webページが提供されている間、ジオロケーションデータ(UDPを介して伝送される)が機能せず、それらのWebページのコンテンツが正しくないか欠落していました。 (そして、多くの収益を逃しました。)監視により、消費されたリソースについてアラートがトリガーされ、構成をワークロードに合わせて調整することができました。 監視しなければ、どこから探し始めるかを特定するだけでも数時間かかる可能性があります。 監視とは、10分間の影響と、XNUMX日間のイベントの違いを意味します。

そして、よりソフトな面では、ネットワーキングとシステム管理の分野で優秀な従業員を維持したい場合、彼らは彼らに力を与え、彼らにツールを与える必要があります。 システムの責任者は、夜でもチェックすることなく、物事が機能していることを保証する必要があります。 そして、問題がある場合、彼らはそれを迅速に解決するための情報を持っている必要があります。 午前2時でも。 そして、顧客、ユーザー、または上司が自分たちの管理下にない問題について不平を言っていることに目覚めないでください。 それは良いスタッフを失う良い方法です。

そう。 サーバー、インフラストラクチャ、およびアプリケーションの優れた監視システムに投資する価値はありますか? 従業員、ユーザー、および収益を維持したい場合のみ。