核兵器施設よりも優れた監視を行う方法

時には、最も難しいことは技術的ではありません。 それらは、さまざまな責任を持つさまざまなグループを持つ大規模な組織で働くという政治の結果です。 時々、この責任の断片化により、82歳の祖母がおそらく超安全な核兵器施設の壁まで歩いて行くことができます。 そして、この事例から学んだ教訓は、IT監視にも同じように当てはまります。

ニューヨーカー ストーリーを印刷 核兵器施設に侵入し、単にワイヤーを切断し、オープングラウンドを歩き、核兵器保管施設に到達するまでフェンスをさらに切断し、ハンマーでそこに連れて行った平和主義者について。

記事の抜粋は次のとおりです。

Y-12の侵入の夜、警備員が侵入者を見つけることができるカメラは使用できませんでした。 …保護地域を囲むフェンスのカメラの約12分の12は、その夜は機能していませんでした。 XNUMX台のカメラは、柵を登っている人を撮影しました。 しかし、画像を見たかもしれない警備員は、画面を見ずに別の警備員と話していました。 現場のカメラとモーションディテクターは何ヶ月も壊れていました。 セキュリティ機器は、Y-XNUMXを管理する民間請負業者であるBabcock&Wilcoxによって保守され、機器に依存した警官はWackenhutで働いていました。 両社間のコミュニケーション不足は、何かを修正する必要があるときはいつでも長い遅延の原因となりました。 そして、誰がそれを修正したのかは必ずしも明確ではありませんでした。 Plowsharesの活動家たちは警鐘を鳴らしました。 しかし、毎月何百もの誤警報がY-XNUMXで発生したため、警備員はそれを無視しました。 ウラン貯蔵施設内に駐留している警官は、壁が叩かれているのを聞いた。 しかし、彼らは音がメンテナンスをしている労働者によって作られていると仮定しました。

ここでの重要なポイントは、 IT監視次のとおりです。

  • 何百もの誤ったアラーム、実際のアラームが無視される原因
  • 重要なイベントについてのアラートはなく、代わりに人に依存します(人がフェンスを登っている様子を示すカメラは画像のみを表示し、アラートは表示しませんでした。CPUが100%に急上昇していることを示すグラフに似ていますが、アラートは表示されません。あなたがそれを逃すのを見て)
  • 仕事に影響を与えるサービスが事前に伝えられるという期待はありません(「壁にぶつかる?誰かが再び仕事をしているに違いない」)。 監視の世界では、この壁はスケジュールされたダウンタイムに配置されている必要があります。 (現実の世界では、これは伝えられるべきでした。)
  • 監視を使用するものとそれを維持するものの間の分割により、多くの誤ったアラートを受け入れる企業文化が生まれました。

したがって、これらの問題のいくつかは、使用するだけで技術的に簡単に対処できます。 アラート管理のベストプラクティス:

  • 計画された作業の前にダウンタイムをスケジュールする
  • 適切なアラートを適切な人に適切なタイミングで送信します。 (たとえば、カメラダウンアラートをメンテナンスチームに直接送信します)
  • プロセスを実装して 定期的に アラートの上位のソースを確認し、しきい値を調整します。 根本的な問題を修正します。 またはアラートを無効にして、誤ったアラートを排除し、すべてのアラートに意味があることを確認します。

ただし、これらは技術的には簡単ですが、より難しい問題は多くの場合、責任の分割です。 監視グループは繰り返しアラートを指摘できますが、問題を修正する場合、または問題が誤ったアラートであるかどうかを判断する場合は、他のチーム(DBAがキャッシュサイズを増やしてキャッシュのスラッシングを防ぐなど)や他のグループの支援が必要です。監視に投資されていない–その後、条件は変更されないまま継続できます。

モニタリングに投資する人々にどのように影響を与えますか? 核兵器施設は請負業者を統合し、監視に対応する人々と監視とセンサーを維持する人々は同じ会社でした。 ITの世界では、監視の精度を制御できる人に監視の​​苦痛を感じさせるというアプローチがよく使用されます。 DBキャッシュを調整できる人に、DBキャッシュに関するアラートを受信して​​もらいます。 同様に、アプリケーションのインストルメンテーションが不十分なために監視で問題を事前に検出できなかった場合は、停止の呼び出しを開発者に直接依頼してください。 (午前2時の電話は、問題を修正するように人々を動機付ける傾向がありますが、これは、電話を受けることを前提としています…)

もう84つのアプローチは、アラート統計(アラートのトリガー、アラートの期間、アラートの重大度など)を管理者に表示することです。 監視がデータベース構成を制御できない別のチームであるが、管理者はアラートのXNUMX%がDB関連であるとシステムが報告していることを認識している場合、適切なアクションを適切なチームに向けることができます。

これらのアプローチはどちらも、実際には文化的な問題の表れです。企業文化は、監視が重要であることに賛成するようなものでなければなりません。 このことから、すべてのアラートが重要であることが自然にわかります–実際のアラートとして、または迅速に修正する必要のある誤ったアラートとして。 「監視優先」の文化の採用は、経営陣から義務付けられた場合のトップダウンと、チームが監視を徹底的に採用した場合のボトムアップの両方で成功し、他のチームは、開発のスループットと可用性の利点と向上を確認しています。結果。

あなたの会社がモニタリングファーストの文化を採用しているのを見たことがある場合、または現在それを持っている場合は、それがどのように起こったかについてのあなたの考えを教えてください。