落雷がクラウドに当たった場合、適切な監視は優れたディザスタリカバリを意味します

Kablooee! それは、30月XNUMX日にバージニア州北部のアマゾンウェブサービス(別名「クラウド」)アベイラビリティーゾーンのXNUMXつから聞こえた音でした(そして他の多くの人)(https://venturebeat.com/2012/06/29/amazon-outage-netflix-instagram-pinterest/, https://gigaom.com/cloud/some-of-amazon-web-services-are-down-again/)。 この音は、AmazonのデータセンターのXNUMXつが電力を失う原因となった天候主導のイベントでした。 また、データセンターの電源が切れると(そして、不特定の理由でUPSと発電機が作動しなくなった場合)どうなりますか? コオロギ。 コンピューターの電源が切れます。 ライトの点滅が止まります。 「サウンドオブサイレンス」(ただし、サイモンとガーファンクルがそれについて歌う方法ではありません)。

この時点で、データセンターの外部に監視があり、停止について通知を受けるか、遅ればせながら気づき、監視を外部にしないという決定を後悔しています。 しかし、電源が復旧した後はどうなりますか? さて、それは良い監視が再び作用するときです…

「クラウド」と「クラウドコンピューティング」を取り巻く誇大宣伝と同じくらい(そして正当な理由で、インフラストラクチャの様相を変えています)、「クラウド」は依然として、電力を必要とするデータセンター(どこか)にある多数のコンピューターです。 、冷却など。

インフラストラクチャにクラウドサービスを使用することの良い点のXNUMXつは、ハードウェアを監視する必要がほとんどなくなることです。これはすべて(おそらく)あなたのために行われます。 ファンの速度、システムボードの温度、電源、RAIDステータスなどについて心配する必要はありません。ただし、これにより、アプリケーションの「スタック」を適切かつ複雑に監視する必要性が軽減されるわけではありません。 これは、データベース、JVM統計、Apacheステータス、システムCPU、ディスクIOパフォーマンス、システムメモリ、アプリケーション応答時間、ロードバランサーの状態など、アプリケーションを動かす他のすべてです。これが組織の本質です。再起動後、知っておく必要のあることが機能しています。 また、クラウドにいるかどうかに関係なく、ある時点ですべてのシステムが再起動されます。 私はそれを保証するので、それを計画します。

では、環境が再起動するとどうなりますか? クラウドにいるかどうかは関係ありません。電源が復旧したら、ソフトウェアスタックのすべてのコンポーネントがバックアップされていることを確認する必要があります。 すべてのシステムにわたって。 うまくいけば、ディザスタリカバリ計画は、IRCチャットから引き離されるだけでよい単一の「ヒーロー」システム管理者を中心に展開されません。 MW3 キャンペーン、またはバー(XNUMXつのうち、最後が最も気になる)。  利用可能な管理者 監視システムを介して、スタックのどのコンポーネントが復旧して機能しているか、どのコンポーネントが機能していないかを識別できる必要があります。 すべてのマシンとサービスを一覧表示する監視ダッシュボードは目と耳です。それがないと、(いわば)盲目で愚かです。すべてのアラートが監視からクリアされると、サービスが完全に復元されたことを安心して確認できます。 適切な監視は、再起動後、最短時間ですべてのシステムが再び機能していることを確認するための最大の安全策です。

持ち帰り:適切な監視を展開します。 スタックのすべての側面が監視されていることを確認してください。 それらのすべて。 すべてのマシンが再起動されたとき(午前3時に)、スタックのすべての側面がバックアップされて機能していることをどのようにして知ることができますか? 良い監視。 適切な監視= LogicMonitor。  私たちをチェックしてください。 私たちは独自のドッグフードを食べており(これについては、「うるう秒」バグに関する次の記事を参照してください)、SaaSサービスです。つまり、すべてのシステムが再起動した場合、監視システムはその一部ではありません。 私たちはあなたがどんな停止からでもより速く回復するのを手伝うことができます、保証されます。