IPMIモニタリングの価値

その多くの監視方法の中で、LogicMonitorはIPMIをサポートしています。 多くの人はIPMIに気づいておらず、必要だとは思っていません。 私は確かにデータセンターの不必要な複雑さを回避することを提唱していますが、ベルトとサスペンダーの両方を着用するのが良い場合もあります。

私たち自身のデータセンターのXNUMXつからの実際の例は、ちょうど今朝、ブログに掲載する飼料を探していたときに便利に発生しました。

以下のようないくつかの電子メールアラートを受け取りました。

ホスト: console.lab2.sjc.logicmonitor。コム
イベントソース:IPMISELログ-BMCバッテリー0x11障害6f [01 ff ff]レベル:エラー検出日:2012-03-23 08:45:52 PDT

監視ポータルで問題のホストを見ると、次のイベントが繰り返されていることがわかりました。

ipmiアラート

また、デバイス自体(Dell DRACカード)にログインすると、直接ログに記録されたイベントが表示されます。

DRACログ

この特定のデバイスは、VMWare ESXiを実行しているDellサーバーのDRACでした。もちろん、これはLogicMonitorによっても監視されていました。

ただし、ESXホストのハードウェア監視では、vCenterまたはLogicMonitorを介して問題がまったく報告されていませんでした。ただし、この特定のコンポーネントは、ESXiAPIによって監視および報告されていました。

私の推測では、バッテリーの問題は非常に一時的なものであり、DRACログから5秒以内にクリアされたことがわかります。そのため、ESXハードウェア監視ではバッテリーの問題は検出されませんでした。

したがって、この場合、IPMI監視と定期的なESXハードウェア監視を行うことで、この問題をより早く特定することができました。 これで、デルでケースを開き、問題を解決することができます。 VMを他のESXサーバーに移行し、影響を回避できます。 ESXソフトウェアは、ストレージコントローラーのバッテリーの問題が十分に深刻になると、その問題に気付く可能性があります。その時点でLogicMonitorが警告を発しますが、ESXホストの可用性とパフォーマンスに影響を与える可能性のある問題を認識したいと思います。出来るだけ早く。 (ストレージコントローラーのバッテリーに障害が発生した場合、NVRAMキャッシュを使用して書き込みを高速化する代わりに、コントローラーがほぼ確実にライトスルーモードに切り替わるため、パフォーマンスに影響を与える可能性があります。)

IPMI(またはLogicMonitorの他の広範な監視方法)がパフォーマンスと可用性の問題を回避するのに役立つサーバーはいくつありますか?

アップデート: VCenterは、約20時間後にようやく問題に気づきました。 さらに、Vcenterは、「VMware Rollup Health State」のエラーとしてのみ問題を報告しますが、問題の詳細は報告しません。