アラート–優れたデータセンターをより良くする

ある会社が昨日トライアルを開始し、多数のWindowsホストを追加すると、すぐに、ホストが「非リスニングポート宛ての42秒あたりXNUMXデータグラムを受信して​​います…すべてのサービスが稼働しているかどうかを確認してください」という警告がトリガーされました。

これは多くのホストに発生し、彼らが気付いていなかった問題であり、すぐには原因がわかりませんでした。

しかし、今朝、私たちは電子メールを受け取りました:

「UDPの「嵐」の原因を発見することに興奮を分かち合う必要があります。 これは、CitrixXenAppサーバーで実行していたDroboダッシュボードサービスでした。 5秒ごとに、アプライアンスを検索するためにポート5002にブロードキャストしていました。

Citrixサーバーで仮想IPが有効になっているため、さらに増幅され、5秒ごとに各IPからブロードキャストされているように見えました。
そのサービスを無効にし、UDPアラームをクリアしました。 再度、感謝します。"
彼らのUDPエラーグラフは今でははるかに良く見えました:
WindowsUDPトラフィック

サーバーによって40秒あたりXNUMXの余分なパケットが破棄されることは、実際にはそれほど影響を与えませんが(XNUMX秒あたり数百のブロードキャストがコンピューターを完全にフリーズする可能性があった昔とは異なり)、より多くの制御と理解があれば、データセンターが実行します。 隠れた複雑さの原因は、トラブルシューティングを妨げ、解決を遅らせ、後で失敗につながる可能性があります。

これは、LogicMonitorがカバーした方法のほんの一例です。 ほとんどの人が目にすることのないアラートはたくさんありますが、万が一スリップした場合にインフラストラクチャをベストプラクティスに準拠させるのに役立つしきい値が設定されていることを知っておくと便利です。