Henrico IT は LogicMonitor でアラート ノイズを 90% 削減

今すぐダウンロード
ヘンリコ郡ITのロゴ

会社概要

ヘンリコ郡

職員

5,100

業種

政府・公共機関

「明かりをつけ続ける」だけではありません

ヘンリコ郡の IT チームは、他の多くの政府の IT チームと同様に、電気をつけ続ける責任があります。 しかし、多くの IT チームが知っているように、スイッチを切り替えるほど簡単なことはめったにありません。 

ヘンリコ郡は、バージニア州中部にある大規模な地域で、人口は約 350,000 人です。 Henrico IT は、システム管理およびインフラストラクチャ グループを監督する IT マネージャーの Rosario Gambardella、ネットワーク インフラストラクチャ チームを監督する Robert Aungst、および以前のチームとデータベース グループを監督する Reggie Grubbs で構成されています。 彼らは共に、郡の図書館にサービスとしてのインフラストラクチャを提供し、緊急サービス (911 センター、警察、消防署) をサポートすることに加えて、郡の IT インフラストラクチャ全体の維持と監視を担当しています。 

このチームは、さまざまな SaaS サービス、760 以上の社内アプリケーション、40 つのデータ センター サイト、物理サーバーと仮想サーバーを備えたディザスター リカバリー サイト、Cisco および Meraki スイッチ、ルーター、ファイアウォールなどを備えた XNUMX を超えるデバイスを管理しています。 Henrico IT を含むほとんどの IT チームにとって、この多数のデバイスを監視する際に追跡する最も重要な指標は稼働時間です。 

ヘンリコ郡は、911 センター、警察署、消防署 (システムがダウンすると生死にかかわるサービス) をサポートしているため、一貫したアップタイムを維持することが重要です。 このチームは、消防署のすべてのネットワーク機器を監視するだけでなく、緊急対応と 911 センターが大きく依存している CAD (コンピュータ支援派遣) システムをサポートおよび監視しています。 計画外のダウンタイムは、必要なサービスを提供できなくなるだけでなく、潜在的な資本損失、セキュリティの脆弱性、顧客やユーザーの不満につながる可能性があります。 

重要な緊急サービスを含む郡のインフラストラクチャとサービスを適切にサポートするために、チームは IT 環境全体を 100% 可視化する必要がありました。 目標は、重大なステータスに達する前に問題を効果的に予測することでした。

しかし、その可視性を確保することは、必ずしも 911 番通報ほど簡単ではありませんでした。 

騒音の中で迷った

Aungst 氏と彼のチームの典型的な 9 日は、午前 XNUMX 時の会議から始まります。 彼はチームに連絡を取り、予備的な運用状況を確認し、すぐに対処する必要がある調整されたアラートに基づいて、その日のゲーム プランを作成します。 

以前の監視ソリューションである SolarWinds では、その午前 9 時の会議は思ったほどスムーズではありませんでした。 Aungst 氏とチームが毎日 5,000 件のアラートを選別していたとき、アラートを見て行動計画を立てることはほとんど不可能でした。 実際、Aungst の受信トレイには、SolarWinds が提供する柔軟性とカスタマイズの欠如により、週に 25,000 件のアラートが殺到していました。 

「ノイズが多く、信頼性が低く、[そして] アラートは実用的ではありませんでした」と Grubbs 氏は言います。 SolarWinds のサポート チームがオンサイトに来て、ヘンリコ郡が必要としているものを提供できるようにプラットフォームを調整したときでさえ、「まだ満足のいくものではありませんでした」。 

Henrico IT は、これらの大規模なアラート ストームの中で最も重要なアラートを明らかにするのに苦労したことに加えて、モニタリング プラットフォームをホストするために Grubbs が「強力な」サーバーと呼ぶものをオンプレミスで実行しなければならないことによる高いオーバーヘッドに苦しんでいました。 また、監視をインフラストラクチャ、データベース管理、アプリケーション、開発グループなどのビジネス ユニットに委任するのにも苦労していました。 これらのユニットのビジネス オーナーは、アプリケーションが実行されるインフラストラクチャが正しく効率的に動作していることを確認すると同時に、公開されている Web サービスがオンラインでアクセス可能な状態に保たれるようにします。 アプリケーションの約 40% が社内で開発されているため、アプリケーションおよび開発チームと協力して監視作業を行うことが不可欠です。 

郡の IT チーム、特に Gambardella 氏が監督するチームは、それぞれのビジネス ユニットにとって最も有益で実行可能な高レベルの監視の洞察をビジネス オーナーに提供する必要がありました。 SolarWinds のアラート構造では、実用的な情報を提供することは非常に困難で、多くの場合事後対応でした。 常にチームを圧倒し、全体的な運用効率に影響を与えるアラート ノイズだけが発生しました。 

ギャップとその影響の監視 

チームは、サポートしている消防署にセルラー バックアップ ネットワークを設置し、デュアル リンクと複数経路のアプローチでダウンタイムを最小限に抑えました。 以前は、SolarWinds には、XNUMX つのシステムまたはパスのみがいつダウンしたかを示す、微妙で詳細なビューがありませんでした。 代わりに、チームはルーター全体がダウンしたときにのみアラートを受けました。  

経路が XNUMX つだけダウンしたことを検出できないということは、チームは、消防署がデフォルトで有線ネットワークではなくセルラー ネットワークを使用する時期を把握できなかったことを意味します。 セルラー ネットワーク上での実行は、有線ネットワーク上にとどまるよりもはるかに高価であるため、この監視ギャップはすぐにコストが高くなる可能性があります。 特に高額な携帯電話料金が予想外に発生した後、チームは、この大規模な監視のギャップをカバーするために必要な強化された可視性や詳細なアラートがないことに気付きました. 

仕事を効果的に行うために必要な可視性を得るために、Henrico IT は新しい監視プラットフォーム、できればより優れた可視性、調整されたアラート、使いやすい API、カスタマイズ機能、および実用的な洞察を備えたものを探す時が来ました。 コスト削減は一番のチェリーでしょう。 

LogicMonitorに入る 

以前の監視ソリューションに対する業界のセキュリティ上の懸念が大きく報道された後、Grubbs 氏は、彼と彼のチームにとって機能する新しい監視プラットフォームを探す準備ができました。 

「要するに、私たちが望むように機能させることができるか、以前と比べて現在のアラートを信頼できるかということです。 つまり、そこに入場する価値があるということです」と Grubbs 氏は言います。 

LogicMonitor の SaaS ベースのエージェントレス ソリューション、使いやすさ、インテリジェントなアラート、およびカスタマイズ機能は、ヘンリコ郡のニーズに一致しました。 

Aungst 氏とチームは、アラート ノイズが推定 90% 減少したことを確認しました。これは、5,000 日あたり約 XNUMX つまたは XNUMX つのアラートであり、以前に経験した XNUMX から XNUMX 日あたりのアラートが大幅に減少しました。 

「私にとって、これは無関係なアラートではありません。 これが最大の利点です。アクション可能なものだけにアラートを送信できるのは素晴らしいことです。 それ以上のものを求めることはできません」と Aungst 氏は言います。 「それに加えて、EIGRP ネイバーのようなさまざまな DataSource? それはSolarWindsがしなかったことです。」 

デュアル リンクを使用して消防署の EIGRP ネイバーと IGRP を監視する LogicMonitor の機能により、EIGRP ネイバーはステーションがセルラー ネットワーク上にある場合にのみダウンするため、チームは衝撃的なセルラー料金を回避できます。 

「これにより、有線ネットワークであるプライマリ Comcast ネットワークのトラブルシューティングを行う必要があるという手がかりが得られます。 有線ネットワークへの復旧が早ければ早いほど、携帯電話に費やすお金が減るため、コスト削減にもなります」と Aungst 氏は述べています。 

アラート ストームの減少は、より積極的で予測的な監視を意味しました。 Aungst 氏は、独自の環境内で重要な情報のアラートを調整する機能を備えているため、彼のチームは過去 XNUMX か月間で、災害が発生する恐れがある前に SFP を交換したり、機器を再起動したりして、事前に停止を防止した事例を XNUMX ~ XNUMX 回確認したと説明しました。 

ビジネス ユニットが情報疲労に悩まされることなく、クロス コラボレーションと運用効率も Henrico IT にとって大きな成果でした。 ビジネス ユニットにはすぐに対応できるアラートがあり、問題や機能停止を最初に IT マネージャーに報告する必要はなくなりました。 

「たとえば、SFP が不良で、帯域幅の半分が失われたために、特定のリンクがダウンしているというアラートをすでに受け取っています。 エンドユーザーが私たちに報告するのではなく、私たちはそれらのチケットを作成し、それに基づいて行動します。 それははるかに積極的であり、私たちをより良く見せ、私たちが何をしているのかを知っています. 

自動化ステーション

LogicMonitor の自動化およびカスタマイズ機能は、Henrico の IT チームが検索した際にも際立っており、非常に有益であることが証明されました。 

Henrico IT は、SolarWinds と MRTG という XNUMX つの既存の監視ツールを LogicMonitor に置き換えました。 以前は、チームはインターフェイスの統計に MRTG を使用していましたが、これは時間のかかる手動プロセスであり、すべてのインターフェイスを個別にセットアップする必要がありました。これは LogicMonitor がデフォルトで行います。 

ヘンリコ郡の図書館は、ネットワークのアップリンクを常に可視化して、使用している帯域幅をいつでも確認できることを特に気に入っています。一方、IT チームは、これらのビューを設定するために必要な手動構成を行わなくても、他のタスクに時間を費やすことができます。 

LogicMonitor の API は、Aungst が LogicMonitor のドキュメントに基づいて独自の Python スクリプトを作成するためのユーザー フレンドリーな方法など、主要なカスタマイズ機能も提供しました。 また、各スイッチ ポートをクリックして目的のビューを取得する代わりに、個々のスイッチ ポートの監視を自動化できるようになりました。 各スタックには 48 つのスイッチが含まれ、各スイッチには XNUMX のポートが含まれているため、Aungst 氏は多くの時間を節約できます。 

Gambardella はまた、さまざまなアプリケーション チームに連絡を取り、アプリケーションの特定の機能を LogicMonitor と統合することを検討していました。 

「私はコードの専門家ではないので、API トークンを渡してコードに組み込み、必要なものを確認するのは簡単です。 それはすべて非常に簡単です」とガンバルデラは言いました。 

LogicMonitor の DataSources のカスタマイズは Henrico IT のチームにとって大きな成果であり、プラットフォームを自由に変更できるようになりました。 チームは、既存の DataSource を微調整して、見たいものを正確に表示できるようになりました。 また、必要な変更を実装するための長いサポート プロセスを待つことなく、非常にユーザー フレンドリーな方法でこれらの調整を行うことができます。 

「とても機敏です。 特定の DataSources が特定のリソースに含まれていなかったり、すぐに何かが発生したりするシナリオがありましたが、そのデータを監視用に簡単に追加して、探している追加情報を取得することができました。」言った。 

運用効率と生産性の向上

ヘンリコ郡の IT インフラストラクチャ マネージャーは、プロアクティブなアラートによって複数のワークフロー全体で大幅な改善が見られ、チームは停止の可能性が生じる前に主要な問題に先んじて対処できるようになりました。 また、以前は対処不可能なアラートの嵐が殺到していたビジネス ユニットに、より多くの監視を直接委任できるようになりました。 ビジネス オーナーが LogicMonitor のアラート構造と機能を信頼するようになった今、ビジネスのそれぞれの領域に対するより多くの監視、洞察、およびアラートに対する要求が増加し、組織内の全体的な運用効率が向上しています。 

「それは私たちにとって新しいことです。 私たちが SolarWinds を持っていたとき、実際に手を差し伸べる人は誰もいませんでした」と Grubbs 氏は説明します。 「彼らは、LogicMonitor の機能があり、信頼性が高く、ノイズが多いだけではないことを知ったので、これらのアラートを直接受け取ることをより受け入れやすくなっていると思います。」 

「ミッション運用に関する限り、それは力の倍増でした。 システム管理者やネットワーク管理者が監督するだけでなく、監視と報告を委任したビジネス ユニットにとっては、基本的にネットワークに広がっています」と Gambardella 氏は説明します。 

Henrico IT はまた、オンラインになった新しい消防署や新しい郡のイベント センターなど、新しい場所でのデバイス オンボーディング プロセスの改善も経験しています。 チームはすでに消防署に合わせて調整する必要があるものをすべて持っているため、新しい消防署がオンラインになったときに、指定されたグループの下に簡単に移動して監視対象を見つけることができるため、セットアップは迅速かつ効率的です。 また、アクティブ ディスカバリは、特に vCenter インスタンスを使用して、新しい環境を迅速に立ち上げるために非常に有益です。 

最後に、過度のアラート疲労と重要なアラートが見過ごされる時代は終わりました。 今、アングストは彼の新しい朝の日課を楽しみにしています。 

「それが私の一日の始まりです。私が最初に目にするのは LogicMonitor です」と彼は言いました。

Henrico IT は、郡とサポート サービスの維持に常に専念します。 しかし今では、LogicMonitor の自動化、実用的なアラート、強化された可視性、および使いやすさにより、Aungst、Gambardella、Grubbs、およびそのチームは、午前 9 時の会議が始まると、ゲーム プランがあることを知って、少し楽に眠ることができます。

コピーをダウンロード