ベストプラクティス

可視性のギャップが IT 運用を妨げている理由

可視性のギャップが業務を妨げている理由

MTTR の短縮が重要なのはなぜですか?

ビジネスに応じて、MTTR は平均修復時間または平均復旧時間を表しますが、解決、解決、または復元を意味する場合もあります。 どのように定義しても、基本的な測定値は同じです。何かがダウンしてから、元に戻って完全に機能するまでにかかる時間です。 これには、問題の発見から修正までのすべてが含まれます。 ITOps チームにとって、MTTR を最小限に抑えることは非常に重要です。 そして、MTTR を下げる最大の障害は、異なるソースからの情報を関連付けることです。 理解できないものは修正できません。 

適切な監視ソリューションは、スタック全体からの情報を XNUMX つの一元化されたビューに表示して、問題を解決する際の効率を高めます。問題の場所を見つけるためにツールとソリューションの間を行き来する必要はありません。 運用チームは、IT 環境全体の接続性を理解し、すべてのステップで当て推量を排除しなければ、MTTR を短縮することはできません。 現代の複雑な IT 環境では、障害が発生した理由を正確に把握することは困難です。そのため、サービスの可用性を最大化するために、学習を迅速に特定、修正、活用することができます。

最新のインフラストラクチャ スタックには、大量のデータを生成する多数のリソース、サーバー、およびサービスが含まれています。 問題が発生すると、さまざまな重大度レベルで複数のソースから報告され、特定、トラブルシューティング、および解決のための重要なデータが欠落していることがよくあります。 サービス可用性の向上と効率的な応答時間の実現を目指す ITOps チームとして、管理する複雑なネットワークとクラウド環境全体で、このような多様なデータをシームレスに関連付ける方法を見つける必要があります。

今日のモニタリングは、MTTR の目標を達成するのに十分ですか?

従来の IT モニタリングだけでは、運用チームとビジネス全体の MTTR が長く、コストがかかり、MTTR が高くなります。 ITIM (IT インフラストラクチャ監視) ツールは問題の影響と重大度を評価するのに役立ちますが、監視だけでは問題を迅速に解決するにはもはや不十分です。 ダッシュボードとアラートを監視するだけでは、複雑なハイブリッド IT 環境全体でインシデントの診断から解決に迅速に移行するための十分な情報が得られません。 運用チームには、ノイズを分析し、IT 全体でデータを接続して調査とトラブルシューティングを行う場所を知るための適切なソリューションが備わっていません。 代わりに、ツールを切り替えたり、サイロ化されたデータ ストリームをふるいにかけたりして、接続を見つけようとしています。 

IT メトリクスとアラートは、問題が発生していることを認識するだけであり、必ずしもどこでどのように発生するとは限りません。 多くの場合、アラートは手動の静的しきい値に基づいて重大度を判断し、主要な問題への十分な関連性を提供しません。 IT メトリクスとシグナルだけでは、運用チームは非効率的な手動プロセスに依存して IT ヘルスのギャップを埋め、やみくもにトラブルシューティングを行って問題を解決することに時間を浪費しています。

今日の運用チームに影響を与える可能性のある失敗の例を次に示します。 最も重要なデータベース サーバーの XNUMX つが Kafka からのメッセージの消費を停止し、顧客ベース全体でサービスが中断されたらどうなりますか? メトリクスとアラートは問題が発生したことを示していますが、運用チームは影響を受けた顧客の数や根本原因を定量化できません。 顧客が影響を受けており、影響が不明であるため推測できないため、チームはサーバーを調べて状況を手動でトラブルシューティングするのに何時間も費やすことができません。 解決策はありますが、IT 監視の可視性のギャップをコンテキスト豊富なデータ ソースであるログで埋める必要があります。

実用的なコンテキスト データで MTTR を短縮する

MTTR を短縮するにはコンテキストが重要です。 チームは、IT の問題をより迅速にトラブルシューティングし、全体的な MTTR を短縮するために、単一のソリューションで適切な情報を適切なタイミングで取得する必要があります。 IT モニタリングは環境の正常性に関する情報を提供しますが、デバイスの IT データをログに記録すると、環境内で発生する特定のイベントが生成され、記録されます。 ログは、ログが作成された時点で何が起こっていたかを説明するのに役立ちます。 デバイスやクラウド サービスのログ データのない IT 監視では、複雑なハイブリッド IT 環境全体でデータを接続してトラブルシューティングの根本原因を特定するには不十分です。

最新の IT 環境に関するコンテキスト豊富な情報をできるだけ多く統合することで、メトリクスとアラートの影響が強化され、オペレーションにインテリジェンスが提供されます。  

最新の監視ソリューションは、アプリケーションまたは IT インフラストラクチャ デバイス (syslog、Windows イベント ログ、クラウド サービス ログなど) からのハイブリッドおよびマルチクラウド ソリューションへの可視性との統合をサポートします。 

  • Syslog は、エンタープライズ環境で最も一般的なログ データ ソースの XNUMX つであり、ネットワーク パフォーマンスの最適化に役立ちます。
  • Windows イベント ログは、Windows サーバーと VM を中心に構築されたシステムの貴重なデータの差し迫ったギャップを埋めるのに役立ちます 
  • AWS、Azure、または GCP サービスからログを収集すると、インフラストラクチャの正常性に影響を与える可能性のあるクラウド サービス全体で発生している特定のイベントに関する洞察が得られます
  • アプリケーション ログ、およびその他すべての種類のカスタム ログは、記録可能なデータのギャップを埋めて、IT メトリックと共に何が起こっているかをよりよく理解します。

コンテキスト ログ データは、Ops チームがアラートに従って、デバイス、クラウド サービス、およびアプリケーション全体で問題の検出を増やし、問題をより迅速に解決し、行き詰まりの調査がないことを確認するのに役立ちます。 

MTTR を大幅に短縮するには、オンプレミスとクラウドの両方から運用チームのログ データを一元化し、メトリックとログを関連付け、問題の根本原因を理解するための新しいプラクティスを作成する、最新の監視ソリューションが必要です。 このログ データを既存の監視対象リソースと一緒に表示することで、問題が発生している理由を示す重要な IT ヘルス メトリックを使用して、システムの問題点を知ることができます。

ログデータは、最新の IT 環境全体で MTTR を検出して削減するのに役立ちます 

ログとメトリクスが統合されたシステムにより、運用チームはインフラストラクチャ エコシステム全体を完全に可視化し、ログ データを分析するためのコンテキストと相関関係が得られるため、効率と解決策を向上させることができます。 ログのコンパイルと ITインフラデータ XNUMX つの監視ソリューションでコンテキストの切り替えをなくすことができるため、運用チームはビジネス目標を達成して加速し、イノベーションに集中できます。

迅速なトラブルシューティングのために、インフラストラクチャ メトリクスに加えて、運用チームにインサイトとコンテキストを提供することが重要です。 たとえば、IT パフォーマンス メトリクス ダッシュボードを使用すると、Ops ユーザーは、メモリや CPU 使用率の低下、ページ読み込み時間、ディスク使用率の増加などの主要な健全性指標のスパイクを分析し、特定のデバイスのログ データにジャンプしてエラー メッセージを読み取り、ルートを特定できます。より速く引き起こします。 

結果? 運用チームは、問題が発生したときにすぐにログ データを利用できるため、防御の最前線としてより強力になり、最終的には MTTR を下げる ログデータと IT メトリックを比較することによって。 運用チームは、さらに特定して調査を続行するためにどのログが重要であるかを確認できます。  

つまり、ログ データにアクセスすると、各デバイスのタイムスタンプ付きの詳細な情報を使用して、問題が発生している正確な場所に関するガイダンスが提供されるため、問題をより迅速に検出して解決することができます。

問題を完全に修正するには、ログ データが必要です

複雑な環境を制御するためのツールやソリューションは数多くありますが、従来の IT 監視ではもはや十分ではありません。IT は、ますます困難なビジネス継続性、MTTR、およびパフォーマンス要件の状況に直面しています。 組織は、現代の IT 環境の複雑さ、多数のデバイスとアプリケーション、クロスサイト オペレーションおよびディザスタ リカバリ要件に対処する必要があります。 運用チームは、特定の機能に関連するログ データ情報に一元的にアクセスする必要があります。 

統合されたログとメトリクスにより、運用チームはコンテキストと相関関係を使用してインフラストラクチャ エコシステム全体を完全に可視化し、ログ データを分析して実際に効率を高め、MTTR を短縮できます。 将来の計画を立てる際には、単一の監視ソリューション内で既存の盲点を取り除き、ワークフローを合理化して、IT チームが効率的に作業できるようにすることが重要です。監視ソリューションとログ ソリューションを回転椅子で切り替える必要はありません。  

IT 運用の力を真に解き放ち、MTTR を大幅に短縮するためのソリューションは、ますます複雑化する IT 環境によって生成される多様で複雑なログ データを収集して対応できるログ データ インフラストラクチャへの長期的な投資です。 何を求めている?

著者
LogicMonitorチーム
免責事項: このブログで述べられている見解は著者の見解であり、LogicMonitor またはその関連会社の見解を必ずしも反映するものではありません。

私たちのブログを購読する

このような記事をあなたの受信箱に直接お届けします