根本原因分析のための機械学習の使用

根本原因分析のための機械学習の使用

セキュリティ違反から完全なシステム停止まで、インシデントが発生してネットワークまたはサービスが影響を受ける場合、それは通常、一連のイベントの結果です。 あるサービスの問題が別のサービスに影響を与えているなど、最終的には、可用性が低下し、カスタマーエクスペリエンスが損なわれるという問題に直面しています。 

重大なインシデントが発生した場合、チームの迅速な対応は、根本原因の特定とサービスの復元に集中することです。 停止の一連のイベントには通常、技術的な問題とプロセスの問題の組み合わせが含まれるため、根本的な原因を特定し、問題が最初に発生した理由を理解するのは難しい場合があります。

理由を理解する 

多くの場合、根本原因の特定は複雑になる可能性があります。 問題が発生した理由を理解するには、根本的な原因を明らかにする必要があります。 

多くの場合、根本的な原因を特定するために必要なことは、理解することです 何が変わったのか。 メトリックまたはログを手動で検索して何が変更されたかを特定すると、貴重な時間が何時間もかかる可能性があるため、効率的です。 根本原因分析(RCA) プロセスを実行し、適切な分析ツールを導入することが重要です。 効率的でインテリジェントなRCAプロセスは、問題をより迅速に特定するのに役立つだけでなく、継続的な改善のための是正措置計画を立てるのにも役立ちます。

あなたがそれを監視することができないならば、あなたはそれを分析することができません

システムが高度に分散している場合、すべてのシステムからデータを取り込んで監視できますか? 多くのネットワーク監視および根本原因分析ツール(設計または構成による)は、監視するデータソースとデータタイプが制限されているため、効率的な問題解決とインシデントの実際の原因の特定に役立つツールとは言えません。

実際、従来のツールの制限的な性質は、平均して、一般的な組織が利用可能なデータの1%未満を分析することを意味します。

根本原因分析は、すべて原因と結果に関するものです。 それがもたらした影響を理解するには、何が変わったかを理解する必要があります。 つまり、ソースに関係なく、すべてのデータを取り込むことができるソリューションを使用することを意味します。 

根本原因分析における機械学習の力

LMログ ログ分析機能。インフラストラクチャ内のすべてのシステムのデータを分析して、その通常の動作を学習し、分析する着信イベントに基づいてイベント構造のデータベースを構築します。

アルゴリズムは、その構造を学習データベースと比較することにより、新しい個々のイベントの関連性を判断できます。 イベントは、学習データベース内のイベントと一致しない場合、異常として分類されます。 異常なイベントを特定することにより、根本的な変化と根本原因がより理解しやすくなり、見つけやすくなります。 

受信するデータの量が多いほど、迅速で正しい結論を導き出し、より深いインテリジェンスを得ることが容易になります。 たとえば、ソフトウェアのバグがどのように進化するかを考えてみましょう。 ソフトウェアコンポーネントが不安定で予測不可能になると、新しいデータポイントがこのシナリオの起源と進化を説明します。 しかし、それはどこから始まったのでしょうか? どのエンティティで? どのエンティティを除外できますか?

あなたの応答を制御する

完璧なシステムはありません。 問題が発生します。 あなたはそれを制御することはできません。 しかし、あなたがコントロールできるのは、影響がエスカレートする可能性のあるイベントにどれだけ早く対応して修正するかです。 今後の機能 LMログ 継続することができます インフラストラクチャをシームレスに監視します チームが問題を早期に検出し、根本原因分析の取り組みを改善し、稼働時間、安定性、およびセキュリティを向上できるようにしながら、より効果的に。 また、リソースを解放し、リスクとコストの両方を削減します。

詳細については、LMログのページをご覧ください。

ゴランサンダール

ログインテリジェンスエンジニアリングディレクター

Goran Sandahlは、LogicMonitorの従業員です。

LogicBlogを購読して、LogicMonitorの最新の開発に関する最新情報を入手し、ITエキスパートとエンジニアのワールドクラスのチーム、およびITプロフェッショナルが愛する製品。

LogicBlogの他の記事

アンペアロボット 影

お店の話をしましょう。

STARTED GET