Forrester Total Economic Impact™の調査によると、Edwin AIは複合組織において313%の投資対効果(ROI)を実現したことが判明しました。

続きを読む
AIOpsと自動化

一緒に強くなる: (Agentic) AIOps と可観測性が IT レジリエンスの鍵

AIOps と可観測性を組み合わせることで、テレメトリから明確な分析情報、自動修正、エージェントによる可観測性による IT の回復力強化を実現し、より効果的に機能します。
所要時間
2026 年 2 月 4 日
マーゴ・ポダ

クイックダウンロード

可観測性により何が起こっているかがわかり、エージェント AIOps がその可視性をアクションに変換します。

  • ログ、メトリクス、トレースは症状を表面化させますが、チームは依然として、シグナルを相関させ、根本原因を特定し、何を最初に修正するかを決定するのに苦労しています。

  • 従来の AIOps ではそのノイズは軽減されますが、依然として人間の判断に依存します。

  • Agentic AIOps は、テレメトリをコンテキストで強化し、自己修復ワークフローを調整します。

  • 可観測性とエージェント AIOps を組み合わせることで、大規模な回復力のある IT 運用が可能になります。

可観測性により IT チームは最新のシステムを可視化できますが、可視性だけでは運用の回復力を維持するのに十分ではありません。

環境がより分散化され複雑になるにつれて、IT チームはこれまで以上に多くのテレメトリを収集しますが、根本原因を特定し、インシデントの優先順位を付け、問題が発生したときに迅速に対応することが依然として困難になっています。

ここで問題となるのは、何が起こっているかを知ることと、それに対して何をすべきかを知ることの間にギャップがあることです。

そして、まさにそれが AIOps が役立つところです。 

AIOps を可観測性と組み合わせることで、チームは信号を相関させ、ノイズを削減し、生のテレメトリを実用的な洞察に変換できるため、インシデントをより迅速に解決し、停止を防ぐことができます。

この記事では、AIOps による可観測性の仕組み、従来のアプローチが不十分な理由、エージェント AIOps によって IT 運用が事後対応型の消火活動からプロアクティブでインテリジェントな管理へとどのように移行されるかについて説明します。

可観測性とは何ですか?

可観測性 システムの内部状態を分析することで理解する能力です。 テレメトリー それが生成するものなので、チームは何が起こっているのか、なぜ起こっているのかを説明できます。

現代の IT 環境は分散型で動的であり、常に変化しているため、静的しきい値または分離された監視データのみを使用して確実にトラブルシューティングを行うことは、観測可能性によって不可能になります。

可観測性の3つの柱

可観測性は、次の 3 つのコア信号タイプに基づいて構築されます。

  • ログ
  • メトリック
  • 形跡

それぞれの柱は異なる質問に答えます。そのため、1つの柱だけに頼ると、盲点が生じる可能性があります。例えば、メトリクスでレイテンシの急上昇が明らかになったとしても、ログやトレースがなければ、障害のあるコンポーネントを特定したり、速度低下の原因を解明したりすることはできません。

可観測性だけでは不十分:ツールの拡散とデータ過負荷の課題

可観測性によりシステムの動作を可視化できますが、信号を自動的に解釈したり、根本原因を特定したり、問題発生時にどのようなアクションを実行するか決定したりすることはできません。

複雑で分散した環境では、可視性とアクションのギャップにより、インシデントが停滞し、アラートが山積みになり、チームが事後対応的な消火活動に頼らざるを得なくなります。

その理由はこちらです: 

データが増えても明確さが増すわけではない

IT環境が複雑化するにつれて可観測性データの量も同様に増加しています。組織は、イベントを追跡するログ、パフォーマンスを測定するメトリクス、サービスの依存関係をマッピングするトレースなど、膨大な量のデータを収集しています。チームの会話やインシデントレポートといった非構造化データの量も言うまでもありません。

大量のデータを解釈するための適切なインテリジェンスがなければ、これらのデータ ポイントは洞察というよりノイズとなり、次のような問題が発生します。

  • アラート疲労: あらゆる小さな変動がアラートをトリガーすると、IT チームの感度が鈍くなり、実際の問題を見逃すリスクが高まります。
  • データサイロ: 観測ツールは独立して動作することが多く、異なるシステム間でログ、メトリック、トレースなどを相関させることが困難です。コンテキストがなければ、トラブルシューティングは推測ゲームになってしまいます。
  • 限定的 根本原因分析: オブザーバビリティによって点と点がつながり、インシデントの根本原因が正確に特定されることはほとんどありません。チームは真の問題に対処するのではなく、症状の調査に追われることになります。
  • 反応的な問題解決: 従来の可観測性では、何が起こっているかはチームに伝えられますが、インシデントの背後にある「理由」はほとんど提供されず、チームはリアクティブのサイクルに陥ってしまいます。

問題は、これらの無限のデータ ストリームを、意味のある実用的な洞察に変換することです。 

アプリケーションのデプロイメントが開始され、数分後にダッシュボードに、レイテンシの増加、エラー率の上昇、複数のサービスにわたる CPU 飽和状態が表示されるとします。 

この場合、ログには散在した警告が表示され、トレースには遅いリクエストが示されますが、複数の依存関係にわたります。

可観測性により、これらすべてが可視化されます。 

ただし、最初の変更を特定したり、サービス間で症状を自動的に相関させたり、どのアラートが真の根本原因を表しているかを判断したりすることはできません。 

その結果、エンジニアは手動で点と点をつなぎ、最初に何を調査するかを決定し、修復方法を決定する必要があり、そのすべてはユーザーがすでに影響を受けている状態で行われます。

これは可視性と対応のギャップであり、大規模環境では非常によく見られます。チームは症状を完全に把握しているにもかかわらず、シグナルの相関関係を調べ、実際に障害を引き起こした問題を特定するのに時間を浪費しています。

では、生の可視性を超えて、真のインテリジェンスに到達するにはどうすればよいでしょうか? 可観測性と AIOps を組み合わせます。 

従来のAIOps:アクションを伴わない洞察

IT運用のための人工知能(AIOps) アルゴリズムと機械学習を運用データに適用し、ITチームがイベントを相関させることができる。 異常を検出する、リアルタイムでより迅速にインシデントを特定します。

その主な役割は、ノイズや人間が見逃す可能性のある表面パターンを減らし、複雑な環境での調査を加速することです。

従来の AIOps システムは通常、次のコア機能をサポートしています。

  • イベントの相関関係: システム全体の関連するアラートをグループ化して、ノイズを削減し、注意が必要なインシデントを強調表示します。
  • 異常検出: 静的しきい値では見逃されがちなメトリック、ログ、トレースの異常な動作を識別するアルゴリズムを使用します。
  • 高度な分析と予測: 履歴データとリアルタイム データを分析して、潜在的な障害が拡大する前に予測します。
  • 自動修復: 特定の条件が満たされた場合に、サービスの再起動やリソースのスケーリングなどの事前定義されたルールベースのアクションを実行します。

しかし、従来の AIOps はここで限界に達します。

異常やパターンを表面化することはできますが、意思決定には依然として事前定義されたルールと人間の介入に依存しています。IT チームはアラートと推奨事項を受け取りますが、どのようなアクションを実行し、どのように問題を解決するかを決定する必要があり、ボトルネックが発生し、修正が遅れます。

エージェント AIOps: データ過負荷を行動に変える

エージェントAIOps 問題が深刻化する前に、リアルタイムで適応、学習、行動し、解決することで、AIOps を次のレベルに引き上げます。

静的なルールベースのシステムとは異なり、エージェントAIOpsは generative AI より深い洞察とエージェントAIのために 自律的な意思決定単にデータを収集して分析するだけでなく、積極的に応答を調整し、生の信号を正確なアクションに変換することで、ダウンタイムを短縮し、パフォーマンスを最適化し、IT チームの負担を軽減します。

自動修復とは

Agentic AIOps は、AI を活用した意思決定を使用して、リアルタイムの信号とコンテキストに基づいて自己修復アクションをトリガーします。

一般的な修復プレイブックには次のようなものがあります。

  1. 障害が発生したサービスの再起動または分離: メモリ リークやプロセスのハングによりアプリケーションのパフォーマンスが低下すると、システムは影響を受けるサービスを再起動するか、異常なインスタンスをローテーションから削除します。
  2. 問題のあるデプロイメントのロールバック: リリース直後にエラーが急増した場合、エージェント AIOps は変更イベントを相関させ、影響が広がる前にロールバックを開始します。
  3. リソースを自動的にスケーリングする: 予期しないトラフィックの急増が発生した場合、システムは追加の容量をプロビジョニングして、手動による介入なしにパフォーマンスを維持します。
  4. ノイズの多いホストや不安定なホストを隔離する: 単一のノードで過度のエラーや遅延が発生すると、マイクロサービス全体に障害が連鎖的に発生するのを防ぐためにそのノードは分離されます。
  5. インシデントを適切なチームに即座にルーティング: 所有権とサービス コンテキストを使用して、関連する診断情報がすでに添付された状態で、インシデントが適切なオンコール チームにエスカレーションされます。

エージェント型AIOpsがIT運用を改善する仕組み

日常の運用において、エージェント AIOps の影響が最も顕著に現れるのは次の領域です。

  • ノイズ減少: エージェントAIOpsは重要でない信号をフィルタリングし、 アラート量を80%削減 またはそれ以上なので、チームは誤報を追いかけるのではなく、本当の脅威に集中できます。
  • 根本原因分析: システム間の信号を相関させて問題を正確に特定し、手動によるトラブルシューティングを最小限に抑えます。
  • 積極的な対応: Agentic AIOpsは、リアルタイムのシグナルと過去の傾向を分析することで潜在的な障害を予測します。そして、ユーザーが問題に気付く前に、リソースのスケーリングからパッチの適用まで、予防措置を推奨したり、自動的に修正を実行したりします。
  • 包括的なデータ統合: 従来の AIOps はログ、メトリック、トレースに限定されていますが、エージェント AIOps は、インシデント レポート、コラボレーション ツールの会話 (Slack、Teams、ServiceNow)、過去の解決など、より広範なデータセットを接続します。このクロスドメイン インテリジェンスにより、IT チームはより正確でコンテキストを考慮した意思決定を行うことができます。

エージェント型AIOpsと可観測性の組み合わせはより効果的

環境が拡大するにつれて、 55%の組織 可観測性と AIOps を組み合わせます。

どうして?

可観測性がシグナルを提供し、エージェント AIOps がそれらのシグナルを優先順位付けされた洞察と調整されたアクションに変換することで、可視性と対応のギャップを埋めます。 

これらを組み合わせることで、IT チームは次のことが可能になります。

  1. 問題をより迅速に解決します。 可観測性によりログ、メトリック、トレースがキャプチャされ、AIOps はそれらの信号を相関させて根本原因を特定し、調査時間を短縮して MTTR を改善します。
  2. コンテキストを充実させて、より良い意思決定を実現: AIOpsは観測データと以下のようなソースを組み合わせます。 トポロジー、CMDB、インシデント履歴を活用して、範囲、所有権、影響範囲をより明確に把握できます。
  3. 応答ワークフローを自動化: 可観測性により問題が発生した場所が強調表示され、AIOps は事前定義されたワークフローまたは適応型ワークフローをトリガーして修復を効率化し、手動による介入を削減します。
  4. 大規模な運用効率の向上: これらを組み合わせることで、チームはツール、ダッシュボード、または人員を追加することなく、増大するシステムの複雑さを管理できるようになります。

根本原因分析を加速 

Agentic AIOps は、チームが信号を個別に調査することを強制するのではなく、症状を原因に結び付けることで根本原因分析を加速します。 

一般的な RCA フローは次のようになります。

  • 症状を特定する
  • 寄与する信号を分析する
  • 考えられる原因を特定する

このシーケンスを自動化することで、プレッシャーのかかる状況下でデータを手動でつなぎ合わせる必要がなくなり、インシデント解決までの平均時間を短縮し、停止の期間と影響を制限できます。

よりスマートな合理化によりツールの拡散を削減

ツールの無秩序な広がり チームが統合や統合に関する明確な戦略を持たずに新しい可観測性ツールや AIOps ツールを追加すると、コストと複雑さが増大します。 

Agentic AIOps は、機能を統合するタイミングと既存のシステムを統合するタイミングを決定することで、チームがツールを合理化するのに役立ちます。

統合と統合のタイミング

  • ツールを統合する 複数のプラットフォームが同じテレメトリを収集したり、重複するアラートを生成したり、同じサービスに対して並列ダッシュボードを必要とする場合。
  • ツールを統合する 専用システムが、パイプラインを重複させることなくインシデントの理解を強化する固有のデータ(セキュリティ、ネットワーク、ビジネス コンテキストなど)を提供する場合。

重複パイプラインを削減するためのチェックリスト

エージェント型 AIOps で評価すべき主要な機能

すべてのAIOpsプラットフォームが自律的な意思決定向けに設計されているわけではありません。そのため、エージェント型AIOpsを評価する際には、アラート削減の主張だけでなく、システムがどのように推論し、適応し、大規模に安全に運用できるかに注目する必要があります。

  • コンテキスト認識推論: システムはテレメトリをトポロジ、変更イベント、所有権、サービスへの影響と相関させることができますか?
  • 意思決定の透明性: それは説明できますか 現在も将来も、 チームが結果を信頼し、監査できるように、アクションを推奨または実行しますか?
  • 制御された自動化: チームは、自己修復アクションのガードレール、承認パス、および影響範囲の制限を定義できますか?
  • 時間をかけて学ぶ: システムは過去のインシデントや結果に基づいて適応しますか、それとも静的なルールに依存しますか?
  • 運用統合: 既存の観測可能性に渡って機能するか、 ITSMツールを完全に置き換えることなく、コラボレーション ツールを導入できますか?

AIOps + 可観測性 = よりスマートで回復力の高いシステム

可観測性だけでも可視性が得られます。AIOpsだけでも洞察が得られます。しかし、どちらも単独では十分ではありません。真のブレークスルーは、可観測性とエージェント型AIOpsが連携し、生データをリアルタイムで自律的なアクションに変換することで実現します。

ITレジリエンスの将来は、より多くのデータを収集することではありません。データを有効活用することが大事ですあなたのシステムは、反応型モードのままになるのでしょうか、それとも予測、防止、自己修復するように進化するのでしょうか?

選択は明らかです。可観測性とエージェント AIOps を組み合わせると、より強力になります。

エージェント AI がチームをリアクティブからプロアクティブにシフトさせる方法をご覧ください。

マーゴ・ポダ
マーゴ・ポダ
シニアコンテンツマーケティングマネージャー、AI
免責事項: このブログで述べられている見解は著者の見解であり、LogicMonitor またはその関連会社の見解を必ずしも反映するものではありません。

14日間フルアクセス LogicMonitor プラットフォーム