Elevate コミュニティ カンファレンスで LogicMonitor ユーザー仲間に加わり、弊社の最新製品イノベーションを実際に体験してください。

今すぐ登録

ソリューション

MSP、エンタープライズIT、またはその中間のどこで作業していても、ソリューションは明確です。

ソリューションの概要

その他

当社のブログ、ガイド、ケーススタディ、電子書籍、その他の実用的な洞察を活用して、IT 監視と観測性を強化してください。

リソースを表示

会社概要

LogicMonitor と私たちのチームについて知りましょう。

会社概要

ドキュメント

ドキュメントを読んだり、最新のリリース ノートを確認したり、ワールドクラスのカスタマー サービス チームにチケットを送信したりしてください。

リソースを表示

ブログ

クラウド仮想マシンのエージェントベースの監視の課題とその克服方法

自動スケーリング イベント中に監視エージェントがデプロイに失敗したために、クラウド インフラストラクチャの 40% が XNUMX 週間監視されていないことが判明したと想像してください。このシナリオは単なる仮説ではなく、動的なクラウド環境で従来のエージェントベースの監視に依存している組織にとって、ますます現実のものになっています。 

仮想マシン (VM) は、企業全体のミッションクリティカルなアプリケーションやサービスに利用されているため、それらをスムーズに実行し続けることが重要です。監視により、パフォーマンスの維持、問題のトラブルシューティング、シームレスなユーザー エクスペリエンスの提供に必要な可視性が提供されます。しかし、従来のエージェントベースの監視ソリューションでは、クラウドの動的な性質に対応するのに苦労することがよくあります。これにより、監視ギャップが生じ、複雑さが増し、リソースが消費され、VM のパフォーマンスに影響を及ぼす可能性があります。

この記事では、エージェントベースの監視の課題を検討し、より優れた代替アプローチであるエージェントレス監視を紹介します。次の記事では、エージェントレス監視がここで紹介した多くの問題にどのように対処するかについて説明します。

エージェントベースの監視とその課題

従来のエージェントベースの監視では、監視対象の各マシンまたはアプリケーションにソフトウェア エージェントをインストールします。これらのエージェントはデータをローカルで収集し、分析のために中央監視システムに送り返します。

この方法は、リアルタイムの監視や詳細な分析情報などの利点を提供しますが、特に高度に動的なクラウド環境では大きな課題も生じます。

現在のエージェントベースの監視アプローチ

エージェントベースの監視に関する問題について説明する前に、最も一般的なアプローチを簡単に確認しましょう。特定の監視ニーズや使用するソリューションに応じて、エージェントベースの監視は、システム パフォーマンス監視、アプリケーション パフォーマンス監視、セキュリティ監視、ログ監視、データベース監視というタイプに分類できます。

システム パフォーマンスの監視

システム パフォーマンス監視 (インフラストラクチャ監視とも呼ばれる) では、システム リソース (サーバー、ワークステーション、ネットワーク デバイスなど) にエージェントを展開して、従来のメトリックと最新のクラウド メトリックの両方を追跡します。エージェントは、システム API を照会するか、ホスト オペレーティング システムによって提供されるパフォーマンス カウンターにアクセスして、定期的にデータを収集します。次に、収集したデータを中央監視システムまたはダッシュボードに送信して、分析と視覚化を行います。

システムパフォーマンスメトリックの例
従来の指標クラウドネイティブのメトリクス
• システム稼働時間
• CPU使用率
• RAM使用率
• ディスクI/O
• ネットワークトラフィック
• コンテナのヘルス状態
• クラウドサービスのクォータ使用量
• インフラストラクチャ・アズ・コードによるデプロイメント

これにより、重要なインフラストラクチャの洞察が得られますが、運用上のオーバーヘッドが大幅に増加します。エージェントは、スケーリング イベント中に継続的に更新する必要があり、異なるオペレーティング システム間で互換性の問題が発生し、監視のギャップが生じるリスクがあります。

アプリケーションパフォーマンスの監視

アプリケーション パフォーマンス監視は、アプリケーションまたはランタイム環境 (Java、.NET など) に組み込まれたエージェントを通じて、ソフトウェア アプリケーションの健全性、可用性、パフォーマンスを追跡します。これらのエージェントは、主要なパフォーマンス指標を取得します。

アプリケーションパフォーマンスメトリックの例
レスポンスメトリクス依存関係の追跡
• ユーザーリクエストに対する応答時間
• サービス全体のエラー率
• トランザクションスループット
• コンポーネント間の遅延
• データベースクエリの応答時間
• サービスの依存関係
• 外部APIの応答時間
• データベース接続の健全性
• キャッシュパフォーマンス
• メッセージキューの遅延

上級エージェントは コードを計測したり、分散トレースを実行したり 複数のサービスにわたるリクエストを追跡します。これにより、スムーズなアプリケーション操作の保証、パフォーマンスの問題 (エンドポイントの低速化など) の診断、ユーザー エクスペリエンスの最適化が可能になります。

課題は統合の複雑さにあります。特にレガシーシステムでのエージェントの統合には、多大な構成と専門知識が必要になる場合があります。この複雑さに加えて、一部のツールはすべてのアプリケーション環境やフレームワークをサポートしていない可能性があり、監視にギャップが生じたり、組織全体で複数のツールが必要になる場合があります。たとえば、 AppDynamicsは完全にサポートしています Java、PHP、.NET、Node.js、Python、C++ はサポートされていますが、Rust、Elixir、Dart アプリケーションはサポートされていないため、多くの場合、組織は完全なカバレッジを得るために複数の監視ソリューションを維持する必要があります。

セキュリティ監視

エージェントは、システムアクティビティと潜在的なセキュリティイベントをリアルタイムで監視するために導入されます。 セキュリティ情報およびイベント管理(SIEM) 不正アクセスの検出、コンプライアンスの監視、リアルタイムの脅威への対応、マルウェアの識別、侵入試行のアラートなど、セキュリティ イベントの総合的なビューを提供するシステム。

コア監視機能脅威検出方法
• ファイルの整合性監視
• アクセスログ分析
• ネットワークトラフィックパターン
• ユーザーアクティビティの追跡
• システム構成の変更
• 異常検出アルゴリズム
• 署名ベースのスキャン
• 行動分析
• リアルタイムの脅威情報
• コンプライアンスルールのチェック

実装時に重要な制限が発生します。これらのエージェントは、通常、正常に機能するために特権アクセス (多くの場合、ルート/管理者権限) を必要とするため、侵害されると潜在的なセキュリティ脆弱性が生じます。組織は、さまざまなプラットフォームにわたって拡大した攻撃対象領域を管理しながら、一貫したセキュリティ ポリシーを確保する必要があるマルチクラウド セットアップでは、複雑さが増します。レガシー オペレーティング システムやサポートされていないオペレーティング システムでは、これらのエージェントが包括的な脆弱性をカバーできない可能性があるため、さらなる課題が生じます。

ログ監視

ログ監視には、IT 環境全体で生成されたログ ファイルの収集と分析が含まれます。システムにインストールされた監視エージェントは、複数のソースからログを集約し、処理のために中央プラットフォームに転送します。

ログソースの種類エージェントの機能中央プラットフォームの機能
• アプリケーションログ
• システムログ
• セキュリティ監査証跡
• ネットワークデバイスログ
• データベーストランザクションログ
• リアルタイムログ収集
• パターン認識
• 異常検出
• アラートのトリガー
• ログ転送
• ログのインデックス作成
• 検索機能
• データの視覚化
• アラート管理
• 保持ポリシー

規模が大きくなると、現実的な課題が明らかになります。ログは指数関数的に増大し、大量のストレージリソースを必要とするため、大規模で分散したクラウドインフラストラクチャの拡張が困難になります。さらに、効果的なログ解析、フィルター、アラートルールを確立するには、かなりの時間と深い専門知識が必要です。

データベース

データベース監視は、データベース システムのパフォーマンス、可用性、整合性を追跡することに重点を置いています。エージェントはデータベース管理システム (DBMS) と対話して、重要なパフォーマンス メトリックや運用指標などのメトリックを収集します。

データベース監視の重要なパフォーマンス指標と運用指標の例
パフォーマンス指標運用指標システムヘルスチェック
• クエリ実行時間
• アクティブセッション数
• 接続プールの使用
• ストレージ容量の傾向
• メモリ使用率
• クエリの追跡が遅い
• デッドロック検出
• バッファプールの効率
• トランザクションスループット
• テーブルスペースの増加
• バックアップステータス
• レプリケーションの遅延
• インデックスの断片化
• キャッシュヒット率
• リソースのボトルネック

トレードオフは実稼働環境で明らかになります。データベース監視エージェントは貴重なデータベース リソースを消費し、ピーク使用時にパフォーマンスに影響を与える可能性があります。規模によって別の課題も生じます。特にマルチノード クラスターやクラウド ネイティブ環境での大規模または分散データベースの監視は、インフラストラクチャにかなりの負担をかける可能性があります。

エージェントベースの監視が動的なクラウド環境で困難になる理由

エージェントベースのアプローチは小規模で静的な環境では機能しますが、動的なクラウド環境では問題が発生します。

これらの課題が現実のシナリオでどのように現れるかを以下に示します。

展開とメンテナンススケーリングの課題パフォーマンスへの影響
• 複雑なエージェントのインストールプロセス
• 時間のかかる構成要件
• 継続的な更新管理
• 環境間でのバージョン管理
• リソース集約型のメンテナンス
• 自動スケーリング中の手動介入
• エージェントの展開が遅れる
• 急速なスケーリング中に不完全なカバレッジが発生する
• リソースの発見の複雑さ
• 構成のドリフト
• 累積リソースオーバーヘッド
• クラウドコンピューティングコストの増加
• メモリ使用率の向上
• 追加のネットワークトラフィック
• 潜在的なサービス低下

オルカセキュリティによると従来のエージェントベースのセキュリティ ソリューションでは、急速に変化する環境にエージェントを展開することが難しいため、クラウド資産の 50% 以上をカバーできないことがよくあります。同じ課題がエージェントの監視にも当てはまります。

運用上のボトルネック

  • エージェントのインストール時間は30~60秒
  • コンテナのライフサイクルはデプロイメント時間よりも短い
  • 分散システムにわたるバージョン管理
  • チーム間の調整を更新する
  • リソース割り当ての競合

組織はしばしば エージェントによる死のシナリオ特に、コンテナが数秒以内に起動および停止するマイクロサービス アーキテクチャでは、エージェントのインストールにコンテナのライフサイクルよりも長い時間がかかると、効果的な監視が不可能になります。

クラウド環境の仮想マシン向けソリューション: エージェントレス監視

エージェントレス監視は、監視対象デバイスごとにソフトウェア エージェントをインストールして管理する必要をなくし、監視可能性に対する新しいアプローチを採用しています。代わりに、既存の通信プロトコルと API を利用して、VM とアプリケーションからパフォーマンス データを収集します。この合理化されたアプローチにより、従来のエージェントベースの方法のオーバーヘッドが削減され、動的なクラウド環境に特に効果的です。

次のように考えてください。エージェントレス モニタリングでは、各 VM にエンボイ (エージェント) を送信して情報を収集する代わりに、VM の既存の通信チャネルを使用して必要なデータを取得します。これにより、エンボイ (エージェント) が不要になり、エンボイの管理の複雑さが大幅に軽減されます。また、追加のポートを開いたり、昇格した権限を付与したりする必要がないため、エージェントの展開と管理に関連するセキュリティ リスクも軽減されます。

エージェントレス監視の仕組みを示す簡略図を以下に示します。

エージェントレス監視図

監視システムコレクターは、次のような標準プロトコルを使用してVMまたはアプリケーションと直接通信します。 簡易ネットワーク管理プロトコル(SNMP), インターネット制御メッセージプロトコル(ICMP)、クラウドネイティブAPI、サービスメッシュ(Istioなど)、そして リモート プロシージャ コール (gRPC)これにより、追加のオーバーヘッドなしで包括的な監視が可能になります。 VM は要求されたデータで応答し、そのデータは監視システムのダッシュボードによって処理および視覚化され、インフラストラクチャの健全性とパフォーマンスに関するリアルタイムの分析情報が提供されます。

エージェントレスアプローチを採用するプラットフォーム、例えば ロジックモニター エンビジョン、データ収集にはさまざまな手法が用いられます。その一部を以下に示します。

  • API統合: 最新のクラウド プラットフォームとアプリケーションは、安全なデータ取得を可能にする API を公開しています。エージェントレス監視ツールは、これらの API を使用してパフォーマンス メトリックやその他の関連情報を収集します。
  • 標準プロトコル: SNMP や Windows Management Instrumentation (WMI) などのプロトコルは、ネットワーク デバイスや Windows サーバーから情報を収集するためによく使用されます。
  • セキュアシェル: セキュアシェル(SSH) は、デバイス上でリモートでコマンドを実行し、分析用の出力を収集するために使用できます。つまり、監視システムはターゲット デバイス (サーバー、ネットワーク デバイスなど) に接続し、CPU 使用率、メモリ消費量、ディスク容量、ネットワーク統計、実行中のプロセスなど、さまざまなメトリックのシステム情報を収集するコマンドを実行できます。

クラウドVM管理の未来は今始まる

組織は通常、メンテナンスのオーバーヘッドの削減とカバレッジの向上により、3 ~ 6 か月以内にエージェントレス監視の ROI を実現します。これは単なる技術的なアップグレードではなく、戦略的なビジネス上の決定となります。 

エージェントレス監視は、クラウド VM 管理の未来です。最新の動的なクラウドベースのインフラストラクチャにシームレスなスケーラビリティを提供します。最小限のメンテナンスと、さまざまなシステムを監視するための簡素化されたアプローチにより、効率的で先進的なソリューションとなります。

エージェントレス監視とそれがクラウドVMを管理する革新的な方法である理由について詳しく知りたい場合は、こちらをご覧ください。 この記事.

著者
レックスフォード・A・ニャルコ著
免責事項: このブログで述べられている見解は著者の見解であり、LogicMonitor またはその関連会社の見解を必ずしも反映するものではありません。

私たちのブログを購読する

このような記事をあなたの受信箱に直接お届けします

トライアルを開始する

LogicMonitorプラットフォームへのフルアクセスが可能。
デバイス数に制限はありません。