AWSElasticsearchを監視する方法

アマゾンウェブサービスElasticsearchServiceを使用すると、組織はElasticsearchクラスターをデプロイ、保護、実行できます。 AWS Elasticsearchは、大規模に運用するための費用対効果の高い方法です。

この記事では、以下について説明します。

利用可能な指標は何ですか？
より意味のある計算されたメトリックを追加する方法
主な指標は何ですか？
異常検出の動的しきい値を使用するメトリックはどれですか？

Elasticsearchとは何ですか？

Elasticsearch アプリケーション、Webサイト、およびデータレイクカタログのクイック検索エクスペリエンスを提供する方法を提供します。また、監視やログを収集するインフラストラクチャとアプリケーションから。 Elasticsearchは、に基づくAWSのサービスです ElasticのオープンソースElasticsearch 「オープンソースの分散型RESTful検索エンジン」として造られました。これは、データの高速で関連性のあるスケーラブルな検索を提供するように設計されています。

AWSCloudwatchメトリクス

Elasticsearchはデータポイントをに公開しますアマゾンクラウドウォッチ Elasticsearchインスタンス用。 CloudWatchを使用すると、これらのデータポイントに関する統計を、メトリクスと呼ばれる時系列データの順序付けられたセットとして取得できます。 Elasticsearchサービスについて、Amazonはいくつかの基本的な指標とその推奨されるCloudWatchアラーム.

なぜ独自のメトリックを追加する必要があるのですか？

LogicMonitorが導入されました複雑なデータポイント時間の経過に伴う、またはパーセンテージとしてのメトリック値に関する理解をもたらすことを試みます。 ClusterUsedSpaceなどの生の値を使用して使用可能な容量を追跡することは困難な作業です。パーセンタイルを計算する複雑なデータポイントは、はるかに意味があり、警告が容易です。

クラスタ使用スペースパーセント =（ClusterUsedSpace /（ClusterUsedSpace + FreeStorageSpace））* 100

CloudWatchを使用すると、httpsエラーコード4xxおよび5xxをraw値として取得できます。次の質問を検討してください。2xxメトリックの値5は良いですか、悪いですか。そして、それはどれくらい良い（または悪い）ですか？通常、私がこの質問をするとき、その人は「それはリクエストの数に依存します」と言うでしょう。この場合も、パーセンタイルを計算する複雑なデータポイントの方がはるかに意味があり、警告が容易です。

リクエスト数5xxパーセント = 5xx /（5xx + 4xx + 3xx + 2xx）if（5xx + 4xx + 3xx + 2xx）> 0 else 0

リクエスト数4xxパーセント = 4xx /（5xx + 4xx + 3xx + 2xx）if（5xx + 4xx + 3xx + 2xx）> 0 else 0

主要な指標は何ですか？

LogicMonitorのElasticsearchクラスターモニタリングダッシュボード

クラスター使用スペースパーセント （複雑なデータポイント）

使用されるクラスタースペースのパーセンテージを計算する複雑なデータポイント。デフォルトでは、LogicMonitorは、85％が使用された場合の警告と、95％が使用された場合のエラーを推奨します。

クラスタ使用スペースパーセント =（ClusterUsedSpace /（ClusterUsedSpace + FreeStorageSpace））* 100

CPU使用率

クラスター内のデータノードに使用されるCPUリソースの平均最大パーセンテージ。 LogicMonitorは、85％の使用率で警告を、95％の使用率でエラーを推奨します。

クラスターステータス赤

これは、少なくとも0つのインデックスのプライマリシャードとレプリカシャードがクラスター内のノードに割り当てられていないことを示しています。この値がXNUMXでない場合、LogicMonitorはエラーを推奨します。

クラスターステータス黄色

これは、少なくとも0つのインデックスのプライマリシャードとレプリカシャードがクラスター内のノードに割り当てられていないことを示しています。この値がXNUMXでない場合、LogicMonitorはエラーを推奨します。Elasticsearchインスタンスのレプリケーションがない場合は、アラートを出さないようにこのメトリックを編集する必要があることに注意してください。

JVMメモリ圧力

このメトリックは、クラスター内のすべてのデータノードに使用されるJavaヒープの最大パーセンテージを示します。この値が80を超える場合、LogicMonitorは警告を推奨します。

異常検出の動的しきい値を有効にするにはどうすればよいですか？

主要なメトリックに動的しきい値と静的しきい値を使用することが期待されていますが、他のユースケースもあります。

例

クエリとフェッチのレイテンシーの異常検出を有効にすることは、サービスの潜在的な劣化を示す方法であり、予想される操作に変化があった場合に事前に警告を発する方法です。

例

クエリおよびフェッチカウントの異常検出を有効にすることは、システムの潜在的な異常負荷（または新規顧客のオンボーディング）を示す方法です。

ユーザーは、現在の負荷を先月と比較して、LogicMonitorの追加の異常を示すことができます

ブライアン・グラッデン

Brian Gladden は LogicMonitor の従業員です。

ブライアンは、ソフトウェアエンジニアからプロダクトマネージャーへの移行を楽しんでいます。彼は過去の経験を活用し、貢献している製品の幅広い範囲についてもっと学ぶのが大好きです。ブライアンは、多くのペットを飼っている動物愛好家であり、多くの場合、少なくともXNUMX匹の里親もいます。

プラットフォーム

ソリューション

イニシアチブによる

業界別

企業情報

詳しく知る

お問合せ

サービス

ドキュメンテーション

サポート

プラットフォーム

ソリューション

企業情報

ドキュメンテーション

AWSElasticsearchを監視する方法

Elasticsearchとは何ですか？

AWSCloudwatchメトリクス

なぜ独自のメトリックを追加する必要があるのですか？

主要な指標は何ですか？

異常検出の動的しきい値を有効にするにはどうすればよいですか？

例

例

記事上で

ブライアン・グラッデン

LogicMonitor を使ってみる

ありがとうございました。

AWSElasticsearchを監視する方法

Elasticsearchとは何ですか？

AWSCloudwatchメトリクス

なぜ独自のメトリックを追加する必要があるのですか？

主要な指標は何ですか？

異常検出の動的しきい値を有効にするにはどうすればよいですか？

例

例

記事上で

ブライアン・グラッデン