ApacheHadoopモニタリング
最終更新日: 25 年 2024 月 XNUMX 日概要
Apache Hadoopは、コモディティハードウェアのクラスター全体で大規模なデータセットの分散処理を可能にするソフトウェアのコレクションです。 LogicMonitor Hadoopパッケージは、次のコンポーネントのメトリックを監視します。
- HDFS ネームノード
- HDFS データノード
- 糸
- MapReduce
互換性
2020年3.2.1月の時点で、HadoopパッケージがバージョンXNUMXと互換性があることを確認しています。 古いバージョンのHadoopを監視することは可能かもしれませんが、すべてのデータポイントのデータが返されるわけではありません。
セットアップ要件
HadoopホストでJMXを有効にする
LogicMonitorは、JMXを介して直接ではなく、RESTAPIを介してHadoopメトリックを収集します。 ただし、メトリックは元々JMXを使用して収集および保存されるため、HadoopホストでJMXを有効にする必要があります。 JMXの有効化の詳細については、の「JMXの有効化」セクションを参照してください。 Javaアプリケーション(JMX経由)モニタリング サポート記事。
モニタリングへのホストの追加
Hadoopホストをモニタリングに追加します。 監視にリソースを追加する方法の詳細については、を参照してください。 デバイスの追加.
Hadoopリソースへのプロパティの割り当て
次のカスタムプロパティは、LogicMonitor内のHadoopリソースに設定する必要があります。 プロパティの設定の詳細については、を参照してください。 リソースとインスタンスのプロパティ.
ご注意: これらのポートは、コレクターに対して開いている必要があります。
ご注意: 正しいポートが使用されていることを確認するには、http://にアクセスできる必要があります。 : / jmxおよびさまざまなコンポーネントのそれぞれのメトリックを表示します。
LogicModulesをインポートする
LogicMonitorリポジトリから、にリストされているすべてのHadoopLogicModuleをインポートします。 パッケージ内のLogicModules このサポート記事のセクション。 インポート時に、前のセクションにリストされたプロパティが割り当てられていると仮定すると、これらのLogicModuleはHadoopリソースに自動的に関連付けられます。
パッケージ内のLogicModules
Apache Hadoop用のLogicMonitorのパッケージは、次のLogicModuleで構成されています。 完全にカバーするには、これらのLogicModuleがすべてLogicMonitorプラットフォームにインポートされていることを確認してください。
データポイントしきい値の構成
Hadoopパッケージには、事前定義されたデータポイントしきい値が含まれていません(つまり、収集されたデータに基づいてアラートがトリガーされることはありません)。 これは、テクノロジの所有者が、大多数のユーザーに確実に拡張できるKPIを提供していないためです。 収集されたデータのアラートを受信するには、で説明されているように、カスタムしきい値を手動で作成する必要があります。 データポイントの静的しきい値の調整.
次に、しきい値の設定を検討する必要があるデータポイントをいくつか示します。
- データソース:Hadoop HDFS DataNodeFS状態
- NumFailedVolumes。 失敗したボリュームの総数を報告するデータポイント。
- 残り。 データノードの残りの容量を報告するデータポイント。
- データソース:Hadoop HDFSNameNode情報
- NumberOfMissingBlocksWithReplicationFactorOne。 クラスター全体でコピーがXNUMXつしかないブロックの数を報告するデータポイント。
- PercentUsed。 クラスター全体の使用済みスペースのパーセンテージを報告するデータポイント(DFSおよび非DFS)。
- データソース:Hadoop HDFSNameNodeステータス
- ServiceRestart。 サービス状態が変化したときに0より大きい値を返すデータポイント
- 状態。 Hadoopネームノードサービスのステータスを示すステータスコードを返すデータポイント。
- データソース:Hadoop HDFS NameNode FSNamesystem
- CorruptBlocks。 レプリカが破損しているブロックの現在の数を報告するデータポイント。
- CorruptReplicatedBlocks。 複製された破損ブロックの数を報告するデータポイント。
- FSState。 FSが動作可能かセーフモードかを示すステータスコードを返すデータポイント。
- MissingBlocks。 欠落しているブロックの現在の数を報告するデータポイント。
- MissingReplicationOneBlocks。 レプリケーション係数が1の欠落ブロックの数を報告するデータポイント。
- NumDeadDataNodes。 現在死んでいるデータノードの数を報告するデータポイント。
- UnderReplicatedBlocks。 レプリケートされているブロックの現在の数を報告するデータポイント。
- VolumeFailuresTotal。 すべてのデータノードにわたるボリューム障害の総数を報告するデータポイント。
- データソース:Hadoopヤーンキューメトリック
- AppsFailed。 完了できなかったアプリケーションの数を報告するデータポイント。
- データソース:Hadoopヤーンクラスターステータス
- NumLostNMs。 ハートビートを送信しなかったために失われたNodeManagerの現在の数を報告するデータポイント。