インシデント管理 KPI (主要業績評価指標) の主要な略語に精通することは、効果的なパフォーマンス分析に不可欠です。この記事では、MTTR や MTBF などの指標の計算方法、さまざまな指標の比較、MTBF や MTTR などの指標の管理と改善における CMMS や EAM システムなどのソフトウェア ツールの役割について説明します。
主要な取り組み
信頼性指標の定義
MTTFとは何ですか?
MTTF は平均故障時間 (Mean Time To Failure) の略で、特定のデバイスの平均寿命を表します。平均故障時間は、すべてのデバイスの寿命を合計し、その数を割ることによって計算されます。
MTTF =デバイス全体の総寿命/デバイスの数
MTTF は、回転ディスク ドライブなどの修理不可能なデバイスに特有のものであり、製造元は MTTF に基づいてデバイスの寿命について説明します。
たとえば、ストレージ アレイから取り出された故障したドライブ 2.1 台を考えてみましょう。SMART は、それらの寿命がそれぞれ 2.7 年、2.3 年、XNUMX 年であることを示します。
(2.1 + 2.7 + 2.3)/ 3 =〜2.37。XNUMX年MTTF
将来的には、別のドライブを購入する必要があります。
MTTFは、代わりに平均故障間隔を表しますが、「失敗」がより一般的な意味のようです。
関連する
MTBFとは何ですか?
MTBF は平均故障間隔の略です。MTBF は、修復可能なものの故障間隔の平均時間を特定するために使用されます。
平均故障間隔は、デバイスの寿命をすべて合計し、故障数で割ることによって計算されます。
MTBF =デバイス全体の総寿命/障害数
総寿命には、障害後にデバイスを修復するのにかかる時間は含まれていません。
MTBFの例は、平均して、オペレーティングシステムがランダムなクラッシュの間に稼働し続ける時間です。
関連する
MTTRとは何ですか?
MTTRは、平均修復時間、平均回復時間、平均解決時間、平均解決時間、平均復元時間、または平均応答時間を表します。 修復までの平均時間と回復までの平均時間が最も一般的であるように思われます。
平均修復時間 (および復元時間) は、障害が発見された後にシステムを修復するのにかかる平均時間です。これは、修復に費やされた合計時間を加算し、それを修復回数で割ることによって計算されます。
MTTR(修理)=修理に費やされた合計時間/修理の数
たとえば、アレイから5台のドライブを引き出したとします。そのうちの6台は、ドライブをウォークオーバーして交換するのにXNUMX分かかりました。 ドライブスレッドが少し詰まっていたため、XNUMX番目のものはXNUMX分かかりました。 そう:
(5 + 5 + 6)/ 3 = 5.3分MTTR
平均修復時間は、故障したシステムが修復可能であり、交換する必要がないことを前提としています。これは、平均修復時間と同義です。
平均復旧時間、解決時間、解決時間は、何かがダウンしてから完全に機能するまでにかかる時間です。これには、問題の発見、修正、テクノロジー (CMMS や EAM システムなど) を使用して履歴データと現在の資産を分析し、メンテナンス戦略を策定することまですべてが含まれます。DevOps と ITOps では、MTTR を絶対的に最小限に抑えることが重要です。
MTTR(回復)=検出と修復に費やされた合計時間/修復の数
平均応答時間は最も基本的なものです。平均応答時間とは、障害に対応するのにかかる平均時間です。
関連する
各信頼性メトリック (MTTR、MTBF、MTTF) は、ダウンタイムの削減とパフォーマンスの向上という独自の目的を果たします。
MTRSとは何ですか?
MTRS は、サービス復旧の平均時間を表します。これは、障害が検出されてから、復旧して完全に機能するまでにかかる平均時間です。MTRS は平均復旧時間と同義であり、平均復旧時間と平均修復時間を区別するために使用されます。ITIL v4 によれば、MTRS はより正確で混乱が少ないため、平均復旧時間の推奨用語です。
MTRS = 合計ダウンタイム / 障害数
4 回の停止を経験した組織の例を見てみましょう。各障害のダウンタイムは次のとおりです。
- 停止 1: 3時間
- 停止 2: 2時間
- 停止 3: 4時間
- 停止 4: 1の時間
まず、ダウンタイムの合計を計算します: 3 + 2 + 4 + 1 = 10 時間
その後、合計ダウンタイムを停止回数で割ります: 10 / 4 = 2.5 時間
この場合、MTRS は 2.5 時間になりますが、サービスの重要性に応じて改善が必要になる可能性があります。
たとえば、ダウンするサービスが支払いシステムである場合、それがオンライン支払いであれ、POS を使用した店内支払いであれ、一度に数時間にわたってそれらのシステムがダウンすることは望ましくありません。
関連する
MTBSIとは何ですか?
MTBSIは、サービスインシデント間の平均時間を表し、信頼性を測定するために使用されます。 MTBSIは、MTBFとMTRSを合計して計算されます。
MTBSI = MTBF + MTRS
これは、企業のデータベース サーバーの例です。数週間にわたって、次の情報を収集します。
- MTBF: 300時間
- MTRS: 4時間
MTBSIを計算するには、これらの数字を足すだけです:300 + 4 = 304時間
これは、データベース サーバーで平均 304 時間ごとにインシデントが発生することを意味します。このメトリックは、メンテナンス チームがサーバーの信頼性を評価し、稼働時間を改善する機会を探すのに役立ちます。
結局のところ、チームがオンライン状態に依存している重要なアプリケーションが頻繁にダウンすることは望ましくありません。
MTTDとは何ですか?
MTTD は、平均検出時間の略です。これは、ユーザーまたはシステムが、何かが故障したことを認識するまでにかかる平均時間です。MTTD は、故障から検出までのすべての時間を合計し、それをシステム故障の数で割ることで計算できます。
MTTD =障害と検出の間の合計時間/障害の数
MTTD は、 監視プラットフォーム 環境内のすべてをチェックできます。LogicMonitor のような監視プラットフォームを使用すると、環境内のすべてを自動的にチェックすることで、MTTD を 1 分以下に短縮できます。
関連する
MTTIとは何ですか?
MTTI は、平均識別時間 (Mean Time to Identify) の略です。平均識別時間とは、ユーザーまたはシステムが問題を識別するのにかかる平均時間です。問題の発見から解決策の特定までの合計時間を加算し、その数値を発生総数で割ることで、MTTI を計算できます。
MTTI = 問題発生から特定までの合計時間 / 問題数
たとえば、組織が Web アプリケーションの保守を担当している例を見てみましょう。1 か月の間に、パフォーマンスの低下が 4 件発生しました。
- 発生事例1: 35分で問題が特定されました
- 発生事例2: 20分で問題が特定されました
- 発生事例3: 10分で問題が特定されました
- 発生事例4: 15分で問題が特定されました
まず、Webの問題を特定するために要する合計時間を計算します: 35 + 20 + 10 + 15 = 80 分
次に、問題の数で割ると (80 / 4 = 20)、問題を特定するための MTTI は 20 分になります。重要なアプリケーションの場合は、リアルタイム監視を追加して IT インフラストラクチャに関するデータを収集し、アラートを作成して発生の原因となる可能性のある問題をチームに通知し、監視データを解釈できるようにチームをトレーニングすることで、この時間を短縮できます。
関連する
MTTKとは何ですか?
MTTK は、Mean Time to Know (平均認識時間) の略です。MTTK は、問題が検出されてからその問題の原因が判明するまでの時間です。言い換えると、MTTK は問題が発生した理由を突き止めるのにかかる時間です。これを計算するには、チームが問題の根本原因を特定するのにかかった時間を決定し、それを発生した問題の数で割ります。
MTTK = 問題検出から根本原因特定までの合計時間 / 問題数
たとえば、組織が顧客の業務に不可欠なインフラストラクチャ (SaaS サービスなど) を管理しているとします。ダウンタイムが発生すると、顧客の不満が高まり、収益が失われる可能性があります。
MTTK を測定して、チームがサービスをオンラインに戻すまでの時間を決定します。1 か月間で、チームの識別時間は次のようになります。
- 問題1: 1.5時間
- 問題2: 1.75時間
- 問題3: 1の時間
MTTK は次のように計算できます: 1.5 時間 + 1.75 時間 + 1 時間 / 3 件のインシデント = 1.42 MTTK
この数値を知ることで、チームがプロセスを診断するために使用するプロセスがどれだけ効果的であるかを判断するのに役立ちます。その後、MTTK を短縮するために最適化する領域を探すことができます。
MDTとは何ですか?
MDT は平均ダウンタイムの略です。これは、システムまたはデバイスが動作していない平均期間のことです。MDT には、スケジュールされたダウンタイムとスケジュールされていないダウンタイムが含まれます。ある意味で、これは究極の KPI です。目標は 0 です。平均復旧時間を改善すると、最終的に MDT も改善されます。
MDT = 合計ダウンタイム / イベント数
IT チームがサポートしている重要なアプリケーションの例を見てみましょう。1 か月の間に、次のようなダウンタイムが発生します。
- インスタンス1: 2時間
- インスタンス2: 30 minutes
- インスタンス3: 1の時間
- インスタンス4: 25 minutes
合計時間とインスタンス数を加算してMDTを計算します: (120 + 30 + 60 + 25) / 4 = 58.75分
ダウンタイムがいつ発生するかに応じて、チームはダウンタイムを削減するための最適化を検討する必要があります。または、計画的なダウンタイムの場合は、需要が減少するオフ時間に発生するようにしてください。
MTTAとは何ですか?
MTTA は、平均確認時間 (Mean Time To Known) の略です。障害が検出されてから問題への対処が開始されるまでの平均時間です。
MTTA =検出された障害を確認するための合計時間/障害の数
100 メートル走を想像してください。スタートのホーンが鳴り、数ミリ秒後にそれを感知します。さらに数ミリ秒後、脳がホーンを認識し、足が走り始めます。これを 100 回計測し、100 で割ると、MTTA が完成します。
この KPI は、オンコールの DevOps エンジニアやサポート担当者にとって特に重要です。DevOps エンジニアは、MTTR を低く抑えて不要なエスカレーションを回避するために、MTTA を低く抑える必要があります。サポート スタッフは、顧客満足度を維持するために、MTTA を低く抑える必要があります。解決に向けてまだ作業中であっても、顧客は自分の問題が認識され、迅速に対処されていることを知りたいのです。
関連する
MTTVとは何ですか?
MTTV は、平均検証時間の略です。平均検証時間は通常、サービス復旧の平均時間の最後のステップであり、修正が実施されてから、その修正が機能し、問題が解決されたことが検証されるまでの平均時間です。
MTTV = 解決を検証する合計時間 / 解決された障害の数
コード レベルでの単体テストによる検証を自動化するか、インフラストラクチャ、アプリケーション、またはサービス レベルでの監視プラットフォームを使用して検証を自動化することで、組織内でこの KPI を向上させることができます。
MTTR から MTTF まで、各メトリックが何を測定しているかを知ることは、効果的なメンテナンスと信頼性管理の鍵となります。
メトリックの比較
MTBF と MTTR (平均故障間隔と平均修復時間)
MTBF は、システムが故障するまでにどのくらいの期間動作するかを測定し、信頼性のためのメンテナンス スケジュールの指針となります。MTTR は故障後の修復期間を示し、ダウンタイムと修復コストを最小限に抑えるのに役立ちます。つまり、MTBF はデバイスの信頼性を測定し、MTTR は修復の効率を測定します。
MTTRとMTBFの計算
IT チームが合計 10 個の資産を持つ複数のサーバーを管理しているとします。その間、次のことが起こります。
- 総稼働時間: 各サーバーごとに720時間(24時間×30日)、合計7,200時間
- 失敗回数: 5 台のサーバー障害
- 総修理時間: 修理に15時間
MTBFから始めて、総稼働時間数を故障数で割ります: 7,200 / 5 = 1,400時間
つまり、予定外のダウンタイムにつながるサーバー障害が発生する前に、平均 1,400 時間の稼働時間があることになります。
一方、MTTR を計算すると、チームが修復をどれだけうまく処理し、サーバーをオンラインに戻すのにどれだけ時間がかかるかがわかります。
これを計算するには、修理の合計時間を修理回数で割ります。15時間/5回の修理=3時間
これらの計算は、ダウンタイムがどのくらいの頻度で発生するか、サービスをオンラインにするのにどのくらいの時間がかかるか、毎月どのくらいの頻度で発生すると予想されるかを理解するのに役立ちます。
MTTRとMTBFの改善
これらの計算は、チームがこれらの問題に対処するためのメンテナンス スケジュールを改善し、ダウンタイムの合計とインシデントの数を減らすのにも役立ちます。予測的および予防的なメンテナンス戦略を実装して、潜在的な問題が大きな問題になる前に捕捉し、MTBF を増加して MTTR を減少させることができます。
冗長性とフォールト トレランス対策を実装すると、MTBF と MTTR の両方を大幅に向上させることもできます。バックアップ システムを導入することで、ハードウェア障害によるダウンタイムを最小限に抑えたり、完全になくしたりすることができます。
MTTFとMTBF
MTTF と MTBF の主な違いは、発生した障害に応じてそれぞれがどのように解決されるかです。MTTF では、壊れたものは交換され、MTBF では、壊れたものは修復されます。
MTTF と MTBF も、当然ながら文言どおりです。「故障まで」はそこで終了することを意味し、「故障間」は故障が複数回発生する可能性があることを意味します。
多くの実際の状況では、MTTF と MTBF を同じ意味で使用できます。多くの人がそうしています。
ハードウェア障害の解決策は、一般的には交換です。問題のあるスイッチを修理する場合でも、故障した部品を交換することになります。オペレーティング システムのクラッシュなどでは、「交換」ではなく「修理」と見なせるものが必要になります。
MTTFとMTBFは主にベンダーとメーカーの懸念事項です。ドライブのMTTFを変更することはできませんが、RAIDで実行して インフラストラクチャ内の問題についてMTTRをドライブダウンする.
通常、ハードウェアの MTTF または MTBF を直接変更することはできません。ただし、高品質のコンポーネント、ベスト プラクティス、冗長性を使用することで、障害の影響を軽減し、サービス全体の MTBF を向上させることができます。
MTTDとMTTI
平均検出時間と平均識別時間は、会社や状況に応じて、ほとんど同じ意味になります。
MTTDとMTTA
インシデントや障害の検出と認識は似ていますが、人的要素が異なる場合が多くあります。MTTD は、ほとんどの場合、プラットフォームが通知する計算されたメトリックです。
例えば、LogicMonitorの場合、MTTDは障害が発生してから復旧するまでの平均時間です。 LogicMonitorプラットフォーム 障害を特定しました。
MTTAはこれを取得して人間のレイヤーを追加し、MTTDを取得して、何かが失敗したことを人間に認識させます。
MTTA が重要なのは、異常や問題を検出するアルゴリズムは非常に正確ですが、それでも機械学習アルゴリズムの結果であるためです。検出された問題が本当に問題であるかどうかは人間が確認する必要があります。
MTTF(故障)対 MTTR: 平均故障時間対平均修復時間
平均故障時間は、通常、故障に関連する時間を測定します。平均修復時間は、システムを再び稼働させるのにかかる時間を測定します。測定対象が大きく異なるため、比較は不公平になります。
車を例に挙げてみましょう。2006 年式のホンダ CR-V が事故に遭ったとします。MTTF は事故発生から新車を購入するまでの時間として計算できます。MTTR は事故発生から車が修理されるまでの時間です。
MTTF (修正) と MTTR: 平均修正時間 vs 平均修復時間
修理の平均時間と修理の平均時間は同じ意味で使用できます。 ほとんどの環境で推奨される用語は、平均修復時間です。
MTRS と MTTR: サービス復旧の平均時間 vs 修復の平均時間
サービスの平均復旧時間はサービスの平均修復時間と似ていますが、障害から解決までの時間を使用する代わりに、修復が開始されてから完全な機能が回復するまでの時間のみをカバーします。
一般的に、KPI としての MTTR はそれほど役に立ちません。修復プロセスとその効率性についてはわかりますが、ユーザーがどの程度苦しんでいるかはわかりません。壊れたドライブを見つけるのに 3 か月かかり、ユーザーのシステムの速度が遅くなる場合、5.3 分の MTTR は役に立たず、印象的ではありません。
通常、顧客は修理時間よりもデバイスがダウンしている合計時間を気にします。ダウンタイムをできるだけ短くしたいのです。完全を期すために、これも計算してみましょう。
((5 + 5 + 6)+(3 + 3 + 3))/ 3 = 8.3分MTTR
一般的に、IT オペレーターにとっては MTTR KPI の方が役立ちます。
信頼性指標の管理における CMMS および EAM システムの役割
コンピュータ化された保守管理システム (CMMS) とエンタープライズ資産管理 (EAM) ソフトウェアは、信頼性と障害の指標を追跡するのに役立つ、チームにとって不可欠なツールです。これらのソフトウェアには、次のような役立つ機能が多数用意されています。
- メンテナンススケジュール: 予防保守タスクを自動化して予期せぬ故障を減らす
- 資産パフォーマンス監視: 会社の資産をリアルタイムで追跡し、問題を早期に検出します
- データ分析とレポート作成: 過去のデータから得た洞察を確認して、情報に基づいた意思決定を行い、将来のパフォーマンスを予測します。
これらのツールは、組織がリアクティブ アプローチからプロアクティブ アプローチに移行し、問題を事前に把握してダウンタイムを最小限に抑えるのに役立ちます。
曖昧さから行動へ: より良い結果を得るための KPI の定義
インシデントが発生した場合、時間は非常に重要です。MTTF、MTTD、MTTR、MTBF などの KPI は、修復プロセスに関するより深い洞察を得て、最適化する領域を見つけるのに役立ちます。
残念ながら、各 KPI には微妙な類似点があるため、会社によって意味が異なります。たとえば、MTTF と MTBF はどちらも、デバイスが故障するまでにオンライン状態を維持できる時間を示しますが、MTTF はデバイスが故障するまでの時間 (修理のためにオフラインになる時間ではなく) を特定するために使用されることがよくあります。
会議中にこれらの頭字語が話題になった場合は、講演者に意味を明確にしてもらい、最終的には組織内でこれらの定義を固めて混乱を避けることをお勧めします。そうしないと、DOA になる可能性があります。
Mike Rodrigues は、IT 業界で 15 年以上の経験を持つ技術リーダーです。予測的な洞察と実用的なデータを提供する可観測性ツールを使用して、組織が IT エコシステムを合理化し、ミッション主導の成功を達成できるよう支援することに熱心に取り組んでいます。彼の専門知識は、ネットワーク管理、クラウド サービス、自動化に及び、IT 業界で常に先頭に立つための信頼できるアドバイザーとなっています。
私たちのブログを購読する
このような記事をあなたの受信箱に直接お届けします