ベストプラクティス

MTTR、MTTD、MTTF、MTBFの違いは何ですか?

私たちは皆そこにいました。 あなたはあなたのチームと重要なズームコールを行っており、誰かがあなたがよく知らない略語を使用しています。 あなたはそれを聞いたことがありますが、それが何を意味するのか正確にはわかりません。 あなたは簡単なグーグルをしたいが、あなたはあなたのスクリーンを共有している! うーん。

インシデント管理KPI(主要業績評価指標)のこれらの略語のいくつかを分解してみましょう。 これで、サポートチームとの次のZoomコールでSOLに気付くことはありません。 ちなみに、それらは技術的には「頭字語」です。 「頭字語」は発音可能である必要があります(例:NASA)。 タイトルの頭字語のいずれかを発音できる場合は、発音しないでください。

飛び込みましょう、FTW!

MTTFとは何ですか?

MTTFは、平均故障間隔を表します。 これは、特定のデバイスの平均寿命です。 平均故障間隔は、すべてのデバイスの寿命を合計し、それをデバイスの数で割ることによって計算されます。

MTTF =デバイス全体の総寿命/デバイスの数

MTTFは、回転するディスクドライブなどの修復不可能なデバイスに固有です。 メーカーはMTTFの観点からその寿命について話します。 


たとえば、ストレージアレイから引き出された2.1つのデッドドライブについて考えてみます。 SMARTは、それらがそれぞれ2.7。2.3年、XNUMX。XNUMX年、およびXNUMX。XNUMX年続いたことを示しています。

(2.1 + 2.7 + 2.3)/ 3 =〜2.37。XNUMX年MTTF

将来的には、別のドライブを購入する必要があります。

MTTFは、代わりに平均故障間隔を表しますが、「失敗」がより一般的な意味のようです。

関連する

MTBFとは何ですか?

MTBFは、平均故障間隔を表します。 MTBFは、修復可能なものの障害間の平均時間を識別するために使用されます。 

平均故障間隔は、デバイスのすべての寿命を合計し、障害の数で割ることによって計算されます。

MTBF =デバイス全体の総寿命/障害数

総寿命には、障害後にデバイスを修復するのにかかる時間は含まれていません。 

MTBFの例は、平均して、オペレーティングシステムがランダムなクラッシュの間に稼働し続ける時間です。 

関連する 

MTTRとは何ですか?

MTTRは、平均修復時間、平均回復時間、平均解決時間、平均解決時間、平均復元時間、または平均応答時間を表します。 修復までの平均時間と回復までの平均時間が最も一般的であるように思われます。 

修復(および復元)の平均時間は、障害が発見されてからシステムを修復するのにかかる平均時間です。 これは、修理に費やされた合計時間を加算し、それを修理の数で割ることによって計算されます。 

MTTR(修理)=修理に費やされた合計時間/修理の数

たとえば、アレイから5台のドライブを引き出したとします。そのうちの6台は、ドライブをウォークオーバーして交換するのにXNUMX分かかりました。 ドライブスレッドが少し詰まっていたため、XNUMX番目のものはXNUMX分かかりました。 そう:

(5 + 5 + 6)/ 3 = 5.3分MTTR

修復の平均時間は、障害が発生したシステムが復元可能であり、交換の必要がないことを前提としています。 これは、修正する平均時間と同義です。 

回復、解決、および解決までの平均時間は、何かがダウンしてから元に戻って完全に機能するまでにかかる時間です。 これには、問題の発見から修正までのすべてが含まれます。 DevOpsとITOpsでは、MTTRを最小限に抑えることが重要です。 

MTTR(回復)=検出と修復に費やされた合計時間/修復の数

応答する平均時間は、束の中で最も基本的なものです。 応答する平均時間は、障害に応答するのにかかる平均時間です。 

関連する

MTRSとは何ですか?

MTRSは、サービスを復元するための平均時間を表します。 MTRSは、障害が検出されてから戻って完全に機能するまでにかかる平均時間です。 MTRSは平均回復時間と同義であり、平均回復時間と平均修復時間を区別する方法として使用されます。 MTRSは、ITIL v4によると、より正確で混乱が少ないため、平均修復時間の推奨用語です。 

MTRS = 総ダウンタイム/失敗数

関連する 

MTBSIとは何ですか?

MTBSIは、サービスインシデント間の平均時間を表し、信頼性を測定するために使用されます。 MTBSIは、MTBFとMTRSを合計して計算されます。

MTBSI = MTBF + MTRS

MTTDとは何ですか?

MTTDは、検出する平均時間を表します。 これは、何かが失敗したことに気付くのにかかる平均時間、またはおそらくシステムです。 MTTDは、障害から検出までのすべての時間を合計し、それらを障害の数で割ることによって計算できます。

MTTD =障害と検出の間の合計時間/障害の数

MTTD は、 監視プラットフォーム 環境内のすべてをチェックできます。 LogicMonitor のような監視プラットフォームを使用すると、環境内のすべてを自動的にチェックすることで、MTTD を XNUMX 分以内に短縮できます。 

関連する

MTTIとは何ですか?

MTTIは、識別するための平均時間を表します。 識別の平均時間は、ユーザーまたはシステムが問題を識別するのにかかる平均時間です。 

関連する

MTTKとは何ですか?

MTTKは、知るための平均時間を表します。 MTTKは、問題が検出されてからその問題の原因が発見されるまでの時間です。 言い換えると、MTTKは、問題が発生した理由を理解するのにかかる時間です。 

MDTとは何ですか?

MDTは平均ダウンタイムの略です。 MDTは、単にシステムまたはデバイスが機能していない平均期間です。 MDTには、スケジュールされたダウンタイムとスケジュールされていないダウンタイムが含まれます。 ある意味で、これは究極のKPIです。 目標は0です。回復までの平均時間を改善すると、最終的にMDTが改善されます。

MTTAとは何ですか?

MTTAは、確認するまでの平均時間を表します。 確認応答の平均時間は、障害が検出されてから問題に取り組み始めるまでの平均時間です。

MTTA =検出された障害を確認するための合計時間/障害の数

100メートルのダッシュを想像してみてください。 開始ホーンが鳴ります、あなた 検出 数ミリ秒後です。 その数ミリ秒後、あなたの脳は 認め 足を動かし始めてホーンを鳴らします。 それを100回測定し、100で割ります、出来上がり、MTTA。

このKPIは、オンコールのDevOpsエンジニア、およびサポートの役割を持つすべての人にとって特に重要です。 DevOpsエンジニアは、MTTRを低く保ち、不必要なエスカレーションを回避するために、MTTAを低く保つ必要があります。 サポートスタッフは、顧客を満足させるためにMTTAを低く抑える必要があります。 あなたがまだ解決に向けて取り組んでいるとしても、顧客は彼らの問題が認識され、迅速に取り組んでいることを知りたがっています。

関連する 

MTTVとは何ですか?

MTTVは、検証の平均時間を表します。 検証の平均時間は通常、サービスを復元する平均時間の最後のステップであり、修正が実装されてから、修正が機能し、問題が解決したことを検証するまでの平均時間です。

MTTV =解決を確認するための合計時間/解決された障害の数

コードレベルでの単体テストを通じて、またはインフラストラクチャ、アプリケーション、またはサービスレベルでの監視プラットフォームを使用して検証を自動化することにより、組織内でこのKPIを向上させることができます。

比較

MTTFとMTBF

MTTFとMTBFの主な違いは、発生した障害に応じて、それぞれがどのように解決されるかです。 MTTFでは、壊れたものが置き換えられ、MTBFでは壊れたものが修復されます。 

MTTFとMTBFは、文言から自然に続きます。 「失敗する」とは、そこで終わることを意味します。 「障害間」とは、複数存在する可能性があることを意味します。

多くの実際的な状況では、MTTFとMTBFを同じ意味で使用できます。 他の多くの人がそうします。

ハードウェア障害の解決策は、通常、交換です。 問題のあるスイッチを修理している場合でも、故障したスイッチの一部を交換している可能性があります。 オペレーティングシステムのクラッシュのようなものには、「交換」ではなく「修理」と考えることができるものが必要です。

MTTFとMTBFは、主にベンダーとメーカーの関心事です。 ドライブのMTTFを変更することはできませんが、RAIDで実行することはできます。 インフラストラクチャ内の問題についてMTTRをドライブダウンする

通常、ハードウェアのMTTFまたはMTBFを直接変更することはできませんが、高品質のコンポーネント、ベストプラクティス、および冗長性を使用して、障害の影響を減らし、サービス全体のMTBFを増やすことができます。

MTTDとMTTI

検出する平均時間と識別する平均時間は、会社とコンテキストに応じてほとんど互換性のある用語です。 

MTTDとMTTA

インシデントと障害の検出と確認は類似しています, しかし、人間の要素でしばしば差別化されます。 MTTDは、ほとんどの場合、プラットフォームが通知する必要のある計算されたメトリックです。

たとえば、LogicMonitorの場合、MTTDは、障害が発生してからLogicMonitorプラットフォームが障害を特定するまでの平均時間になります。 

MTTAはこれを取得して人間のレイヤーを追加し、MTTDを取得して、何かが失敗したことを人間に認識させます。 

MTTAは重要です。異常や問題を検出するアルゴリズムは非常に正確ですが、それでも機械学習アルゴリズムの結果であり、人間は検出された問題が実際に問題であることを確認する必要があります。 

MTTFとMTTR–平均故障間隔と平均修理時間

平均故障間隔は通常、故障に関連する時間を測定します。 修復の平均時間は、システムを復旧して実行するまでの時間を測定します。 測定されるものが非常に異なるため、これは不公平な比較になります。

例として車を取り上げましょう。 あなたの2006年のホンダCR-Vが事故に遭ったとしましょう。 MTTFは、事故が発生してから新車を購入するまでの時間として計算できます。 MTTRは、事故が発生してから車が修理されるまでの時間です。 

MTBFとMTTR–平均故障間隔と平均修理時間

MTBFとMTTRは、より大きなプロセスの異なるステップとして関連付けられています。 MTBFは、修理が必要なデバイスの故障間隔を測定します。MTTRは、単に故障したデバイスの修理にかかる時間です。 つまり、MTBFはデバイスの信頼性を測定し、MTTRはデバイスの修理の効率を測定します。 

MTTFとMTTR–平均修理時間と平均修理時間

修理の平均時間と修理の平均時間は同じ意味で使用できます。 ほとんどの環境で推奨される用語は、平均修復時間です。

MTRSとMTTR–サービスを復元するための平均時間と修復するための平均時間

サービスを復元する平均時間は、サービスを修復する平均時間と似ていますが、障害から解決までの時間を使用する代わりに、修復が開始されてから完全な機能が復元されるまでの時間のみをカバーします。

一般に、KPIとしてのMTTRは非常に有用です。 修復プロセスとその効率については説明しますが、ユーザーがどれだけ苦しんでいるかについては説明しません。 壊れたドライブを見つけるのに3か月かかり、ユーザーのシステムの速度が低下している場合、5.3分のMTTRは役に立たないか印象的ではありません。

通常、顧客は、デバイスが修理時間よりもはるかにダウンしている合計時間を気にします。 彼らはできるだけダウンしたくない。 完全を期すために、これも計算してみましょう。

((5 + 5 + 6)+(3 + 3 + 3))/ 3 = 8.3分MTTR

一般に、MTTR KPIは、ITオペレーターとしてより役立つでしょう。 

まとめ

インシデントが発生した場合、時間が重要です。 これらのKPIを使用すると、修復プロセスをより深く理解し、最適化する領域を見つけることができます。
残念ながら、各KPIは微妙に類似しているため、その意味の多くは企業ごとに異なります。 これらの頭字語が会議で出てきたら、話者にその意味を明確にすることをお勧めします。 そうでなければ、あなたはDOAかもしれません。

著者
LogicMonitorチーム
免責事項: このブログで述べられている見解は著者の見解であり、LogicMonitor またはその関連会社の見解を必ずしも反映するものではありません。

私たちのブログを購読する

このような記事をあなたの受信箱に直接お届けします