可観測性スイートでのSLA、SLI、およびSLOの実装

可観測性スイートでのSLA、SLI、およびSLOの実装

SLA、SLI、およびSLOを 可観測性 スイートは現在、ビジネスクリティカルです。 時間の経過とともに、企業の意思決定者は、サーバーやその他のIT資産にビジネスインテリジェンスに過剰な処理時間を費やすことを余儀なくさせる、煩わしい数のKPIを追加する可能性があります。 やがて負担が大きくなり、従業員、管理職、経営幹部がシステムの停滞に不満を漏らし始めます。

開発者は、ビジネスニーズとITプロセスのバランスを取る必要があることを知っています。 可観測性スイート(o11y)を使用すると、システムの全体像を把握しやすくなり、他のユーザーがシステムの制限を理解できるようになります。

次の記事では、SLA、SLI、SLA、およびSREが、可観測性スイートを選択し、それを使用してデータ主導の意思決定を行う際にどのように役割を果たすかについて詳しく見ていきます。

Contents [show]

SLA(サービスレベルアグリーメント)とは何ですか?

SLAは、サービスレベルアグリーメントの略で、サービスまたはソリューションを サードパーティベンダー。 たとえば、ベンダーとクライアント間のSLAは、99.999パーセントのネットワーク可用性の期待値を設定する場合があります。

ほとんどの企業は、ネットワーク可用性の99.999%がニーズを満たしているか超えていることに気づいています。 ベンダーは、さらに信頼性の高い可用性を提供できる可能性がありますが、わずかな改善でも、サービスに費用を追加する膨大なリソースが必要になります。 企業が年間15分XNUMX秒の接続を失うことに耐えられない場合を除いて、より手頃なオプションを選択します。

SLAは、ネットワークの可用性を確保するだけではありません。 SLAで定義されているその他の一般的なメトリックは次のとおりです。

  • セキュリティ関連 –ウイルス対策の更新とパッチをインストールし、データ侵害やその他のサイバー攻撃を防止するための予防措置を講じるベンダーの義務。
  • 不良率 –クライアントがベンダーから受け入れることができるエラーの数または割合。 欠陥には、不完全なデータバックアップからネットワークエラーまで、あらゆるものが含まれる可能性があります。 理想的には、SLAは欠陥としてカウントされるイベントを定義します。
  • 技術的品質 – SLAは、サードパーティツールの成功に対するクライアントの期待を確立します。これには、製品内のコーディング欠陥の数や特定のデータ範囲内にとどまることが含まれる可能性があります。
  • 業績 –業績は、他の要因よりも最近SLAに追加されました。 KPIは、クライアントの業界と目標によって大幅に異なる可能性があります。 SLAは、混乱を避けるために、クライアントとサードパーティプロバイダーがKPIを計算する方法も定義する必要があります。

企業がSLAを満たしていない場合はどうなりますか?

SLAは、実際の期待を確立する拘束力のある契約です。 彼らは、サービスプロバイダーがクライアントのために何をするかを定義する必要があります。 また、期待を下回った場合の影響も定義する必要があります。

SLAペナルティは、サービスプロバイダーとクライアントに利益をもたらします。 契約にペナルティがなければ、クライアントはビジネス関係から離れることができます。 技術的には、サービスプロバイダーが契約を破ったため、クライアントは関係を継続する義務を負いません。 ペナルティを追加することにより、サービスプロバイダーは目標を達成するための金銭的インセンティブを得ることができます。 彼らはまた、クライアントを失うことに代わるものを手に入れます。

SLAペナルティの簡略版では、「クライアントAは、セキュリティ違反ごとに50,000ドルのクレジットを受け取ります」と言う場合があります。 セキュリティ違反が発生した場合、サービスプロバイダーはペナルティを支払います。 ペナルティは確かに彼らの経済的見通しを損ないますが、彼らはクライアントを維持することから利益を得ます。 ただし、失敗が繰り返されると、クライアントは契約の終了時に競合他社を選択するようになります。

全体として、SLAは、企業がクライアントと締結する単なる合意です。 多くの場合、SLAはSLOとSLIによってさらに分類されます。 従来、SLAとそのコンポーネントは通常、SREチームに関連するチームを含む運用チームによって焦点が当てられていました。 基本的に、SLOとSLIは、SLAを技術レベルで測定できる小さな断片に分割し、開発者チームがSLA内で概説されているクライアントの期待を本当に満たしているかどうかを判断するために使用します。 全体として、SLIはSLOの基盤を形成し、SLOはSLAの基盤を形成します。 以下のSLOとSLIの役割の詳細を確認してください。   

SLO(サービスレベル目標)とは何ですか?

SLOは、サービスレベル目標の略であり、クライアントとの確立された合意を満たすために会社が満たさなければならない目標または目標です。 SLOはSLIによって測定され、通常はSLAで概説されています。 ただし、SLAは企業とクライアント間の一般的な合意として機能しますが、SLOは、クライアントの期待を満たすために企業が満たさなければならない特定の個々のメトリックの期待を概説するために使用されます。 

可能であれば、サービスプロバイダーはSLOに改善の余地を追加したいと考えています。 予期しない出来事が企業のサービス提供能力にどのように影響するかを予測することは、不可能ではないにしても、困難です。 たとえば、サービスレベル目標では、サービスプロバイダーがクライアントのデータをXNUMX時間ごとにバックアップすることを示している場合があります。 技術的な問題によりその目標が不可能になった場合、契約上の義務を損なうことなく、できるだけ早くデータをバックアップできます。

SLI(サービスレベルインジケーター)とは何ですか?

SLIは、サービスレベルの指標を表し、企業が達成しようとしている実際の数値または指標の概要を示します。 基本的に、SLO内で概説されている目標または目的には、明確な数値の期待値が与えられ、これらの数値の期待値は、一般にパーセンテージとして定義され、SLIを構成します。 

全体として、サービスレベルインジケーターは、クラウドサービスプロバイダーなどのIT企業から取得した特定のサービスを調べ、そのサービスのパフォーマンスの定量化されたビューを提供します。 これは、DevOpsやその他の技術分野以外の人には複雑に聞こえるかもしれません。 基本的に、これは、クライアントが、会社またはサービスプロバイダーがサービスの期待を達成した(または満たしていない)ことを示す、直接的で正確なデータを取得することを意味します。

企業が細心の注意を払っている最も一般的なサービスレベルの指標には、次のものがあります。

  • 待ち時間または応答時間 –ユーザーが要求を送信してから応答を受信するまでの合計時間。
  • エラー率または品質 –通常、データの品質と発生するエラー率。
  • 稼働時間 –ホスティングサービスは、稼働時間を使用して、サーバーが機能している時間をパーセンテージで表します。
  • 利用可能在庫 –非常に多くの企業が、稼働時間と可用性が同じことを測定すると信じています。 稼働時間はサーバーの機能時間を表し、可用性は会社のWebサイトや機能などのサービスが利用できる時間を表します。 小さな中断は、稼働時間に影響を与えることなく可用性を低下させる可能性があります。

測定する指標の決定 

サービスプロバイダーは、競合他社のより良い代替手段として自社を売り込む必要があります。 一部の企業は、法外な数のメトリックを測定することを約束することにより、クライアントを引き付けようとしています。

企業は、一部の指標が他の指標よりもかなり重要であることを認識する必要があります。 不要な、または役に立たないメトリックを追跡すると、リソースと時間が浪費される可能性があり、企業が約束したサービスを提供することはほぼ不可能になります。

実用的なアプローチを取り、重要なメトリックを特定し、クライアントにとって本当に重要なメトリックの処理能力を確保する方が理にかなっています。 他の人は、サービスプロバイダーの成功に不可欠な計算時間やその他のリソースを吸い上げながら、気を散らすだけです。

これらはSRE(サイト信頼性エンジニアリング)にとって何を意味しますか?

SREは多くの場合DevOpsと連携して機能します、したがって、これらの専門家は、間違いが顧客に影響を与えるのを防ぐ方法を深く理解しています。

知識のある読者は、企業がサービスプロバイダーに依存しているレベルに気付くでしょう。したがって、SLA、SLI、およびSLOに概説されている保証があります。

企業がサードパーティのサービスプロバイダーを比較する場合、これらの期待を真剣に受け止める必要があります。 信頼できるサービスプロバイダーは、過去の過ちを認め、それらの課題をどのように克服するかを説明します。 すべてのテクノロジー企業はつまずきます。 問題を適応させて解決する能力は、完璧な記録以上のものを意味するかもしれません。 一部の人にとって、完璧な記録はかなり疑わしいように見えます。

エンジニアの観点からは、期待は将来のプロジェクトのニーズを満たす必要があります。 クラウドサービスプロバイダーは、ユーザー側で遅延を発生させることなくソフトウェア更新を実行するのに十分な処理能力へのアクセスを保証できますか?

経営幹部はエンジニアを会話に参加させ、チームが現在および将来の目標を最小限の中断で達成するために必要なリソースとサービスを確実に利用できるようにする必要があります。

これらの指標は、すべてのITにとって同じことを意味しますか?

SLA、SLI、およびSLOは、ITの領域全体で同じ一般的な意味を持っています。 ただし、エンジニアまたはプログラマーの懸念は、達成したいことによって異なります。

SLA、SLI、およびSLOに関しては、企業がWebサイトで何を達成したいかに応じて、ニーズが指数関数的に増大する可能性があります。 彼らはリードを生成するために画像とテキストベースのCTAを使用しますか? その場合、処理能力は大きな問題にはなりません。 会社は、ターゲットビデオをストリーミングし、自動化されたインタラクションをトリガーし、訪問者の行動を追跡したいと考えていますか? それにはより多くのリソースが必要になるため、開発者とプログラマーはサービスプロバイダーに期待できることに細心の注意を払う必要があります。

企業がビジネスインテリジェンス分析のために大量のデータを収集して分析したい場合、期待のレベルはさらに高まる可能性があります。

これらはすべて可観測性(o11y)にどのように結びついていますか?

可観測性(簡潔にするためにo11yに短縮されることが多い)は、チームに操作の全体的な概要を提供すると同時に、必要に応じて詳細に集中できるようにします。 SLA、SLI、およびSLOは、通常の動作のガードレールを確立するため、o11yに関連付けられます。

定義されたすべてのメトリックは、Webサイトやその他のシステムを維持する上で役割を果たします。 メトリックは、企業のニーズに一致するために設定されます。 パフォーマンスがこれらの基準を下回った場合、企業は顧客の信頼、ブランディング、および信頼性を妨げる課題を予期する可能性があります。

信頼できるo11yスイートを使用すると、テクノロジープロフェッショナルはデータ、アプリ、その他の資産を監視しながら、サードパーティのサービスプロバイダーが成功に必要なリソースを提供し続けることができます。 彼らは、システム全体を見て、潜在的な課題に集中し、新しい機能、製品、および顧客サービスを実験しながら、進化するニーズを監視することができます。

全体として、可観測性スイートの目標は、収集および分析できるデータからシステムの状態に関する洞察を提供することです。 可観測性スイートにSLA、SLO、およびSLIを実装することにより、IT運用チームは、協力する企業により良いサービスを提供し、目標を達成し、クライアントのニーズと期待をより適切に満たすことができます。

LogicBlogの他の記事

アンペアロボット 影

お店の話をしましょう。

STARTED GET