可観測性 101: ジュード・ベイカーとのチャット

可観測性 101: ジュード・ベイカーとのチャット

私たちは最近、 ジュード・ベイカーLogicMonitor のソリューション エンジニアの XNUMX 人である が、IT とオブザーバビリティの未来について語ります。 Jude の役割の一部として、彼女は顧客や企業と毎日話す必要があります。 彼女は何年にもわたって、運用チームから C レベルのエグゼクティブに至るまで、これらの業界やセグメント全体の主要なトレンドについて比類のない洞察を集めてきました。 Jude は日々の経験の中で、オブザーバビリティを間近で個人的に見ており、顧客や見込み客からのフィードバックを利用して継続的に改善しています。

ジュードには水晶玉はありませんでしたが、彼女の現在のエコシステムがどのようなものであるか、そしてハイブリッドの世界に進むために何が期待できるかを理解しました. ジュードは、より良い未来へのロードマップとなる可能性があると考えているものとともに、彼女が見ている市場について説明してくれました。

LogicMonitor: 本日はご参加いただきありがとうございます。 ジュード、今日の IT の状態についてどう思いますか?

ジュード・ベイカー: 現在、「オンライン プレゼンス」(COVID に感謝)、より「洗練されたワークフロー」、「モダナイゼーション」、「クラウド ネイティブ」、「エフェメラル」、「コンテナ化」、「ITOM」、「相乗効果」など、非常に多くの流行語があります。 . しかし、私はそれを「変化」という一言に要約します。 IT は水の移動のようなものです。 変化を受け入れれば、すぐに流れていきます。 たったXNUMX年前には不可能だと思っていたことが、今では私たちの日常になっています。 私たちの周りで起こっている絶え間ない進化に対して心を開いておくことが重要です。 そして今、その大きな変化はオブザーバビリティです。 

LM: オブザーバビリティとは正確には何ですか?どのようにそれを達成していますか? 

JB: IT ランドスケープは、さまざまなテクノロジとベンダーに基づいて構築されています。 しかし、状況は変わります。 チームは新しいプロセスや技術を採用し、古いものを外に出し、新しいものを取り入れます。 可観測性は、私たちの疑問に対する答えを見つける方法を提供してくれます。 可観測性は、システムの内部状態が、技術的、機械的、解剖学的、またはまったく別の外部出力の知識からどの程度推測できるかを測定します。

コンテキスト、相関関係、インテリジェンスの間の循環プロセスとして真の o11y を達成するための道筋を示すグラフ。

IT 環境のパフォーマンスを適切に観察するには、これらのレイヤーにまたがる回答が必要です。 これらの答えは、関連付け、処理、文脈化できるデータを通じて提供されます。 内部で何が起こっているかを判断するために、外部に表示されているものを取得しています。

なぜこれが重要なのですか? 良いデータがあれば、より良い意思決定ができ​​ます。 フルスタックの可観測性は、ランドスケープが進化するにつれてシステムの制御と可視性を獲得するための鍵です。

LM: 「フルスタック」可観測性とはどういう意味ですか? 

JB: このビューに必要な主なデータ タイプは、メトリック、トレース、およびログの XNUMX つです。

一部のメトリックには、CPU、メモリ、およびディスクのパフォーマンスの追跡が含まれます。 これは、プロセッサー速度または RAM に関する決定を下すのに役立ちますが、現代の DevOps は他のメトリックにアクセスする必要があります。 アプリケーション パフォーマンス モニタリング (APM) を通じて、ページの読み込み時間やエラー率などのメトリックを組み込み、オブザーバビリティを最大限に高めることができます。

指標を通じて可視性を高めます。 - 広範なカバレッジとサポート、またはますます複雑化する環境。 -アプリケーション ワークフローの全体的なパフォーマンスと可用性を表示する -アプリとインフラストラクチャ内の故障とボトルネックを特定する -技術スタックのレイヤー間でデータを関連付ける

次に、トレースがあります。 トレースは、システム内の個々のイベント (スパンと呼ばれる) を明確に示しますが、親ケースと子ケースの間の相互作用も示します。 

トレース - データを理解する

最後に、実行中のコードに基づいてプログラミング言語とフレームワーク ライブラリを介して生成できるログ (フラット ログ ファイル) を取得します。 これらのログを集約することで、後でアクセスできるように送信および保存できるため、時間を節約し、ログをより効果的にデバッグに使用できます。

ログ - 計画外のダウンタイムを最小限に抑える

LM: すばらしい説明です。 では、企業はどのようにしてオブザーバビリティを開始できるのでしょうか? あなたのアドバイスは何ですか?

JB: それに応じて計画します。 絶え間なく変化するインフラストラクチャの状況をナビゲートし、質問に答え、オブザーバビリティを通じて洞察を提供する能力に自信を持つことで、チームはよりスリムで意地悪になります。 従うべき良い概要は次のとおりです。 

  • Q1: オブザーバビリティを実現するには、前述の各柱を利用してパフォーマンスを改善する必要があります。 XNUMX つのテレメトリがすべて連携すると、「なぜこの機能が機能しないのか?」などの質問に答える膨大な洞察が得られるはずです。 または「最新の更新中に何が問題になったのですか?」
  • Q2: テレメトリは違いを生んでいますか? オブザーバビリティの XNUMX つの柱を使用していて、システムの正常性に関する回答や洞察が得られない場合は、分析のレベルに問題がある可能性があります。 観察可能なシステムで最も有益な結果を得るには、詳細な分析が必要です。 また、収集されたデータがタスクに関連していることを確認してください。
  • Q3: リアルタイム データはオブザーバビリティの重要な要素です。 最新の情報を受け取っていない場合は、より監視可能なシステムを実装するための取り組みの一環として、これを改善するための措置を講じてください。 監視可能なシステムでリアルタイム データを使用すると、計り知れない価値がもたらされ、トラブルシューティングやパフォーマンスの向上に役立ちます。
  • Q4: 監視可能なシステムを持つことの最大の利点の XNUMX つは、システムの状態を詳しく調べるために追加のコーディングや開発を行う必要がないことです。 機能やデータを理解するためにさらに作業を行う必要がある場合は、オブザーバビリティに完全には到達していません。

LM: ビジネスがオブザーバビリティ ソリューションに移行する可能性のある課題にはどのようなものがありますか?

JB: すべては、チームが可観測性を実現するための適切な監視ツールまたはプラットフォームを持っていないことに帰着します。 オブザーバビリティの実際の状態を達成するということは、s*** がファンに当たったときによくある落とし穴を回避する必要があることを意味します。 ツールの無秩序な広がり、回転椅子での会話、複数のチームへの電子メールの送信、応答の待機、誤解による電子メールの作成と再作成、アプリケーションの正常性に寄与するコンポーネントに関する適切なレポートの実行などです。 そして、たとえレポート用のデータがあったとしても、可視性は限られています! 要するに、このケーキを焼くための材料を持っているか、それとも代替品に賭けるか?という質問に要約されます。

複数のツールと中途半端なレポートから回答を得るのにどれくらいの時間がかかりますか? そのように時間がかかるということは、お金を失っているということです。 そして、スケーリングに苦戦しているため、ビジネスは従来のテクノロジーに限定されたままになり、すべてが同じギアに閉じ込められています。 

o11y の一般的な落とし穴の欠如: -ツールのスプロール化 = データの関連付けが困難 -可視性の制限 = データの表示が困難 -手間のかかるトラブルシューティング = ダウンタイムによる損失 -拡張への苦労 = ビジネスの成長の制限 + 陳腐化への道

LM: オブザーバビリティに関してあなたが支持する主なものは何ですか? 

JB: 最も高度な監視ツールの一部でさえ、アプリやソフトウェアの全体的な正常性と機能の限られたビューしか提供しません。 これは、多くの場合、データが不正確であるか、収集されたデータが無関係である可能性があるためです。 可観測性により可視性が向上し、開発者や企業は十分な情報に基づいた意思決定を行うことができます。 従来の監視ツールでは、イベント ログにエラーが表示される場合があります。 エラーが発生したことは通知されますが、このエラーが発生した理由についての情報はほとんどありません。 オブザーバビリティを使用すると、イベント ログから、「なぜ」の方向性を示すメトリクスとトレースと共に情報を受け取ることができます。 これにより、DevOps または ITOps チームはシステムをよりよく理解し、同様の状況を防ぐことができます。

LM: できる限り予測してください。

JB: 丁度! オブザーバビリティが整っていると、開発者のストレスが軽減されます。 問題を特定するために無数の時間を無駄にするのではなく、問題を修正することに集中して、問題をリアルタイムで特定できます。 その結果、計画外のダウンタイムが減少します。 これにより、顧客満足度が向上し、アプリまたはシステムの全体的な品質が向上します。

ソフトウェア開発チームと IT 運用チームが監視可能なシステムを使用すると、トラブルシューティングやハングアップの修正に費やす時間が短縮されます。 これにより、UX に集中できるようになり、より収益性の高い合理化されたアプリやソフトウェアにつながります。 アジャイル環境を採用し、オブザーバビリティを優先する組織は、効果的なスケーリングを行う上で有利な立場にあります。 監視可能なシステムにより、企業はセキュリティを犠牲にすることなく、より多くの業務を行うことができます。

LM: これは素晴らしい。 本当にありがとう。 では、どこで詳細を確認できますか?

JB: お招きいただきありがとうございます! それは素晴らしいチャットでした。 可観測性や業界に関する私の考えについて詳しく知りたい場合は、つながりましょう。 こちらのLinkedinで私をフォローしてください.