サンプル ダッシュ ボードでのアプリケーションの監視

サンプル ダッシュボードを使用して、アプリケーションの稼働状況およびパフォーマンスを監視できます。
apmdevops102jp
サンプル ダッシュボードを使用して、アプリケーションの稼働状況およびパフォーマンスを監視できます。
サンプル ダッシュ ボードでのアプリケーションの監視
ダッシュボードは、パフォーマンスおよび可用性のメトリックの現在の状態または履歴をグラフィカルに表示する設定済みのウィンドウです。アプリケーション所有者は、Enterprise Manager からのアプリケーションの稼働状況およびパフォーマンスのデータを監視するために、WebView のコンソール ダッシュボードを使用します。これらのダッシュボードは、ステータスの概要ビュー、問題の迅速な特定、およびパフォーマンスの詳細情報を提供します。
ホームは WebView のデフォルト ビューです。アプリケーションを監視および管理するために、日常的に以下のサンプル ダッシュボードを使用できます。
  • CA Introscope の紹介
  • 概要
  • 問題分析
監視環境に応じて、その他のダッシュボードを利用できます。たとえば、以下のダッシュボードが WebSphere 監視環境で利用可能です。
  • WebSphere メッセージ ブローカ - 概要
  • WebSphere MQ クライアント/サーバ - 概要
  • Websphere MQ CPT - 稼働状況と可用性
以下の図は、一般的なワークフローを示しています。
monitor app
  1. システムの稼働状況を監視します。
  2. [概要]ダッシュボードからのアプリケーションの稼働状況およびパフォーマンスを監視します。
  3. アプリケーション パフォーマンスの問題を分析します。
  4. ダッシュボード データを表示および解釈します。
システムの稼働状況の監視
システムの概要ステータスを確認します。
以下の手順に従います。
  1. WebView の[コンソール]タブで、ドロップダウン リストから以下のサンプル ダッシュボードを選択します。
    An Intro to <wisc> (Sample in *SuperDomain*)
    システム概要アラートは、赤、黄、緑の 3 つのステータス インジケータのいずれかを表示します。灰色のアラートはデータをレポートしません。
  2. システムの状態を表示するには、アラートをダブルクリックします。
    [概要]ダッシュボードが開き、環境の全体的なステータスが表示されます。
[概要]ダッシュボードからのアプリケーションの稼働状況およびパフォーマンスの監視
[概要]サンプル ダッシュボードを使用して、キー パフォーマンス インジケータを監視し、アプリケーション パフォーマンスの問題がいつ存在するのかを特定できます。アプリケーション パフォーマンスの問題を視覚的に通知できます。たとえば、ダッシュボードには以下の情報がグラフで表示されます。
  • 3000 ミリ秒の警告しきい値を示す黄色のライン
  • 4000 ミリ秒の危険しきい値を示す赤色のライン
以下の手順に従います。
  1. WebView の[コンソール]タブで、ドロップダウン リストから以下のサンプル ダッシュボードを選択します。
    Overview (Sample in *SuperDomain*)
    ダッシュボードのData Viewerでは、データを視覚的に表示します。
  2. キー パフォーマンス インジケータが表示されます。これらは、環境の全般的な稼働状況とパフォーマンス ステータスを表示します。キー パフォーマンス インジケータにはすべて、対応するヒューリスティック メトリックがあります。
    ヒューリスティック メトリックを表示するには、アラートを右クリックします。すると、ポインタが手の形に変わります。[リンク]ドロップダウン リストから、管理モジュール エディタ内の対応するメトリックに移動します。正しいしきい値が設定されていることを確認します。
  3. さまざまな時点のデータの表示。データのデフォルトのビューは[ライブ]です。
  4. 各グラフに標準メトリックを表示します。標準メトリックには、監視対象のアプリケーションの平均応答時間、処理能力、CPU 使用率、およびエージェントの接続状態が表示されます。[概要]ダッシュボードには、以下のグラフが含まれます。
    • ユーザ エクスペリエンス
      監視対象のアプリケーションの平均応答時間の合計、およびアプリケーションの処理能力(間隔ごとの応答数)を表示します。間隔は 15 秒です。間隔ごとに 45 個の応答は、1 秒に 3 ヒットの処理能力があると計算されます。
    • バックエンド
      接続されたバックエンド システムの平均応答時間および処理能力を表示します。モニタ対象のアプリケーションが接続するものであれば何でもバックエンド システムと考えられます。たとえば、データベース、LDAP サーバ、メール サーバなどが含まれます。
      Introscope は、自動的に接続したシステムを識別し、その性能を監視します。ほとんどの場合、応答が不良なのは、そのバックエンド システムの 1 つに直接の原因がある可能性があります。
    • キー リソース
      Introscope が監視する .NET プロセスおよび Java プロセスの CPU 使用率を表示します。
      このグラフは、サーバ上の全体的な CPU 使用率を表していません。これは、.NET プロセスまたは Java プロセス自体の CPU 使用率を表します。
    • エージェント
      エージェントの接続状態を表示します。Introscope は、接続されたエージェントの状態を、1 または 3 の値を持つメトリックとして以下のようにレポートします。
      • 1 の場合は、エージェントが Enterprise Manager に接続されていることを表します。
      • 3 は、エージェントが Enterprise Manager から接続解除されていることを表します。
      グラフは、接続されたエージェントの上位 10 個を表示します。接続が解除されたエージェントのほうが、接続しているエージェントの値よりも大きいため、接続が解除されたエージェントが最初に表示されます。
    : グラフは 15 秒の精度で表示されます。精度は設定可能ではありません。
  5. Average Response Time (平均応答時間)をほかのメトリックの変化と組み合せて、傾向を分析することで、パフォーマンスの問題を識別します。
  6. 情報を確認し、問題が存在するかどうかを特定します。
アプリケーション パフォーマンスの問題の分析
[問題分析]サンプル ダッシュボード内のアラート インジケータおよび基になるメトリックを確認することにより、アプリケーション パフォーマンスの問題を分析できます。
以下の手順に従います。
  1. WebView の[コンソール]タブで、ドロップダウン リストから以下のサンプル ダッシュボードを選択します。
    Problem Analysis (Sample in *SuperDomain)
  2. [時間ウィンドウ]ドロップダウン リストから時間範囲オプションを選択します。
  3. [精度]を選択します。
    このドロップダウン リストを使用して、時間精度を変更することができます。デフォルトは、[時間]ウィンドウで選択した時間範囲に基づいています。
  4. 環境全体の稼働状況を示すアラート インジケータを確認します。
  5. 以下のグラフに表示されるメトリックを確認します。
    • アプリケーション平均応答時間
      監視対象のアプリケーションの合計応答時間を表示します。Average Response Time (平均応答時間)をほかのメトリックの変化と組み合せて、傾向を分析することで、問題を識別することができます。
    • 間隔ごとの応答数
      監視対象のアプリケーションの処理能力を表示します。
    • アプリケーションのストール数
      バックエンド システムを含む、アプリケーションの全コンポーネントにおけるストールを表示します。
      ストールは、実運用アプリケーションの多くの問題の原因を特定するための重要なメトリックです。リクエストが行われたが、アプリケーションが 30 秒以内に応答しなかった場合にストールが発生します。実運用環境で発生するストールの原因のほとんどは、リクエストに対して、バックエンド システムが応答を停止したことにあります。
      Introscope は、アプリケーションが接続するバックエンド システムを自動的に識別し、それらのシステムでストールが発生していないかどうかを監視します。バックエンド システムが見つからない場合は、そのシステムが監視されないままになります。
      監視されていないバックエンド システムでストールが発生すると、アプリケーションで派生的に発生したストールによって、ストールが発生していることは認識されます。システムでは、原因を特定できません。このような場合は、[上位並行処理ソケット通信数]グラフを使用して、問題の原因を特定します。
    • 上位並行処理ソケット通信数
      ソケット並行処理メトリックの結果を表示します。
      ソケット並行処理メトリックには、リーダおよびライタの 2 種類があります。リーダ メトリックとは、バックエンド システムがソケットを介してデータを返信するのを待っているアプリケーション内のリクエストの数のことです。ライタ メトリックとは、バックエンド システムがソケットを介してデータを受信するのを待っているアプリケーション内のリクエストの数のことです。
      アプリケーション内のストールが、Introscope で認識されないバックエンド システムによって引き起こされた場合は、並行処理ソケットのリーダまたはライターの概要を確認すると、原因システムを特定できることがよくあります。
  6. 問題を切り分けるには、データをレポートするエージェントのメトリック データをフィルタします。
  7. エラーとストールの頻度および性質を確認します。
  8. 問題の根本原因を特定します。
  9. 開発者に問題を報告します。
ダッシュボード データの表示および解釈
ダッシュボード データは、さまざまな方法で表示および解釈できます。
  • さまざまな時点のデータの表示。
  • 標準メトリックの表示。
  • Average Response Time の傾向の解釈。
Data Viewer の種類
Data Viewer は、Investigator のプレビュー ペイン、またはコンソール ダッシュボードにあるオブジェクトです。このオブジェクトは、管理対象アプリケーションのデータを見やすい形で示します。Data Viewer は、メトリック、リソース、またはエレメント(アラート)のデータを表示できます。データが存在しない場合、ビューアは種類別にラベルを表示します(例: テキスト ビューア: データがありません)。
: Workstation コンソール ダッシュボードに表示されるウィジェットのいくつかは、WebView ではサポートされていません。たとえばゲージ、矢印線、またはイコライザ ウィジェットなどは表示されません。
以下の表に、Data Viewer の種類を示します。
Data Viewer
内容
アラート
アラートに定義された状態に応じて、以下の 3 つのインジケータのいずれかが表示されます。
緑色の円形 -- アラート設定で指定した警告または危険しきい値に違反しているメトリックはありません。
黄色の菱形 -- 警告。アプリケーションまたはコンポーネントを使用すると、満足できない結果になる可能性が高いことを示します。
赤色の八角形 -- 危険。直ちに対応する必要がある問題です。
灰色 -- データ レポートなし。
グラフ
グラフでは、時間の流れに沿って値が示されます。リアルタイム ビューでは、グラフに収まる範囲で、直前の一定期間のデータが動的に表示されます。アラートをグラフで表示した場合、警告しきい値と危険しきい値がそれぞれ黄色の線と赤色の線で表示されます。
棒グラフ
現在のデータ値が水平方向の棒で表されます。棒グラフは、上位 N 件を示すフィルタされたビューに対応するデフォルトの表示方法です。
アラートを棒グラフで表示した場合、棒の色は、緑、黄、または赤です。棒グラフは、ライブ データの表示にのみ使用できます。
ダイヤル メータ
ダイヤル メータでは、現在の値が半円ダイヤル上の位置で示されます。時間範囲を選択して履歴データを表示すると、ダイヤルは時系列グラフに変換されます。ダイヤル メータはダッシュボードに表示されます。
ストリング ビューア
ストリング ビューアでは、値を 1 行のテキストで示すことができます。ストリング ビューアを使用すると、複数の値を比較的小さいエリアに表示できます。また、変化しない単純な値(起動時間または IP アドレスなど)を表示する場合にもストリング ビューアを使用することができます。
テキスト ビューア
テキスト ビューアは、システム ログや例外ログなど、古い値に新しい値が追加されるデータのテキストを表示します。
: グラフィック イコライザおよびアプリケーション問題切り分けマップ Data Viewerはサポートされていません。データ ビューアの操作の詳細については、「データ ビューアの使用」を参照してください。
さまざまな時点のデータの表示
ライブ データを表示できます。また、時間範囲を選択して、さまざまな時点のデータを表示できます。データのデフォルトのビューは[ライブ]です。
ブラウザの上部にある[時間ウィンドウ]を確認することで、WebView がライブ モードであるかどうかを確認できます。
ダッシュボードでさまざまな時点を表示するには、以下のタスクを実行します。
  • 履歴データの表示。
  • カスタム時間範囲の定義。
履歴データの表示
アプリケーションを監視する場合、ライブ データ ビューが変化し、常に最新のデータが表示されます。ライブ データはデフォルト ビューです。時間範囲を選択すると、履歴データを表示できます。履歴データでは、問題が発生した時刻を特定できます。
以下の手順に従います。
  1. WebView の[コンソール]タブで、[ダッシュボード]ドロップダウン リストから履歴データを表示するダッシュボードを選択します。
  2. [時間ウィンドウ]ドロップダウン リストから、履歴ビュー用の時間範囲([24 時間]など)を選択します。
    選択した時間範囲([24 時間]など)を使用して、その範囲のダッシュボードのデータが表示されます。終了時刻は現在の時刻に設定されます。
  3. [精度]を選択します。
    このドロップダウン リストを使用して、時間精度を変更することができます。デフォルトは、[時間]ウィンドウで選択した時間範囲に基づいています。
  4. 開始時刻を変更する場合は、[時間ウィンドウ]の横にある進む矢印および戻る矢印をクリックします。
  5. 範囲の終了時刻を現在時刻にリセットする場合は、[ウィンドウの終端を現在の時刻に設定]をクリックします。
カスタム時間範囲の定義
コンソール内のデータを表示するカスタム時間範囲を定義できます。
以下の手順に従います。
  1. 履歴データを表示する対象となるメトリックまたはダッシュボードを選択します。
  2. [時間ウィンドウ]ドロップダウン リストから[カスタムの範囲]を選択します。
  3. [カスタムの範囲]ウィンドウが開き、現在の日付(今日)がシルエットで強調された状態で表示されます。
  4. [精度]を選択します。
    このドロップダウン リストを使用して、時間精度を変更することができます。デフォルトは、[時間]ウィンドウで選択した時間範囲に基づいています。
  5. カレンダ コントロールを使用して開始日と終了日を選択します。
  6. [OK]をクリックします。
    カスタム範囲のデータが設定されます。
ダッシュボードでより多くの情報を提供
ダッシュボードに示されたデータに関してより詳細な情報を必要とする場合は、以下のショートカットを使用します。
  • ハイパーリンクを持つダッシュボード オブジェクトの上にマウス カーソルを合わせます。すると、ポインタが手の形に変わります。オブジェクトのデフォルト ターゲットへのリンクに移動するには、オブジェクトをクリックします。
  • Data Viewer内のダッシュボード オブジェクトを右クリックします。すると、ポインタが手の形に変わります。[リンク]ドロップダウン リストから、管理モジュール内の対応するオブジェクトに移動します。Data Viewerが、基となるメトリック グループに自動的にリンクされます。
  • エレメントの上にマウス ポインタを置いて、ステータスを確認します。
  • エレメントの上にマウス カーソルを合わせて、ヒントを表示します。ヒントは、[問題切り分けマップ]タブと[メトリック ブラウザ]タブの両方に存在する階層ツリーおよび[ビューア]ペイン内のメトリック パスおよび値を識別します。ツリー内のメトリックを表示するには、ヒント内のハイパーリンクをクリックします。
ダッシュボードに関する全体的なステータス インジケータ
ダッシュボード上のアラート インジケータは、環境の全体的な状態、およびキー パフォーマンス インジケータの環境への影響を表示します。
インジケータ
内容
全体
アプリケーションのユーザに対する全体的なエクスペリエンスは?
応答時間
アプリケーションに関する応答時間は?
エラー
アプリケーションのユーザにエラーが発生しているか?
ストール
アプリケーションがストールしていることがあるか?
CPU
アプリケーションによる CPU の消費率は正常か?
スレッド プール
アプリケーションのスレッド プールには十分な数のスレッドがあるか?
JDBC プール
アプリケーションの接続プールには、十分な JDBC 接続があるか?
アラート ヒューリスティック メトリック
サンプル ダッシュボード上のアラートのキー パフォーマンス インジケータにはすべて、対応するヒューリスティック メトリックがあります。ヒューリスティック メトリックの値は、1、2、または 3 です。
  • 1 という値は、キー パフォーマンス インジケータの現在の状態が正常であることを示します。
    たとえば、全体的な応答時間が通常は 600 ~ 1000 ミリ秒の間で変化し。現在の値が 835 ミリ秒だとします。応答時間のヒューリスティック メトリックは 1 とレポートされます。
  • 2 という値は、キー パフォーマンス インジケータの現在の状態が正常な状態から外れていることを示します。
    たとえば、CPU 使用率が通常は 30 ~ 60% で現在の値が 75% の場合、ヒューリスティックの値は 2 になります。
  • 3 という値は、キー パフォーマンス インジケータの現在の状態が正常な状態から大きく外れていることを示します。
    たとえば、アプリケーションが通常はストールがまったくないか、アプリケーションのデータベースが要求への応答を停止した場合などです。ストールの数は、10 などの比較的大きな数に増える可能性があります。このような場合、アプリケーションのストール ヒューリスティックは、値 3 をレポートします。
標準メトリック
WebView は、エージェントがメトリックとしてリモートおよびローカル システムから収集するアプリケーション パフォーマンス データを表示します。監視対象のフロントエンドおよびバックエンドのアプリケーション コンポーネント、およびその他の多くのアプリケーション コンポーネントについては、以下の標準メトリックが表示されます。
  • Average Response Time (ms) (平均応答時間(ミリ秒))
    -- 基準となるアプリケーション応答速度。
  • Concurrent Invocations (同時進行中の呼び出し)
    -- 一定の時間に処理される要求の数。
  • Errors Per Interval (間隔ごとのエラー数)
    -- 指定した時間スライス中に発生するエラーの数。
  • Responses Per Interval (間隔ごとの応答数)
    -- 指定した時間スライス中に完了した要求の数。
  • Stall Count (ストール数)
    -- ストールの数。ストールは、指定した時間しきい値内に完了しなかった要求です。
Average Response Time の傾向
Average Response Time をほかのメトリックの変化と組み合せて、傾向を分析することで、問題を識別し、診断できます。詳細については以下の表を参照してください。
Average Response Time の傾向
定義
継続的な問題
Available Thread Count の値が低く、Average Response Time の値が一貫して高い場合は、以下の問題を示している可能性があります。
非効率なコード
外部システムの過剰使用
バックエンドが遅い
レイヤが多すぎる
一貫した問題が常に存在し、改善することも悪化することもありません。
定期的な問題
Average Response Time が定期的に高くなり、定期的に急増した後、通常に戻るというようなグラフで示されます。
Available Thread Count の値が低く、Average Response Time の値が定期的に高くなる場合は、以下の問題を示している可能性があります。
GC リークが頻繁に発生
負荷に関連するバックエンドのボトルネック
CPU Utilization の値が低く、Average Response Time の値が定期的に高くなる場合は、以下の問題を示している可能性があります。
内部問題
定期的な問題が発生し、一定の間隔で収まります。
進行的な問題
Average Response Time が長期にわたって着実に増加しており、Responses Per Interval の値が低い場合は、以下の問題を示している可能性があります。
メモリ リーク
段階的な問題は時間と共に減少します。