急速に変化する環境での APM Customer Experience アーキテクチャ
APM Customer Experience 管理者は、その監視システムがもはや最適ではなく、さまざまな修正の必要があることに気付いていないかもしれません。急激にアプリケーションの変更が行われている環境では、不適切な APM システムの影響を受けやすくなっています。
apmdevops104jp
問題の状況
APM Customer Experience 管理者は、その監視システムがもはや最適ではなく、さまざまな修正の必要があることに気付いていないかもしれません。急激にアプリケーションの変更が行われている環境では、不適切な APM システムの影響を受けやすくなっています。
解決方法
急激な変更が行われている APM Customer Experience 環境に対応するためのフレームワークとして、以下の情報を使用します。不適切な環境に見られる兆候と、その対処方法について説明します。
優秀な APM Customer Experience 管理者は、自社の監視環境が適切に動作しているか、また、変更が必要になるまでどれぐらいのキャパシティがあるかを認識しています。APM の不適切な監視環境を回避し、発生した場合、できるだけ早く修正します。継続的な事前の APM Customer Experience キャパシティ プランニングと調整によって、不適切な環境を避けることができます。
急速に変化する環境での APM 環境の認識
以下の兆候を参照して、APM 環境が急速に変化しているかどうかを確認してください。
- 複数のアプリケーションが月単位で追加されている。
- 特定済みのユーザが 10,000 人いて、日単位で増加している。
- アクティブな障害が 100,000 で、日単位で増加している。
- TIM および Transaction Events and Statistics Server (TESS)-MOM で、遅延およびさまざまなエラーが発生している。
- APM データベースで、遅延およびレコード操作の長時間の待機が発生している。
- TIM で全体の CPU 使用率が 60 パーセントを超え、スループットは発行済みの許容レベルに近く、頻繁に再起動されている。
- より多くのデータセンタが企業内に追加され、より多くの TIM を必要とする可能性がある。
- TIM コレクション サービスが、有効になっている TIM の数によって生成される負荷に対応できない。注:この負荷は、APM パフォーマンス ガイドとサイジング ガイドに記載されているさまざまな要素によって異なります。
事前対策
以下の事前の手順を実行します。
- 四半期ごとにアーキテクチャを確認します。
- ログ、エラー、および Introscope EM の稼働状況メトリックを通じて、TIM/TESS 稼働状況を月単位で確認します。
- 水平/垂直方向のキャパシティ スケーリング プロセスを実装します。たとえば、次のようなものがあります。トランザクションの x 数を監視する場合、どれだけの TIM を追加する必要がありますか。特定済みのユーザ数分の x 数を追加した場合、どれだけの TIM を追加する必要がありますか。
- 事後対策を必要に応じて、ただし計画的に実行します。
事後対策
急激な変化に対応する次の手順を実行します。
- TIM を追加します。
- コレクタにより多くのハードウェア(ディスク、CPU)を追加します。
- サーバ(APM データベースまたは MOM の EEM など)の他のサービスの負荷を軽減します。
- 複数のコレクタ(データベースのクリーンアップ、統計集約、RTTM、または自動検出など)全体にプロセスを分散させます。
- 監視対象のトランザクションおよび障害タイプの数を減らします。
- TIM のトレース ロギングを削減します。
- E コマース アプリケーションの TESS-MOM 上でのユーザ識別を無効にします。
- Web サーバ フィルタまたはネットワーク接続の設定によって、TIM 監視ポートからトラフィックを削減します。
- TIM からの以下の項目の削除/無効化(MOM APM CE GUI を使用する可能性があります): 組み込みおよびカスタムの HTTP プラグイン、カスタムのプロセス、およびエビデンス コレクション。
- MOM APM CE GUI を使用した APM データベースからの以下の項目の削除/無効化: トランザクション定義で使用される正規表現。