フォールト トレランス

フォールト トレランスにより、ハードウェアの障害やネットワークの問題が発生した場合でも、capm 環境を引き続き正常に動作させることができます。 フォールト トレランスが設定されている環境では、セカンダリの非アクティブな Data Aggregator が自動的にアクティブになります。 新しくアクティブになった Data Aggregator は作業を引き継ぎ、データの編成と、npc および Data Repository へのデータの供給を行います。 新しくアクティブになった Data Aggregator は、以前にアクティブだった Data Aggregator のすべての状態情報を保持します。 ネットワークの問題またはハードウェア障害があるホストが再度使用可能になると、そのホストは、自動的にフェールオーバに使用できるようになります。 システム稼働状況の確認方法の詳細については、「」を参照してください。
capm370
HID_Fault_Tolerance
フォールト トレランスにより、ハードウェアの障害やネットワークの問題が発生した場合でも、
DX NetOps Performance Management
環境を引き続き正常に動作させることができます。 フォールト トレランスが設定されている環境では、セカンダリの非アクティブな Data Aggregator が自動的にアクティブになります。 新しくアクティブになった Data Aggregator は作業を引き継ぎ、データの編成と、
NetOps Portal
および Data Repository へのデータの供給を行います。 新しくアクティブになった Data Aggregator は、以前にアクティブだった Data Aggregator のすべての状態情報を保持します。 ネットワークの問題またはハードウェア障害があるホストが再度使用可能になると、そのホストは、自動的にフェールオーバに使用できるようになります。 システムの稼働状況を表示する方法の詳細については、「システム稼働状況の確認」を参照してください。
フェールオーバが発生したときに ActiveMQ プロセスが実行されている場合は、以下のコマンドを使用して ActiveMQ を手動で停止する必要があります。
service activemq stop
フォールト トレラント アーキテクチャ
以下の図は、フォールト トレラント環境のシステム アーキテクチャを示しています。
Træfik は、マイクロサービスを簡単に展開する最新の HTTP リバース プロキシおよびロード バランサです。 Consul は、
DX NetOps Performance Management
展開内のサービスの管理に使用されるツールです。
高可用性
High Availability
ハードウェア要件
フォールト トレラント環境では、以下の追加のハードウェアが必要です。
  • 1 つの追加 Data Aggregator サーバ
  • プロキシ サーバ
  • 新しい共有データ ディレクトリ(例:
    /DASharedRepo
    )があることと、同じユーザ ID が Data Aggregator ホスト間で共有されていることを確認します。 どちらのアクティブな Data Aggregator からのデータでも、このディレクトリに格納されます。
    サイジング要件については、「
    DX NetOps Performance Management
    Sizing Tool
    」を参照してください。
    NFS を使用している場合は、ActiveMQ Kaha のロック要件により、NFS 4 以降のみがサポートされます。
    共有データ ディレクトリは、常にアクセス可能である必要があります。 共有データ ディレクトリがダウンしていてアクセスできない場合は、いずれのデータもロードされず、データ損失が発生します。
データ損失の比較
フォールト トレラント環境であっても、ハードウェアの障害やネットワークの問題が発生した場合に、一部のデータの損失が発生することがあります。 ただし、データの損失量は、フォールト トレランスを設定していない環境よりも少なくなります。 以下の表は、ハードウェア障害またはネットワーク障害によるデータ損失の比較を示しています。
ハードウェアの障害
ネットワーク障害
フォールト トレランスが設定されているか。
いいえ
はい
いいえ
はい
ロールアップはどうなるか。
保留中のロールアップは失われ、回復しません。
利用可能な他のData Aggregatorは、アクティブになると保留中のロールアップを消費します。
保留中のバックアップは、ネットワークのリストア時に消費されます。
利用可能な他のData Aggregatorは、アクティブになると保留中のロールアップを消費します。
メモリでは何が損失されますか?
大規模なメモリ内の 1 万回のポーリングにつき、損失は 1 回のポーリング サイクルを超えないようにしてください。 1 つのメトリック ファミリに対して、最大損失は、1 万項目になります。
大規模なメモリ内の 1 万回のポーリングにつき、損失は 1 回のポーリング サイクルを超えないようにしてください。 1 つのメトリック ファミリに対して、最大損失は、1 万項目になります。
大規模なメモリ内の 1 万回のポーリングにつき、損失は 1 回のポーリング サイクルを超えないようにしてください。 1 つのメトリック ファミリに対して、最大損失は、1 万項目になります。
大規模なメモリ内の 1 万回のポーリングにつき、損失は 1 回のポーリング サイクルを超えないようにしてください。 1 つのメトリック ファミリに対して、最大損失は、1 万項目になります。
DTO ファイルはどうなるか。
ハードウェア障害がディスクである場合は、すべてのファイルが失われます。 それ以外の場合、ハードウェアが修復後に再起動すると、DTO ファイル全体が消費されます。 不完全なファイルは廃棄されます。
完全な DTO ファイルが処理され、部分的に書き込まれた DTO ファイルは廃棄されます。 DTO ファイルは、1 回のポーリング サイクルの 1 メトリック ファミリです。
完全な DTO ファイルが処理され、部分的に書き込まれた DTO ファイルは廃棄されます。 Data Aggregator は正常なシャットダウンを試行し、処理中の DTO ファイルがある場合は閉じます。
完全な DTO ファイルが処理され、部分的に書き込まれた DTO ファイルは廃棄されます。 DTO ファイルは、1 回のポーリング サイクルの 1 メトリック ファミリです。
ActiveMQ ブローカはどうなるか。
メモリのキャッシュが 600 MB、および平均メッセージ サイズが 13,000 の場合、約 470,000 のメッセージが失われる可能性があります。
メモリのキャッシュが 600 MB、および平均メッセージ サイズが 13,000 の場合、約 470,000 のメッセージが失われる可能性があります。
メモリのキャッシュが 600 MB、および平均メッセージ サイズが 13,000 の場合、約 470,000 のメッセージが失われる可能性があります。
メモリのキャッシュが 600 MB、および平均メッセージ サイズが 13,000 の場合、約 470,000 のメッセージが失われる可能性があります。
しきい値はどうなるか。
データ損失は 1 回のポーリング サイクルを超えません。
データ損失は 1 回のポーリング サイクルを超えません。
データ損失は 1 回のポーリング サイクルを超えません。
データ損失は 1 回のポーリング サイクルを超えません。
フェールオーバ設定の設定
フェールオーバ中、非アクティブな Data Aggregator が起動するまでの時間はデフォルトで 45 分です。 Data Aggregator が 45 分以内に起動しない場合、フォールト トレラント環境では、その他のホストの起動が試行されます。 このプロセスは、いずれかのホストが起動するまで、各ホストについて 45 分ごとに繰り返されます。
Data Aggregator を起動するコマンドが発行されてから、Data Aggregator REST サービスが利用可能になるまでの時間を観察することをお勧めします。 フォールト トレランスを設定する前に、必要に応じて
startwait
パラメータを調整します。
十分な時間を設定してください。 設定可能な起動時間を 45 分未満に設定しないでください。 起動時間の設定が短すぎると、データ損失やシステム障害が発生する可能性があります。
Data Aggregator の起動に常に 20 ~ 30 分よりも長くかかる場合、ハードウェアのリソースが不足している可能性があります。 ハードウェアのリソースが不足している場合、
DX NetOps Performance Management
は機能を停止します。 サイジング要件については、「
DX NetOps Performance Management
Sizing Tool
」を参照してください。
フェールオーバの設定可能な待機時間は、デフォルトで 5 分に設定されています。 フェールオーバは、アクティブな Data Aggregator がフォールト トレランスのハートビートに設定時間(デフォルト: 5 分)を過ぎて応答がない場合にのみ発生します。 定期的なネットワークの停止または数分間続く可能性のあるシステム スラッシングにより、使用可能なネットワークが限られている場合は、フェールオーバの待機時間を増やすことができます。
フェールオーバの設定可能な待機時間を 5 分未満に設定しないでください。 フェールオーバの待機時間を 5 分未満に設定すると、データ破損やデータ損失が発生する可能性があります。
以下の手順に従います。
  1. 以下のディレクトリの
    config.json
    ファイルを編集します。
    Data_Aggregator_Install_Directory
    /consul-ext/conf/
  2. startime
    および
    failwait
    パラメータ(
    s
    秒、
    m
    分、
    h
    時間)を編集します。
  3. 変更内容を保存します。
フォールト トレラント環境の設定
初めて
DX NetOps Performance Management
コンポーネントをインストールする、またはリリース 3.5 以上にアップグレードする際、フォールト トレラント環境の設定を求められます。 最初のインストールまたはフォールト トレラント環境へのアップグレード後に、フォールト トレラント環境プロンプトへのレスポンスが保存され、フォールト トレラント環境の将来のアップグレード中に、そのプロンプトは表示されません。 フォールト トレラント環境では、データ損失の制限に役立つように新しい共有ディレクトリ(例:
/DASharedRepo
)が必要です。 共有ドライブは、カスタマイズされたメトリック ファミリ、DTO ファイル、および ActiveMQ Kaha データベースを格納します。 ハードウェアの障害やネットワークの問題が発生すると、新しくアクティブな Data Aggregator が共有ドライブにアクセスします。 Data Aggregator は、現在非アクティブになっている Data Aggregator が停止した場所を取得します。 共有ドライブと共に作成されるユーザ ID は、両方の Data Aggregator に同期されている必要があります。 両方の Data Aggregator は、そのディレクトリに対して読み取りおよび書き込み権限を持っています。
以下の手順に従います。
  1. 以下に示す Data Repository のインストールまたはアップグレードの手順に従います。
  2. 新しい共有データ ディレクトリ(例:
    /DASharedRepo
    )があることと、同じユーザ ID が Data Aggregator ホスト間で共有されていることを確認します。 どちらのアクティブな Data Aggregator からのデータでも、このディレクトリに格納されます。
    サイジング要件については、「
    DX NetOps Performance Management
    Sizing Tool
    」を参照してください。
    NFS を使用している場合は、ActiveMQ Kaha のロック要件により、NFS 4 以降のみがサポートされます。
    共有データ ディレクトリは、常にアクセス可能である必要があります。 共有データ ディレクトリがダウンしていてアクセスできない場合は、いずれのデータもロードされず、データ損失が発生します。
  3. 以下に示すアクティブな Data Aggregator のインストールまたはアップグレードの手順に従います。
    Data Aggregator のインストールまたはアップグレードを進めると、フォールト トレランスの設定に関するプロンプトが表示されます。
    フォールト トレラント環境では、両方の Data Aggregator のデータベース ユーザ認証情報が一致している必要があります。
  4. 以下のプロンプトに対して入力を行います。
    以下のプロンプトに対する入力は、両方の Data Aggregator で一致している必要があります。
    • フォールト トレランス用に Data Aggregator を設定
      フォールト トレランスを設定するには、2 を指定します。
      デフォルト:
      1
      デフォルトは、非フォールト トレラント環境用です。
    • Data Aggregator プロキシ ホスト
      プロキシ サーバのホスト名または IP アドレスを指定します。
      現在 IPv6 はサポートしていません。 Data Aggregator を設定する場合は、IPv4 アドレスを使用することをお勧めします。
    • Consul HTTP ポート:
      Consul と通信するポートを指定します。
      デフォルト:
      8500
    • Consul のホスト IP アドレスの選択
      複数のパブリック IP アドレスが設定されている場合にのみ、このプロンプトが表示されます。
      Consul エージェントが互いの通信に使用する、バインド アドレスを指定します。 Consul エージェントには、クラスタ内のプロキシ ホストおよび両方の Data Aggregator が含まれます。 アドレスのプロンプトが表示されたら、Consul クラスタ内の他の 2 つのホストが到達可能なアドレスを指定します。
  5. セカンダリの非アクティブな Data Aggregator をインストールします。
    使用可能な 2 つの Data Aggregator のいずれかがアクティブな Data Aggregator になります。 もう片方の Data Aggregator はフェールオーバ用に使用できます。
  6. 以下に示す各 Data Collector のインストールまたはアップグレードの手順に従います。
    Data Collector のインストールまたはアップグレードを進めると、フォールト トレランス用のフェールオーバの場所を指定するプロンプトが表示されます。 Data Collector インストーラにより、フォールト トレランスが設定される場合の非アクティブな Data Aggregator ホストの確認が表示されます。
  7. 以下に示す
    NetOps Portal
    のインストールまたはアップグレードの手順に従います。
    NetOps Portal
    のアップグレードを進めると、フォールト トレランスに関するプロンプトが表示されます。 プロンプトに従って、Data Aggregator dataデータソースを元の Data Aggregator からプロキシホストに移行します。
通信ポートの確認
フォールト トレラント環境で通信が適切に機能するようにするには、以下のポートを開きます。
  • TCP 8300
    フォールト トレラント環境で、プロキシ サーバと Data Aggregator 間の通信を有効化します。
  • TCP/UDP 8301
    フォールト トレラント環境で、プロキシ サーバと Data Aggregator 間の LAN 通信を有効化します。
  • TCP 8500
    フォールト トレラント環境で、プロキシ サーバと Data Aggregator 間での HTTP API に対する通信を有効化します。
フォールト トレラント環境の設定を確認します
Data Aggregator をインストールし、データ ソースとして追加すると、[システム ステータス]ページに Data Aggregator の全体的なヘルス ステータスが表示されます。 詳細については、「システム稼働状況の確認」を参照してください。