Tolérance aux pannes

La tolérance aux pannes permet à votre environnement capm de continuer à fonctionner correctement lorsqu'une défaillance matérielle ou qu'une panne réseau se produit. Dans un environnement dans lequel la tolérance aux pannes est configurée, un Data Aggregator inactif secondaire devient automatiquement actif. Le Data Aggregator nouvellement activé reprend l'organisation et le transfert de données vers CA npc et le Data Repository. Le Data Aggregator nouvellement activé conserve toutes les informations d'état provenant du Data Aggregator précédemment activé. Lorsque l'hôte présentant la défaillance matérielle ou le problème réseau est à nouveau disponible, l'hôte est automatiquement disponible pour basculement. Pour plus d'informations sur l'affichage du statut d'intégrité de votre système, reportez-vous à la section .
capm370
HID_Fault_Tolerance
La tolérance aux pannes permet à votre environnement
DX Performance Management
de continuer à fonctionner correctement lorsqu'une défaillance matérielle ou qu'une panne réseau se produit. Dans un environnement dans lequel la tolérance aux pannes est configurée, un Data Aggregator inactif secondaire devient automatiquement actif. Le Data Aggregator nouvellement activé reprend l'organisation et le transfert de données vers CA
NetOps Portal
et le Data Repository. Le Data Aggregator nouvellement activé conserve toutes les informations d'état provenant du Data Aggregator précédemment activé. Lorsque l'hôte présentant la défaillance matérielle ou le problème réseau est à nouveau disponible, l'hôte est automatiquement disponible pour basculement. Pour plus d'informations sur l'affichage de l'état du système, reportez-vous à la section Affichage de l'intégrité du système.
Si un basculement se produit, mais que le processus ActiveMQ est toujours en cours d'exécution, vous devez arrêter manuellement ActiveMQ à l'aide de la commande ci-dessous.
service activemq stop
Architecture avec tolérance aux pannes
Le diagramme suivant illustre l'architecture système d'un environnement à tolérance aux pannes :
Træfik est un proxy inverse HTTP et un équilibreur de charge moderne permettant de déployer facilement des microservices. Consul est un outil permettant de gérer des services dans le déploiement de
DX Performance Management
.
Haute disponibilité
High Availability
Configuration matérielle requise
Le matériel supplémentaire ci-dessous est requis pour un environnement à tolérance aux pannes :
  • Serveur Data Aggregator supplémentaire
  • Serveur proxy
  • Veillez à disposer d'un nouveau répertoire de données partagé (par ex. :
    /DASharedRepo
    ) et vérifiez que le même ID d'utilisateur est partagé entre les hôtes Data Aggregator. Les données provenant des composants Data Aggregator actifs sont stockées dans ce répertoire.
    Pour plus d'informations sur les exigences en matière de dimensionnement, reportez-vous à l'outil de dimensionnement de
    DX Performance Management
    .
    Le protocole NFS est pris en charge uniquement à partir de la version 4 en raison des exigences de verrouillage d'ActiveMQ Kaha.
    Le répertoire de données partagé doit être accessible à tout moment. Dans le cas contraire, aucune donnée n'est chargée et une perte de données a lieu.
Comparaison des pertes de données
Dans un environnement à tolérance aux pannes, une perte de données peut toujours se produire lorsqu'une panne réseau ou une défaillance matérielle se produit. Toutefois, la quantité de données perdues est inférieure à celle des données perdues dans un environnement sur lequel la tolérance aux pannes n'est pas configurée. Le tableau suivant compare les pertes de données occasionnées par une panne réseau ou par une défaillance matérielle :
Défaillance matérielle
Panne réseau
La tolérance aux pannes a-t-elle été configurée ?
Non
Oui
Non
Oui
Que se passe-t-il au niveau des cumuls ?
Les cumuls en attente sont perdus et ne sont jamais récupérés.
L'autre Data Aggregator disponible consomme les cumuls en attente lorsqu'il est activé.
Les sauvegardes en attente sont consommées lorsque le réseau est restauré.
L'autre Data Aggregator disponible consomme les cumuls en attente lorsqu'il est activé.
Quelles données sont perdues au niveau de la mémoire ?
Pour 10 000 interrogations dans la mémoire à l'échelle, la perte ne doit pas dépasser 1 cycle d'interrogation. La perte maximum serait de 10 000 éléments par famille de mesures.
Pour 10 000 interrogations dans la mémoire à l'échelle, la perte ne doit pas dépasser 1 cycle d'interrogation. La perte maximum serait de 10 000 éléments par famille de mesures.
Pour 10 000 interrogations dans la mémoire à l'échelle, la perte ne doit pas dépasser 1 cycle d'interrogation. La perte maximum serait de 10 000 éléments par famille de mesures.
Pour 10 000 interrogations dans la mémoire à l'échelle, la perte ne doit pas dépasser 1 cycle d'interrogation. La perte maximum serait de 10 000 éléments par famille de mesures.
Que se passe-t-il au niveau des fichiers DTO ?
Tous les fichiers sont perdus si la défaillance matérielle a lieu au niveau du disque. Dans le cas contraire, les fichiers DTO entiers sont consommés lorsque le matériel est redémarré après la réparation. Les fichiers incomplets sont rejetés.
Les fichiers DTO entiers sont traités et les fichiers DTO partiellement écrits sont supprimés. Un fichier DTO est 1 famille de mesures pour 1 cycle d'interrogation.
Les fichiers DTO entiers sont traités et les fichiers DTO partiellement écrits sont supprimés. Le Data Aggregator tente d'arrêter et de fermer normalement les fichiers DTO à la volée.
Les fichiers DTO entiers sont traités et les fichiers DTO partiellement écrits sont supprimés. Un fichier DTO est 1 famille de mesures pour 1 cycle d'interrogation.
Que se passe-t-il au niveau de l'intermédiaire ActiveMQ ?
Pour un cache mémoire de 600 Mo et une taille moyenne des messages de 1,3 Ko, environ 470 000 messages peuvent être perdus.
Pour un cache mémoire de 600 Mo et une taille moyenne des messages de 1,3 Ko, environ 470 000 messages peuvent être perdus.
Pour un cache mémoire de 600 Mo et une taille moyenne des messages de 1,3 Ko, environ 470 000 messages peuvent être perdus.
Pour un cache mémoire de 600 Mo et une taille moyenne des messages de 1,3 Ko, environ 470 000 messages peuvent être perdus.
Que se passe-t-il au niveau du seuil ?
La perte de données ne dépasse pas 1 cycle d'interrogation.
La perte de données ne dépasse pas 1 cycle d'interrogation.
La perte de données ne dépasse pas 1 cycle d'interrogation.
La perte de données ne dépasse pas 1 cycle d'interrogation.
Configuration des paramètres du basculement
Par défaut, pendant le basculement, le Data Aggregator inactif dispose de 45 minutes pour démarrer. Si le Data Aggregator ne démarre pas au bout de 45 minutes, l'environnement à tolérance aux pannes tente de démarrer l'autre hôte. Ce processus se répète pour chaque hôte toutes les 45 minutes jusqu'à ce que l'un des hôtes démarre.
Il est recommandé d'observer le délai qui s'écoule entre l'émission de la commande de démarrage du Data Aggregator et l'activation du service REST du Data Aggregator. Ajustez le paramètre
startwait
de manière appropriée avant de configurer la tolérance aux pannes.
Vérifiez que le délai que vous attribuez est suffisant. Ne définissez pas l'heure de début configurable sur une valeur inférieure à 45 minutes. Lorsqu'elle est trop faible, l'heure de début peut entraîner un dysfonctionnement du système ou une perte de données.
Si le démarrage du Data Aggregator prend toujours plus de 20 à 30 minutes, cela traduit peut-être une utilisation excessive des ressources par le matériel.
DX Performance Management
s'arrête alors. Pour plus d'informations sur les exigences en matière de dimensionnement, reportez-vous à l'outil de dimensionnement de
DX Performance Management
.
Par défaut, le temps de basculement configurable est défini sur 5 minutes. Un basculement a lieu uniquement lorsque le Data Aggregator actif ne répond pas au signal d'activité de la tolérance aux pannes pendant une durée supérieure à celle configurée (par défaut : 5 minutes). Si vous disposez d'une disponibilité réseau limitée suite à des pannes de réseau ou à un emballement du système de plusieurs minutes, vous pouvez augmenter le délai de basculement.
Ne définissez pas le délai de basculement configurable sur une valeur inférieure à 5 minutes. Cela risquerait d'entraîner un endommagement ou une perte des données.
Procédez comme suit :
  1. Modifiez le fichier
    config.json
    dans le répertoire suivant :
    répertoire_installation_Data_Aggregator
    /consul-ext/conf/
  2. Modifiez les paramètres
    startime
    et
    failwait
    (où
    s
    correspond à second,
    m
    à minute et
    h
    à heure).
  3. Enregistrez vos modifications.
Configuration d'un environnement à tolérance aux pannes
Lorsque vous installez les composants
DX Performance Management
pour la première ou que vous les mettez à niveau vers la version 3.5 ou supérieure, vous êtes invité à configurer un environnement à tolérance aux pannes. A l'issue de l'installation initiale ou de la mise à niveau dans un environnement à tolérance aux pannes, les réponses aux invites de l'environnement à tolérance aux pannes sont enregistrées et les invites n'apparaissent pas lors des mises à jour suivantes de l'environnement à tolérance aux pannes. Un environnement à tolérance aux pannes requiert un nouveau répertoire partagé (par ex. :
/DASharedRepo
) pour limiter les pertes de données. Le lecteur partagé stocke des familles de mesures personnalisées, des fichiers DTO et la base de données ActiveMQ Kaha. En cas de problème matériel ou lié au réseau, le nouveau Data Aggregator actif accède au lecteur partagé. Le Data Aggregator reprend là où le Data Aggregator inactif s'est arrêté. L'ID d'utilisateur avec lequel le lecteur partagé est créé doit être synchronisé avec les deux Data Aggregators. Les deux Data Aggregators disposent d'autorisations de lecture et d'écriture pour ce répertoire.
Procédez comme suit :
  1. Suivez la procédure d'installation ou de mise à niveau pour le Data Repository :
  2. Veillez à disposer d'un nouveau répertoire de données partagé (par ex. :
    /DASharedRepo
    ) et vérifiez que le même ID d'utilisateur est partagé entre les hôtes Data Aggregator. Les données provenant des composants Data Aggregator actifs sont stockées dans ce répertoire.
    Pour plus d'informations sur les exigences en matière de dimensionnement, reportez-vous à l'outil de dimensionnement de
    DX Performance Management
    .
    Le protocole NFS est pris en charge uniquement à partir de la version 4 en raison des exigences de verrouillage d'ActiveMQ Kaha.
    Le répertoire de données partagé doit être accessible à tout moment. Dans le cas contraire, aucune donnée n'est chargée et une perte de données a lieu.
  3. Suivez la procédure d'installation ou de mise à niveau pour le Data Aggregator activé :
    Au cours de l'installation ou de la mise à niveau du Data Aggregator, vous êtes invité à configurer la tolérance aux pannes.
    Dans un environnement à tolérance aux pannes, les informations d'identification de l'utilisateur de la base de données doivent correspondre pour les deux Data Aggregators.
  4. Complétez les invites suivantes :
    Les entrées dans les invites suivantes doivent correspondre pour les deux Data Aggregators.
    • Configuration de Data Aggregator pour la tolérance aux pannes
      Spécifiez 2 pour configurer la tolérance aux pannes.
      Valeur par défaut :
      1
      La valeur par défaut s'applique à un environnement sans tolérance aux pannes.
    • Hôte proxy de Data Aggregator
      Spécifiez le nom d'hôte/l'adresse IP du serveur proxy.
      Actuellement, nous ne prenons pas en charge le protocole IPv6. Nous vous recommandons d'utiliser une adresse IPv4 lors de la configuration de Data Aggregator.
    • Port HTTP de Consul :
      Spécifiez le port à utiliser pour la communication avec Consul.
      Par défaut :
      8500
    • Sélection de l'adresse IP de l'hôte pour Consul
      Cette invite s'affiche uniquement lorsque plusieurs adresses IP publiques sont configurées.
      Spécifiez l'adresse de liaison utilisée pour la communication entre les agents Consul. Les agents Consul incluent l'hôte proxy et les deux Data Aggregators du cluster. Si vous y êtes invité, spécifiez une adresse accessible par les deux autres hôtes du cluster Consul.
  5. Installez le Data Aggregator inactif secondaire.
    L'un des deux Data Aggregators disponibles devient le Data Aggregator actif. L'autre Data Aggregator est disponible pour le basculement.
  6. Suivez la procédure d'installation ou de mise à niveau pour chaque Data Collector :
    Au cours de l'installation ou de la mise à niveau du Data Collector, vous êtes invité à indiquer un emplacement de basculement pour la tolérance aux pannes. Le programme d'installation du Data Collector vous demande d'indiquer l'hôte du Data Aggregator inactif si la tolérance aux pannes est configurée.
  7. Suivez la procédure d'installation ou de mise à niveau pour
    NetOps Portal
    :
    Au cours de la mise à niveau de CA
    NetOps Portal
    , vous êtes invité à activer la tolérance aux pannes. Suivez les invites pour migrer la source de données Data Aggregator du Data Aggregator d'origine vers l'hôte proxy.
Vérification des ports de communication
Ouvrez les ports suivants pour permettre le fonctionnement sans heurt de la communication dans un environnement à tolérance aux pannes :
  • TCP 8300
    Dans un environnement à tolérance aux pannes, ce protocole permet la communication entre le serveur proxy et les Data Aggregators.
  • TCP/UDP 8301
    Dans un environnement à tolérance aux pannes, ce protocole permet la communication LAN entre le serveur proxy et les Data Aggregators.
  • TCP 8500
    Dans un environnement à tolérance aux pannes, ce protocole permet la communication entre le serveur proxy et les Data Aggregators à l'API HTTP.
Vérification de la configuration de l'environnement à tolérance aux pannes
Une fois que vous avez installé chaque Data Aggregator et que vous les avez ajoutés comme source de données, la page Statut du système indique l'intégrité globale de vos Data Aggregators. Pour plus d'informations, consultez la section Affichage de l'intégrité du système.