Mesures d'auto-surveillance de traitement des événements de seuil

Pour déterminer si le nombre d'événements surveillés est trop élevé, surveillez les indicateurs clés de performance dans le Data Aggregator. La surveillance d'événements dans le Data Aggregator s'effectue par lots (des événements sont évalués et générés simultanément pour les grands groupes d'éléments par exemple). Plusieurs mesures prennent en charge l'auto-surveillance pour évaluer l'intégrité du système Data Aggregator.
capm370
Pour déterminer si le nombre d'événements surveillés est trop élevé, surveillez les indicateurs clés de performance dans le Data Aggregator. La surveillance d'événements dans le Data Aggregator s'effectue par lots (des événements sont évalués et générés simultanément pour les grands groupes d'éléments par exemple). Plusieurs mesures prennent en charge l'auto-surveillance pour évaluer l'intégrité du système Data Aggregator.
Pour afficher ces mesures, ajoutez une vue multitendance d'unité IM personnalisée dans un tableau de bord. Modifiez le tableau de bord pour utiliser les mesures suivantes à partir de la famille de mesures
Nombre de calculs d'événements de Data Aggregator
:
  • Taille de la file d'attente des processus d'événement
    : indique la taille de la file d'attente de traitement des événements. Une augmentation de la taille de la file d'attente sans récupération ultérieure (tendance descendante) indique que le traitement d'événements est sauvegardé.
  • Nombre d'événements effacés
    : nombre d'événements effacés dans la fenêtre de résolution de génération de rapports.
  • Nombre d'événements créés
    : nombre d'événements déclenchés dans la fenêtre de résolution de génération de rapports.
    Un nombre toujours supérieur aux événements déclenchés ou effacés peut avoir un impact sur la base de données du gestionnaire d'événements. Ces mesures peuvent indiquer lorsque votre système a dépassé le taux de génération d'événements recommandé. La génération d'événements/l'effacement de rafales sont acceptables.
  • Evaluations de règle d'événement traitées :
    indique la somme des règles d'événement multipliée par le nombre d'éléments auxquelles ces règles sont appliquées. Plus le nombre d'évaluations est élevé, plus votre système est chargé. Certaines évaluations requièrent plus de ressources que d'autres. Par exemple, les évaluations avec plusieurs conditions, plusieurs conditions d'écart type ou une durée supérieure et une fenêtre plus grande requièrent plus de ressources. Le nombre total acceptable d'évaluations dépend de vos règles d'événement.
  • Temps total de calcul des événements :
    indique la durée totale du traitement des événements pour cette famille de mesures. Si la valeur de cette mesure dépasse le nombre de secondes dans la fenêtre de résolution de génération de rapports, la génération d'événements a été retardée ou reportée à ce moment.
En règle générale, des valeurs stables pour ces mesures auto-surveillées indiquent un système sain. Certaines tâches de base de données intensives entraînent des fluctuations dans ces mesures d'auto-surveillance. En règle générale, ces jobs s'exécutent entre 2 et 4 heures du matin UTC. Activez la génération d'événements de façon progressive et vérifiez l'intégrité du système avant de passer à des règles différentes. Surveillez l'intégrité du système pendant 24 heures après chaque modification suivante.
Des erreurs dans le journal Karaf sur le système Data Aggregator peuvent également indiquer que votre système est sous tension.