Regra de evento Tempo acima do limite

Índice
uimpga-ga
Índice
Pré-requisitos
Para usar o tempo acima do limite, você deve ter as seguintes versões do probe instaladas em cada nível de hub em que a funcionalidade de tempo acima do limite é desejada:
  • alarm_enrichment 4.40 ou posterior
  • baseline_engine 2.34 ou posterior
  • nas 4.40 ou posterior
  • PPM (Probe Provisioning Manage – Gerenciador de Provisionamento de Probes) 2.38 ou posterior
  • prediction_engine 1.01 ou posterior
Tempo acima do limite e hubs secundários
Os pré-requisitos de Tempo acima do limite se aplicam a qualquer hub secundário no qual desejar ativar essa funcionalidade. Depois de implantar os probes necessários e configurar o Tempo acima do limite em seus hubs secundários, você poderá encaminhar os alarmes para o hub principal usando o encaminhamento e a replicação do nas.
Fluxo de replicação do TOT
TOT replication flow
(CA UIM 9.0.2) Pré-requisitos para a configuração do tempo acima do limite no MCS
Para obter mais informações sobre os pré-requisitos para a configuração do TOT (Time Over Threshold - Tempo Acima do Limite) no MCS, consulte Configurando os limites de alarme no MCS.
Visão geral
O TOT (Time Over Threshold – Tempo Acima do Limite) é uma regra de processamento de eventos que permite reduzir o número de alarmes gerados quando ocorrem eventos de violação de limite. É possível usar o TOT para filtrar os picos de dados e métricas problemáticas do monitor durante um período definido. Em vez de enviar um alarme imediatamente após ocorrer uma violação de limite. Tempo acima do limite:
  • Monitora os eventos que ocorrem durante uma janela de tempo deslizante definida pelo usuário.
  • Controla o intervalo de tempo em que a métrica está em cada gravidade do alarme.
  • Gera um alarme se o tempo cumulativo em que a métrica está em violação durante a janela deslizante atingir o tempo acima do limite definido
Exemplo: tempo acima do limite em um bloco consecutivo
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    30 minutos.
  • Tempo acima do limite:
    10 minutos.
  • Autolimpeza:
    não definida.
  • Gravidades de alarme:
    os limites de alarme Sem gravidade, De informações, De aviso, Menos importante, Grave e Crítica são definidos na GUI do probe.
2320254.png
O tempo acima do limite não precisa ocorrer consecutivamente em uma janela de tempo deslizante. Todo o tempo em uma janela deslizante é contado em relação ao tempo acima do limite.
Exemplo: tempo acima do limite em um bloco não consecutivo
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    30 minutos.
  • Tempo acima do limite:
    10 minutos.
  • Autolimpeza:
    não definida.
  • Gravidades de alarme definidas:
    os limites de alarme Sem gravidade, De informações, De aviso, Menos importante e Grave são definidos na GUI do probe.
2320634.png
Fluxo de trabalho do Tempo acima do limite
tot_probe_flow
tot_probe_flow
  1. O probe baseline_engine avalia as métricas de QoS dos probes em relação às definições de limite dinâmico.
  2. O probe baseline_engine gera mensagens de violação de limite quando os limites são ultrapassados.
  3. O probe nas implementa a regra de processamento de eventos Tempo acima do limite para filtrar os picos de dados. Esse processamento de eventos produz um reflexo mais preciso do comportamento de violação de limite.
(CA UIM 9.0.2) Configurar o tempo acima do limite no MCS
Para obter mais informações sobre como configurar o Tempo acima do limite, consulte Configurando limites de alarme no MCS.
Supressão de alarmes durante o tempo acima do limite
Depois que uma métrica atingir um estado de tempo acima do limite, um alarme é gerado para cada violação de limite adicional. Por padrão, esses alarmes duplicados aumentarão a contagem de supressão para o alarme, mas, caso contrário, não serão visíveis. Se supressão estiver desativada, os alarmes duplicados são tratados como os novos alarmes e estarão visíveis no USM ou no GUI do nas.
Se o alarme for excluído (confirmado) no UMP ou no Gerenciador de infraestrutura, a janela de tempo não será redefinida. A violação do alarme no probe precisa ser limpa por um período suficiente (durante o TOT, na janela deslizante) para os alarmes serem suprimidos novamente.
Condições de limpeza do alarme usando Tempo acima do limite
A autolimpeza é um elemento opcional que limpa um alarme de Tempo acima do limite quando não existem novos eventos de violação de limite para o período de tempo definido. Se a autolimpeza estiver ativada, um temporizador iniciará após um evento de limpeza ter sido recebido. Se nenhum evento de violação de limite subsequente chegar à janela de autolimpeza após o evento de limpeza ter sido recebido, o alarme é limpo automaticamente (definido como nível 0). A chegada de um evento de violação de limite redefine a regra de limpeza, a qual aguarda a chegada do próximo evento de limpeza antes de iniciar o temporizador novamente.
Um alarme de Tempo acima do limite limpo automaticamente pode ser confirmado automaticamente (e fechado) usando a opção
Aceitar 'confirmação' automática de alarme
na GUI do probe do NAS, a qual está ativada por padrão. Se essa opção estiver desativada, os alarmes permanecerão no histórico de alarmes com o status Sem gravidade (verde) e deverão ser confirmados manualmente.
Os tempos de limpeza automática são mantidos quando o probe alarm_enrichment não está ativo. Se o probe alarm_enrichment for interrompido e, posteriormente, reativado, qualquer temporizador de autolimpeza em execução será reiniciado:
  • Na hora da autolimpeza original, se ainda estiver por ocorrer.
  • Em um minuto, se a hora da autolimpeza original já passou.
Exemplo: Tempo acima do limite usando a autolimpeza
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    30 minutos.
  • Tempo acima do limite:
    10 minutos.
  • Autolimpeza:
    5 minutos
  • Gravidades de alarme:
    os limites de alarme Sem gravidade, De informações, De aviso, Menos importante e Grave são definidos na GUI do probe.
2320865.png
Alterações de gravidade do alarme durante o tempo acima do limite
O tempo acima do limite é avaliado em cada gravidade de evento definida pelo usuário. Isso significa que uma métrica deve estar em uma gravidade de alarme elevada para o tempo acima do limite definido, antes da alteração de gravidade. O novo nível de gravidade do alarme é, em seguida, definido para corresponder à gravidade do evento cumulativo na janela Tempo acima do limite.
Sempre que um evento de violação do limite é recebido, a gravidade do alarme Tempo acima do limite é determinada da seguinte maneira:
  1. O tempo cumulativo dos eventos de violação de limite na janela deslizante com Gravidade crítica é calculado. Se esse tempo exceder o Tempo acima do limite definido, a gravidade do alarme é definida como Crítica e processamento de regras é concluído.
  2. O tempo cumulativo de eventos de violação de limite na janela deslizante com um nível de gravidade Grave ou maior é calculado. Se esse tempo exceder o Tempo acima do limite definido, a gravidade do alarme é definida como Grave e o processamento de regras é concluído.
  3. O tempo cumulativo de eventos de violação de limite na janela deslizante com uma gravidade Menos importante ou maior é calculado. Se esse tempo exceder o tempo acima do limite definido, a gravidade do alarme é definida como Menos importante e o processamento de regras é concluído. Caso contrário, o algoritmo continua neste padrão para os níveis de gravidade restantes.
Exemplo: tempo acima do limite com o aumento da gravidade
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    20 minutos.
  • Tempo acima do limite:
    10 minutos.
  • Autolimpeza:
    não definida.
  • Gravidades de alarme:
    os limites de alarme Sem gravidade, De informações, De aviso, Menos importante e Grave são definidos na GUI do probe.
  • Supressão de alarmes:
    ativada.
2320864.png
Neste exemplo:
  1. Tempo 20
    – Um alarme de Tempo acima do limite é disparado após dez minutos do tempo de evento do Tempo acima do limite ser acumulado. A gravidade do alarme é definida como 1, porque a primeira condição da regra Tempo acima do limite correspondente é “a gravidade do evento é 1 ou superior”.
  2. Tempo 25
    – A gravidade é elevada para 2, porque a condição de regra de Tempo acima do limite “a gravidade do evento é 2 ou superior” agora é verdadeira
  3. Tempo 30
    – A gravidade é elevada para 3 porque a condição de regra do Tempo acima do limite “a gravidade do evento é 3 ou superior” agora é verdadeira.
O Tempo acima do limite somente avalia nos níveis de gravidade do alarme definidos na GUI de configuração do probe.
Exemplo: tempo acima do limite com duas gravidades definidas
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    30 minutos.
  • Tempo acima do limite:
    10 minutos.
  • Autolimpeza:
    não definida.
  • Gravidades de alarme:
    os limites de alarme Menos importante e Grave são definidos na GUI do probe.
2321566.png
Neste exemplo:
  1. Tempo 30
    – Um alarme de Tempo acima do limite é disparado após dez minutos do tempo do evento Tempo acima do limite ser acumulado. A gravidade do alarme de tempo acima do limite é definida como 3, pois a primeira condição de regra Tempo acima do limite correspondente é “a gravidade do evento é 3 ou superior”.
Exemplo: tempo acima do limite com diversas gravidades
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    8 minutos.
  • Tempo acima do limite:
    4 minutos.
  • Autolimpeza:
    4 minutos.
  • Gravidades de alarme:
    os limites de alarme Sem gravidade, De informações, De aviso, Menos importante e Grave são definidos na GUI do probe.
  • Supressão de alarmes:
    ativada.
2321247.png
Neste exemplo:
  1. Tempo 8
    – Um alarme de Tempo acima do limite é disparado após quatro minutos do tempo do evento Tempo acima do limite ser acumulado. A gravidade do alarme é definida como 1, porque a primeira condição da regra Tempo acima do limite correspondente é “a gravidade do evento é 1 ou superior”.
  2. Tempo 10
    – A gravidade é elevada para 2, porque a condição de regra “a gravidade do evento é 2 ou superior” agora é verdadeira.
  3. Tempo 16
    – A gravidade é elevada para 3, porque a condição de regra de TOT “a gravidade do evento é 3 ou superior” agora é verdadeira.
  4. Tempo 21
    – A gravidade do alarme cai para 2, porque não existem mais 4 minutos ou mais de gravidade 3 ou superior na janela deslizante de 8 minutos, mas há 4 minutos ou mais de gravidade 2 ou superior
  5. Tempo 25
    – A gravidade do alarme cai para 1, porque não existem mais 4 minutos ou mais de gravidade 2 ou superior na janela deslizante de 8 minutos, mas há 4 minutos ou mais de gravidade 1 ou superior
  6. Tempo 30
    – O alarme é limpo porque não ocorrem novas violações durante quatro minutos e a condição de autolimpeza foi atendida.
Tipos de limite suportados
Os tipos de limite estático e dinâmico são atualmente suportados com tempo acima do limite. Consulte Configurando limites de alarme ou Configurando os limites de alarme no MCS para obter mais informações.
O tipo de limite disponível varia de acordo com o probe e a UI. Nem todos os tipos de limite são suportados por todos os probes, em todas as UIs. Se um tipo de limite não for configurável em uma UI de configuração do probe ou em um modelo do MCS, nem o probe nem o MCS oferecerá suporte a esse tipo de limite.
Cenários adicionais de tempo acima do limite
Os exemplos a seguir mostram a cenários de Tempo acima do limite extras usando métricas do probe específicas.
Exemplo: tempo de métrica do probe URL_response até o primeiro byte
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    5 minutos.
  • Tempo acima do limite:
    3 minutos.
  • Autolimpeza:
    não definida.
  • Gravidades de alarme:
    • Gravidade do alarme 2 está definida como 100 ms.
    • Gravidade do alarme 3 está definida como 300 ms.
    • Gravidade do alarme 4 está definida como 700 ms.
    • Gravidade do alarme 5 está definida como 1.000 ms.
  • Supressão de alarmes:
    ativada.
2321586.png
Neste exemplo:
  1. Tempo 8
    – Três minutos do tempo até o primeiro byte de 100 ms ou superior são observados na janela deslizante e um alarme de gravidade 2 é enviado.
  2. Tempo 14
    – Três minutos do tempo até o primeiro byte de 300 ms ou superior. O alarme aumenta para a gravidade 3.
  3. Tempo 20
    – Três minutos do tempo até o primeiro byte de 700 ms ou superior são observados. O alarme aumenta para a gravidade 4.
  4. Tempo 25
    – Três minutos tempo até o primeiro byte de 1.000 ms ou superior ocorrem. O alarme aumenta para a gravidade 5.
Exemplo: uso do disco de métrica do probe do CDM
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    45 minutos.
  • Tempo acima do limite:
    5 minutos.
  • Autolimpeza:
    não definida.
  • Gravidades de alarme:
    o limite de alarme crítico é definido como 80% na GUI do probe.
2321585.png
Neste exemplo:
  1. Tempo acima do limite ocorre apenas por quatro minutos e nenhum alarme é enviado.
Exemplo: uso do disco de métrica do probe do CDM (modificado para enviar um alarme de tempo acima do limite)
Este exemplo usa as seguintes definições:
  • Janela deslizante:
    15 minutos.
  • Tempo acima do limite:
    5 minutos.
  • Autolimpeza:
    5 minutos.
  • Gravidades de alarme:
    o limite de alarme crítico é definido como 80% na GUI do probe.
2321837.png
  1. Tempo 15
    – Cinco minutos de utilização do disco em 80% ou superior são observados na janela deslizante e um alarme de gravidade 5 é enviado.
  2. Tempo 21
    – O alarme é limpo após cinco minutos do tempo abaixo do nível de gravidade definido.
Práticas recomendadas para o tempo acima do limite
Ao usar o Tempo acima do limite, observe as práticas recomendadas a seguir:
  • Defina o Tempo acima do limite como um intervalo maior que o período de amostra da métrica de QoS. Definir um tempo acima do limite menor produz os mesmos resultados que deixar a regra Tempo acima do limite desativada.
  • Avalie seu sistema monitorado e determine os valores apropriados para a janela deslizante e o tempo acima do limite. Valores muito grandes para o seu sistema podem resultar na supressão de alarmes, dos quais, talvez, você precise estar ciente.
A definição de uma janela menor de limpeza automática pode resultar em um número excessivo de alarmes,
bem como causar outros resultados de alarme inesperados
.
O valor de Limpar tempo de espera <TC>
NÃO DEVE
ser menor do que o valor do intervalo de Tempo acima do limite <TOT> para que os alarmes sejam limpos automaticamente.
Configurar o tempo acima do limite
Todos os alarmes gerados a partir de um nas secundário devem ser transmitidos para o nas principal usando a replicação.
O tempo acima do limite é configurado por meio das UIs de probes individuais no Console de administração ou do uso de modelos relevantes no MCS.
O tipo de limite disponível varia de acordo com o probe e a UI. Nem todos os tipos de limite são suportados por todos os probes, em todas as UIs. Se um tipo de limite não for configurável em uma UI de configuração do probe ou em um modelo do MCS, nem o probe nem o MCS oferecerá suporte a esse tipo de limite.
O exemplo a seguir mostra as configurações de Tempo acima do limite para a métrica Utilização do disco do probe cdm:
screen.png
Siga estas etapas:
  1. Na GUI do probe, selecione um nó na árvore para exibir quaisquer monitores associados e as métricas de QoS.
  2. Selecione o monitor que deseja modificar na lista disponível.
  3. Clique nas caixas de seleção
    Publicar dados
    ,
    Publicar alarmes
    e
    Computar linha de base
    .
  4. O probe cdm só oferece suporte a cálculos de tempo dinâmico acima do limite. Clique na caixa de seleção
    Alarme dinâmico
    .
  5. Defina as configurações do alarme dinâmico. Para obter mais informações, consulte a seção apropriada no artigo Configurando limites de alarme.
  6. Marque a caixa de seleção
    Ativar tempo dinâmico acima do limite
    .
  7. Insira valores para os seguintes campos:
    • Tempo acima do limite <TOT>
      - O período de tempo no qual uma métrica deve permanecer acima do limite antes de enviar um alarme.
    • Janela de tempo deslizante <TW>
      - O período de tempo na janela deslizante no qual as métricas serão monitoradas para verificar violações de limite.
    • Unidades de tempo para <TOT> e <TW>
      - A unidade de medida usada pelos parâmetros
      Tempo acima do limite
      e
      Janela de tempo
      . Limitada a minutos, horas ou dias.
    • Limpar alarme automaticamente
      - Ativa a funcionalidade de autolimpeza.
    • Limpar tempo de espera
      - O período de tempo usado no temporizador da autolimpeza. Se nenhum dos alarmes for enviado no período de tempo definido, o alarme é limpo automaticamente.
      Se valor for definido para Limpar tempo de espera, os alarmes nunca serão limpos.
    • Unidades de tempo para <TC>
      - A unidade de medida usada pela autolimpeza. Limitada a minutos, horas ou dias.
  8. Salve as alterações.
Atualizações de configuração posteriores à regra
Depois de configurar o tempo acima do limite, as seguintes alterações ocorrerão imediatamente:
  • Novas regras para Tempo acima do limite.
  • Alterações para o parâmetro Limpar tempo de espera.
  • Alterações para o estado ativo de Tempo acima do limite.
Além disso, depois que a configuração for salva, o probe ppm mais próximo ao probe que você está configurando criará uma mensagem de barramento com o assunto TOT_RULE_CONFIG. Há uma fila associada no hub, denominada
tot_rule_config
, inscrita no assunto de mensagem TOT_RULE CONFIG. O probe alarm_enrichment processa essas mensagens e grava em um arquivo local denominado
rule_config.xml
. O arquivo rule_config.xml está armazenado no diretório
<instalação_do_UIM>\probes\service\nas\alarm_enrichment
. O que segue é um arquivo de exemplo rule_config.xml contendo duas regras.
image2017-9-22 16:2:49.png
Quando o probe alarm_enrichment é iniciado, ele lê o Rule_config.xml na memória. Quando um alarme é processado por meio do probe alarm_enrichment com uma Met_id correspondente no arquivo Rule_config.xml, os alarmes não são publicados com o assunto alarm2. Essa ação significa que o alarme é ignorado durante o período de tempo acima do limite.
As seguintes alterações ocorrerão quando o próximo alarme for recebido:
  • Alterações para o parâmetro Tempo acima do limite.
  • Alterações para o parâmetro Janela de tempo deslizante.
Solução de problemas do tempo acima do limite
Consulte a alarm_enrichment em relação a erros
Sintomas:
  • Ter recebido de um alarme crítico, indicando que a versão do probe alarm_enrichment está incorreta, ou que o probe alarm_enrichment deve ser ativado.
  • É possível ver a seguinte mensagem de erro na GUI de configuração de probe do Console de administração:
    "Tempo acima do limite não está disponível. Não é possível ler ou gravar a configuração do probe alarm_enrichment."
Solução:
  • Verifique se essa versão do probe alarm_enrichment 4.40 ou posterior está instalada e ativada no nível do Hub.
Os parâmetros de configuração do tempo acima do limite estão indisponíveis
Sintomas:
  • Os parâmetros de configuração de tempo acima do limite na GUI do Console de Admin do meu probe não estão exibidos.
  • É possível ver os parâmetros de configuração de limite dinâmico.
  • Nenhuma mensagem de erro adicional ou alarme foi recebido.
Solução:
  • Verifique se as versões corretas de nas, ppm e prediction_engine estão instaladas e ativadas no nível do Hub.