Rilevazione delle anomalie

Un'anomalia è un punto dati o un evento che non è coerente con le condizioni operative normali. La rilevazione delle anomalie per individuare i problemi e comprendere le tendenze all'interno dell'infrastruttura e delle applicazioni è un caso di utilizzo chiave per AIOps. La rilevazione consente agli strumenti di riconoscere i comportamenti fuori dall'ordinario (ad esempio, un server che risponde più lentamente rispetto al consueto o attività di rete non comuni generate da una lacuna) e reagire di conseguenza.
Utilizzando il rilevamento delle anomalie nella soluzione AIOps, è possibile ottenere i seguenti vantaggi:
  • La soluzione AIOps acquisisce metriche, non solo allarmi o eventi. Le metriche sono indispensabili per il rilevamento effettivo delle anomalie.
  • Con la soluzione AIOps non è necessario impostare le soglie. È sufficiente inviare metriche al Data Lake perché la soluzione AIOps metta in correlazione i dati e identifichi le anomalie.
  • La soluzione AIOps non si affida a una sola variabile ma esegue il rilevamento delle anomalie in modalità multi-variabile.
  • La soluzione AIOps offre più di dieci algoritmi AI e ML, regolati in base alla nostra esperienza di dominio. Questi algoritmi ottimizzati consentono di eseguire rapidamente l'analisi delle cause radice e supportano l'IT predittivo.
  • Grazie al mapping di automazione e topologia, è possibile rilevare in modo accurato le anomalie, ridurre il rumore degli eventi e individuare la causa principale dei problemi.
  • Se la soluzione AIOps dovesse sbagliare nell'identificazione di una causa principale, può memorizzare gli input degli operatori e così imparare.
Previsione dinamica
Data per acquisita la comprensione del concetto di anomalia, ciò che rende particolarmente difficile la rilevazione delle anomalie per AIOps in ambienti software moderni è che, in molti casi, non esiste un mezzo coerente per definire le
condizioni operative normali
. La quantità di traffico di rete, memoria e spazio di archiviazione utilizzati da un determinato ambiente potrebbero variare notevolmente durante la giornata, così come il numero di utenti attivi o istanze di applicazione. La rilevazione effettiva in queste circostanze richiede che gli strumenti AIOps siano sufficientemente intelligenti per impostare previsioni dinamiche. Le previsioni dinamiche consentono agli strumenti di determinare ciò che costituisce un'attività normale in determinate circostanze (ad esempio l'ora del giorno e il numero di utenti registrati per un'applicazione), quindi di rilevare i dati o gli eventi che non sono allineati con la previsione dinamica.
Rilevazione delle anomalie delle serie temporali
I dati delle serie temporali rappresentano osservazioni, contrassegnate da data e ora, dei vari probe presenti nell'ambiente. Nelle distribuzioni di grosse dimensioni, è possibile raccogliere decine di milioni di metriche. La maggior parte di queste metriche è calcolata come media e può fornire utili dettagli sullo stato del sistema dal punto di vista transazionale o relativo alle risorse.
Ciascuna delle singole metriche segue una distribuzione. Senza fare supposizioni sulla distribuzione, l'algoritmo KDE richiama i kernel delle distribuzioni per i punti dati cronologici di ciascuna metrica. Utilizzando questa distribuzione, viene calcolata la probabilità che si verifichi un valore per una metrica. Grazie a una suddivisione basata su quartili, questa distribuzione consente al rilevamento delle anomalie di giudicare il valore dei dati come raro o comune per una determinata metrica in una particolare ora del giorno. Queste aree costituiscono delle fasce che il rilevamento delle anomalie può considerare normali.
La soluzione AIOps interpreta queste fasce per gli utenti. Viene generata un'anomalia quando il valore di una metrica rimane per un certo periodo nella fascia rara.
Le metriche non elaborate vengono pubblicate nella piattaforma di Data Science (DSP) in cui risiede il modulo di rilevazione delle anomalie.