La Data Science per il rilevamento delle anomalie

Con tutti i programmi di analisi e i vari software gestionali disponibili, oggi è più facile per le aziende misurare efficacemente ogni singolo aspetto delle proprie attività.

Le prestazioni operative delle applicazioni, i componenti dell’infrastruttura, e gli indicatori chiave degli obiettivi (KPI) sono le metriche fondamentali per definire il successo di ogni organizzazione.

Con milioni di parametri che possono essere misurati, le aziende si ritrovano un numero di informazioni piuttosto impressionante da dover analizzare.

All’interno di questi dataset sono presenti tutti i pattern che rappresentano il business e ne definiscono l’andamento.

Un cambiamento imprevisto all’interno di questi modelli – o un evento non conforme alla situazione standard – è considerato un’anomalia.

Ma cosa intendiamo per “cambiamento imprevisto” quando si tratta di metriche aziendali?

Le informazioni raccolte, naturalmente non sono “immutabili” o “costanti” nel tempo, ma evolvono di continuo.

Infatti anche gli algoritmi di Machine Learning che vengono istruiti per intercettare le anomalie devono essere in costante aggiornamento.

Data Science per rilevamento anomalie: che cos’è

Il rilevamento delle anomalie, o analisi dei valori anomali, o in inglese Anomaly Detection, è una fase del Data Mining che identifica eventi e/o osservazioni che si discostano dal comportamento considerato abituale.

Dati anomali possono indicare incidenti critici, come un problema tecnico, o potenziali opportunità, come ad esempio un cambiamento nel comportamento dei consumatori.

Con la Data Science per l’Anomaly Detection è possibile automatizzare il rilevamento di questi outlier.

Il successo dipende dalla capacità di analizzare accuratamente le informazioni raccolte nel passato.

I dati storici ci consentono di ottenere informazioni determinanti per le previsioni future.

Da ogni dato è possibile di solito estrapolare una coppia di elementi: un’informazione temporale di quando è stata misurata la metrica e il valore associato a quella metrica in quel momento.

Sono record che contengono le informazioni necessarie per fare ipotesi plausibili su ciò che ci si può ragionevolmente aspettare per il futuro.

I sistemi di rilevamento delle anomalie utilizzano queste previsioni per identificare i segnali che non rispettano ciò che ci saremmo aspettati.

A seconda del modello di business e del caso d’uso, il rilevamento delle anomalie dei dati può essere utilizzato per molte metriche preziose.

La Data Science per l’Anomaly Detection si basa sullo storico per creare una linea di comportamento standard, riconosciuta come “normale”.

Con l’apprendimento, questi sistemi possono rilevare le anomalie in base alle stagionalità e ai modelli di comportamento ciclici.

Un approccio manuale può aiutare a identificare i dati stagionali in un diagramma, ma quando occorre analizzare migliaia o milioni di parametri in tempo reale, la Data Science per il rilevamento delle anomalie è l’unico strumento in grado di fornire preziose informazioni per il business.

Comprendere i tipi di valori anomali che un sistema può riscontrare è essenziale per ottenere il massimo risultato.

Senza sapere cosa si sta affrontando, si rischia di prendere decisioni sbagliate.

Esempio: l’anomalia riscontrata è un problema o un’opportunità?

In generale, le anomalie che troviamo nei dati aziendali rientrano in tre categorie principali: valori anomali globali, valori anomali contestuali e valori anomali collettivi.

Valori anomali globali

Conosciuti anche come anomalie puntuali, questi outlier si trovano molto al di fuori dell’intero insieme di dati.

Dopo che il nostro algoritmo ha definito in maniera precisa il contesto di riferimento, si riesce a identificare una nuova informazione nettamente al di fuori del contesto precedentemente circoscritto.

Valori anomali contestuali

Chiamati anche valori anomali condizionali, questi outlier hanno valori che si discostano in modo significativo dagli altri dati dello stesso contesto.

Un’anomalia nel contesto di un set di dati potrebbe non esserlo in un altro.

Questi valori anomali sono comuni nei dati temporali, perché tali dataset sono record di quantità specifiche in un determinato periodo.

Il valore esiste all’interno delle aspettative globali, ma può apparire anomalo all’interno di determinati modelli di dati stagionali.

Valori anomali collettivi

Quando un sottoinsieme di dati è anomalo per l’intero dataset, i valori sono chiamati valori anomali collettivi.

In questa categoria i valori individuali non sono outlier né globali né contestuali.

Si inizia a vedere questi tipi di valori quando si esamina un insieme di serie temporali distinte.

Il comportamento individuale non può deviare dall’intervallo normale in un set di dati di serie temporali specifico.

Ma quando combinato con un altro set di dati con serie temporali, le anomalie più significative diventano chiare.

Queste sfumature sono molto importanti all’interno di un progetto di Data Science per il rilevamento delle anomalie.

Occorrono capacità di analisi “umanoidi” unite alle tecnologie di Machine Learning e Intelligenza Artificiale per raggiungere lo scopo.

In passato, il rilevamento manuale delle anomalie era un’opzione praticabile.

Avendo solo una manciata di metriche da monitorare e un dataset non troppo grande, era possibile ottenere discreti risultati per un team di analisi.

Oggi con una quantità di dati di centinaia, migliaia o addirittura milioni di parametri da gestire, il rilevamento manuale delle anomalie è impossibile da svolgere.

C’è un limite al personale che si può assumere, alle competenze da mettere in gioco, e all’accuratezza delle informazioni raccolte.

Data Science per rilevamento anomalie: case history

Per i manager non è più sufficiente affidarsi alle poche informazioni raccolte e alla propria intuizione.

Se viene introdotta una nuova funzionalità all’interno di un servizio, un cambio rilevante in un processo per la creazione di un prodotto, o la modifica di un fattore per la realizzazione di un bene, occorre ridurre al minimo il rischio di errore.

Per prendere decisioni informate, Uber deve garantire la qualità delle informazioni raccolte da milioni di corse effettuate ogni giorno.

La scansione manuale non è fattibile viste le enormi quantità di dati.

L’azienda ha quindi sviluppato Argos per il rilevamento delle frodi, che fornisce avvisi accurati e in tempo reale su parametri aziendali rilevanti.

Inizialmente, Uber utilizzava valori di soglia statici, insieme a un sistema di avviso per comunicare con i tecnici di guardia.

Tuttavia, data la rapida crescita dell’azienda, le soglie dovevano essere aggiornate regolarmente, e quindi la domanda di un sistema dinamico è cresciuta.

Hanno scoperto che le soglie statiche incontravano due problemi: i falsi negativi, che non rilevavano le frodi effettivamente esistenti, e i falsi positivi, che invece creavano centinaia di inopportuni allarmi giornalieri.

Per aiutare ad automatizzare l’analisi della qualità dei dati, Uber ha sviluppato un framework di rilevamento delle anomalie, Data Quality Monitor (DQM).

Il DQM di Uber cerca i luoghi in cui si verificano cambiamenti di alto livello, confrontando i dati attuali con quanto previsto in base alle osservazioni passate.

Ad esempio, se il numero di righe o voci di dati registra un calo sufficientemente grande da essere considerato statisticamente significativo, questo potrebbe essere segnalato come un problema di qualità dei dati.

È importante sapere cosa ha causato il problema in modo che la pipeline di dati possa essere riparata.

Allo stesso modo, molte aziende hanno introdotto il rilevamento delle anomalie nel flusso di lavoro di analisi dei dati.

Netflix, ad esempio, ha sviluppato la propria implementazione di rilevamento delle anomalie, che ha utilizzato per rilevare gli outlier nella propria rete di pagamento, che potrebbero essere un errore a livello di banca.

L’azienda lo applica anche al processo di registrazione dei clienti: le anomalie per le configurazioni esclusive di browser/laptop aiutano gli ingegneri Netflix a risolvere rapidamente i problemi.

LinkedIn ha il proprio software di rilevamento delle anomalie, chiamato ThirdEye, che monitora le prestazioni del sito e l’adozione da parte degli utenti di nuove funzionalità.

Allo stesso modo, su Pinterest, un’architettura di rilevamento delle anomalie viene utilizzata per impostare una dashboard interna, Statsboard, che consente all’azienda di visualizzare le metriche con schemi elaborati, e di reagire agli incidenti mentre si verificano.

Conclusioni

La chiave per automatizzare il rilevamento delle anomalie è trovare la giusta combinazione di esperti in ambito di analisi e Intelligenza Artificiale.

La Data Science per il rilevamento delle anomalie è lo strumento più potente che oggi abbiamo a disposizione per identificare correttamente un problema o un’opportunità.

La quantità di dati raccolti ogni giorno cresce in maniera esponenziale, e l’unico modo per sfruttare al massimo queste informazioni è avviare progetti di Data Science.

Se vuoi sapere cosa possiamo fare per te e la tua azienda e come avviare un progetto di Data Science per l’Anomaly Detection prenota una videochiamata di 45 minuti!

Ecco come si svolgerà:

Analizzeremo la tua organizzazione

Per comprendere meglio il mercato in cui ti trovi dobbiamo sapere di che cosa si occupa la tua azienda e com’è strutturata.

Analizzeremo la digitalizzazione della tua azienda

Per poter sfruttare al meglio le tecnologie che hai a disposizione dobbiamo conoscere quanto la tua azienda oggi è digitalizzata.

Studieremo le basi del progetto

Stabiliremo insieme le basi del primo progetto su cui è possibile applicare le tecniche di Intelligenza Artificiale.

Tu non devi preoccuparti di avere già tutto chiaro, saremo noi a porti le domande giuste per mettere a fuoco l’obiettivo!

Prima si avvia un progetto di Intelligenza Artificiale, prima si ottengono risultati mai visti prima!

Non aspettare ancora

Parla con noi

Tags:

La Data Science per il rilevamento delle anomalie

Data Science per rilevamento anomalie: che cos’è

Data Science per rilevamento anomalie: case history

Conclusioni

Tags:

Previous PostGuida: i 5 passaggi di un progetto di Data Science

Next PostLa Data Science per la Supply Chain

About

Contattaci