Skip to main content

Quando si parla di analisi dei dati combinata all’Intelligenza Artificiale, una tra le tematiche più rilevanti – seppur troppo spesso sottovalutata – è rappresentata dalla qualità dei dati, la cosiddetta Data Quality, a prescindere dalla tipologia e dallo scopo dell’analisi stessa.

Fondamentale è dunque prendere in considerazione il motto  “garbage in – garbage out” (letteralmente “spazzatura dentro – spazzatura fuori”), per il quale se i dati appaiono errati o privi di significato lo saranno inevitabilmente anche i risultati dell’analisi.

Data Quality e Intelligenza Artificiale rappresentano una combinazione tecnologica imprescindibile per garantire il successo e l’efficienza di qualsiasi realtà aziendale che sceglie di ricorrere a un utilizzo più evoluto degli algoritmi.

Il motivo è semplice: tutto ciò che ruota attorno al Machine Learning dipende proprio dai dati, con l’obiettivo di ricavarne il potere predittivo.

Viene da sé che a informazioni di qualità elevata corrispondono capacità previsionali più efficaci e sicuramente potenziate

Tuttavia, a dispetto degli obiettivi, la Data Quality può rappresentare una vera e propria chimera.

In questo articolo prenderemo in considerazione alcuni dei principali aspetti legati ai dati che, per quanto combinati all’Intelligenza Artificiale, possono compromettere seriamente i risultati auspicati, se trattati con eccessiva leggerezza.

Data Quality: di che si tratta

La qualità dei dati, o Data Quality, è da sempre una componente importante di ogni attività di business, che si tratti di una grande azienda così come di una piccola o media impresa.

Questo poiché, in un mercato sempre più competitivo, può senza alcun dubbio fare la differenza, portando a risultati concreti e al raggiungimento degli obiettivi aziendali auspicati.

Una chiara definizione di Data Quality è riportata nello standard ISO 8402: “The totality of characteristics of an entity that bear on its ability to satisfy stated or implied needs”.

La qualità del dato non dipende semplicemente dalle caratteristiche dello stesso, ma anche dal contesto di business in cui si sceglie di impiegarlo.

La Data Quality rappresenta di fatto un fattore critico all’interno di ogni organizzazione o realtà aziendale: non implementare una strategia di valutazione e un controllo accurato della qualità dei dati in proprio possesso può generare effetti a dir poco disastrosi.  

Le variabili che possono influenzare la qualità dei dati sono molteplici, per quanto ricorra tuttavia un tema piuttosto comune: per disporre di dati di qualità elevata è basilare impostarne una corretta gestione e manutenzione, per consentire ai modelli di machine learning di operare in maniera efficace e restituire risultati utili e profittevoli per ogni attività di business.

Diviene pertanto utile e necessario monitorare i dati raccolti, eseguendo controlli regolari sulle informazioni gestite, così come conservando i dati in maniera quanto più precisa possibile e nel formato più corretto.

Mantenere sotto controllo le informazioni permette di ridurre eventuali problematiche legate alla carenza di Data Quality, le stesse che potrebbero incidere negativamente nell’operatività aziendale. 

Innumerevoli possono essere le criticità correlate alla qualità dei dati che possono minacciare il buon esito di progetti di Intelligenza Artificiale e di Machine Learning.

Di seguito una breve panoramica di quelle più frequenti a cui è necessario prestare particolare attenzione.

Dati imprecisi, incompleti e etichettati in modo improprio

I dati imprecisi, incompleti o classificati in modo improprio compaiono tra le prime cause che possono determinare il clamoroso fallimento dell’Intelligenza Artificiale. 

A compromettere gli obiettivi di Data Quality possono essere informazioni errate all’origine, estrapolate da dati che non sono stati puliti o preparati in modo corretto. 

La pulizia dei dati è fondamentale, e rappresenta una vera e propria attività strategica, agevolata da strumenti basati sull’Intelligenza Artificiale volti a individuare e a risolvere le criticità.

Dati in esubero

I dati sono un elemento cardine dell’Intelligenza Artificiale, e proprio per questo si è spesso portati a ritenere che avere a disposizione quantità di dati maggiori rappresenti un vantaggio, specie quando si parla di finalizzare progetti importanti.

Al contrario, con l’apprendimento automatico emerge l’eventualità che sovraccaricare di dati un algoritmo non si riveli la soluzione ideale. 

Controindicazione della Data Quality è infatti che i dati che si hanno a disposizione non sempre possono rivelarsi particolarmente adatti agli obiettivi di un progetto di Intelligenza Artificiale, questo poiché il più delle volte, grandi quantità di dati non sono utilizzabili o appaiono poco pertinenti.

Viene da sé che dati in esubero potrebbero generare confusione, favorendo da parte dell’Intelligenza Artificiale l’apprendimento automatico di sfumature insignificanti, affette da bias, piuttosto che di quelli che sono possono essere trend generali più significativi e utili al business.

Dati insufficienti

Anche disporre di dati insufficienti può rappresentare un problema di certo da non sottovalutare, per quanto l’apprendimento da parte di un algoritmo basato su un campione di dati modesto possa restituire risultati accettabili, quantomeno in un ambiente di test.

Al contrario, un ambiente reale richiede l’impiego di maggiori quantità di dati per non rischiare di produrre risultati distorti o sbagliati. 

Dati distorti

Analogamente ai dati errati, possono essere deleteri anche i dati distorti, quelli cioè selezionati da campioni non adeguati alla situazione attuale, che ad esempio il nostro algoritmo ha imparato su caratteristiche che oggi non sono più presenti. 

Allo stesso modo possono essere distorti anche i dati derivanti ​​da informazioni che potrebbero essere il risultato di pregiudizi (bias) di carattere umano. 

Viene da sé che molto spesso le principali problematiche sussistono in virtù delle modalità secondo le quali i dati vengono raccolti o generati, e che possono determinare un risultato finale distorto o quantomeno parziale.  

Dati di scarsa rilevanza

Nel processo di raccolta è fondamentale evitare di acquisire dati irrilevanti, inutili per l’addestramento del nostro algoritmo. 

L’addestramento dell’algoritmo su dati corretti ma irrilevanti restituisce infatti le stesse criticità legate ai sistemi di Machine Learning basati su dati di scarsa qualità.

I dati duplicati sono uno dei maggiori problemi per le aziende: quando si ha a che fare con dati di origine differente, l’incoerenza o inconsistenza degli stessi compare tra i principali indicatori di problematiche legate alla Data Quality. 

Scarsità dei dati

La scarsità dei dati si verifica invece quando mancano dati, o in alternativa quando all’interno di un campione compare una quantità insufficiente di valori attesi specifici, come per esempio valori mancanti. 

La scarsità dei dati può modificare le prestazioni degli algoritmi di apprendimento automatico e la relativa capacità di calcolare previsioni accurate. 

Se questa scarsità dei dati non viene identificata in maniera tempestiva, è possibile che gli algoritmi vengano addestrati su dati fuorvianti o insufficienti, riducendo di conseguenza l’efficacia o l’accuratezza dei risultati.

Criticità legate all’etichettatura dei dati

I modelli di Machine Learning richiedono che i dati siano etichettati con metadati corretti, al fine di permettere alle macchine di ricavare informazioni approfondite. 

L’etichettatura dei dati rappresenta un’attività complessa e determinante nel processo di analisi, che richiede al Data Scientist l’inserimento di informazioni su un’ampia gamma di tipologie informative.

Tra le principali criticità legate alla qualità dei dati nei progetti di Intelligenza Artificiale compare dunque l’assenza di un’etichettatura adeguata dei dati di formazione dell’apprendimento automatico. 

Al contrario, dati accuratamente etichettati assicurano che i sistemi di apprendimento automatico stabiliscano modelli affidabili, costituendo le basi più solide per qualsiasi progetto di Intelligenza Artificiale. 

Viene da sé che dati etichettati di buona qualità sono basilari per addestrare in maniera corretta il sistema di Intelligenza Artificiale, rendendo in tal modo ogni progetto più profittevole, poiché basato su modelli concreti e realistici.

Le metriche della Data Quality

Le metriche utili per poter misurare in maniera oggettiva la qualità dei dati sono innumerevoli. Ecco le principali:

  • Accuratezza
    La misurazione dell’accuratezza permette di comprendere se i dati che si stanno analizzando possono rappresentare concretamente un valore, al fine di perseguire l’obiettivo posto precedentemente all’analisi. 
  • Completezza
    La misurazione della completezza aiuta a comprendere se i dati che si stanno analizzando rispondano realmente alle domande che ci si è posti all’interno di un contesto specifico.
  • Coerenza
    La misurazione della coerenza permette di capire a fondo che non sussistano contraddizioni tra i dati, ma che al contrario siano tra loro coerenti.
  • Attendibilità
    La misurazione dell’attendibilità consente di capire se i dati presi in considerazione siano reali e credibili, quando posti in un contesto specifico.
  • Attualità
    La misurazione dell’attualità di un dato permette di comprendere la stagionalità delle informazioni.
  • Precisione
    La misurazione della precisione di un dato aiuta a capire se i dati a disposizione possono essere discriminati tra loro quando posti in un contesto specifico.

Avere una visione d’insieme della qualità dei dati permette dunque di porsi importanti domande nell’ottica di una strategia operativa, questo a prescindere dal contesto.

Esempi calzanti possono essere:

  • Quali sono i costi a cui l’azienda dovrà sopperire per migliorare la qualità dei dati in proprio possesso?
  • Quali sono i motivi per cui i dati sono di così bassa qualità?
  • Quali decisioni sono affette dalla presenza di dati di qualità bassa o ignota?

Rispondere a queste domande è fondamentale al fine di migliorare i processi esistenti, riducendo il livello di possibili incongruenze comportate da decisioni prese a fronte di un’analisi di dati di bassa qualità, le stesse che possono implicare importanti ricadute di risparmio in termini di tempo, energie e denaro proiettate sull’intero processo produttivo aziendale.

Conclusioni

Da quanto detto, appare evidente come la Data Quality si basi su una cultura del dato ben radicata all’interno dell’organizzazione.

Ogni informazione raccolta, inserita e aggiornata deve essere ben ponderata in base al contesto e al momento in cui ci si trova.

I dati sono una fonte di “energia pulita” per l’azienda, che se trattata a dovere può fornire un risultato di valore tangibile e quantificabile nel futuro.

Perciò non aspettare ulteriormente per capire se la tua organizzazione compie degli errori in fase di raccolta e gestione dei dati.