Data mining, cos'è? - Strumenti, applicazioni e rischi

Indice degli argomenti

1 Il data mining
2 Alla scoperta del data mining
3 Compiti per il data mining
4 Strumenti per il data mining
5 Principali campi di applicazione
6 Data mining: un rischio per la privacy?

Il data mining

Per data mining si intende l’individuazione di informazioni di varia natura (non risapute a priori) tramite estrapolazione mirata da grandi banche dati, singole o multiple (nel secondo caso, informazioni più accurate si ottengono incrociando i dati delle singole banche).
Le tecniche e le strategie applicate alle operazioni di data mining sono per larga parte automatizzate, consistendo in specifici software e algoritmi adatti al singolo scopo. Ad oggi, in particolare, si utilizzano reti neurali, alberi decisionali, clustering e analisi delle associazioni.
Le finalità del data mining sono applicabili ai più svariati campi: economico, scientifico, operativo, etc.

Alla scoperta del data mining

Per capire fino in fondo cos’è il data mining, al di là delle definizioni tecniche, per quanto accurate, può essere utile partire dai suoi scopi, fornendo qualche esempio. Prendiamo le seguenti domande:

Vendere smartphone a un target consumer settuagenario, come?
Al centro di una remota galassia scoperta di recente potrebbe celarsi un buco nero?

Ebbene, la risposta a tali quesiti, o a parte di essi, può essere racchiusa nelle banche dati. Il problema è che lo è in modo inintelligibile. Nessuno, oggi, potrebbe maneggiare in tempi accettabili i big data, ossia le moli sterminate e di tipologia eterogenea di dati contenuti nei data warehouse.

È qui che entra in campo il data mining, che riesce a scovare associazioni, anomalie e schemi ricorrenti (pattern), quindi in definitiva informazioni, all’interno degli stessi. Ma soprattutto, grazie all’elevato parallelismo delle risorse di calcolo utilizzate (in affiancamento a operatori altamente specializzati) riesce a farlo con un’efficienza che supera di gran lunga quella di un operatore umano che li analizzasse manualmente.

Il data mining, insomma, fa sì che partendo da informazioni “criptiche”, disseminate senza ordine apparente in un database (testuale, multimediale, di dati misti, etc), si arrivi a una conoscenza sfruttabile per vari fini. L’intero processo viene chiamato KDD (acronimo di Knowledge Discovery in Databases) e in realtà non si esaurisce con la procedura di data mining vera e propria.
La sequenza di KDD infatti, conta più passi, i principali dei quali sono:

identificazione dell’obiettivo che si vuole raggiungere;
preselezione dei dati utili a raggiungerlo;
pulizia dei dati e preelaborazione: ulteriore separazione fra dati validi e inutili, scelta di come trattare i campi incompleti o vuoti, selezione definitiva delle informazioni fondamentali per il modello ideale di riferimento;
trasformazione: il formato con il quale sono rappresentati i dati è valido per essere dato in pasto ai software di analisi? Se la risposta è no, i dati devono essere convertiti;
data mining: è naturalmente il passo più importante. Viene scelto il software migliore per il singolo caso, il quale scandaglia il data warehouse in modo selettivo per fornire la risposta cercata. Il data mining solitamente si compone di più sottopassaggi, anche ripetuti diverse volte, per affinare la procedura e verificare man mano i risultati raggiunti;
interpretazione dei risultati: si valuta se l’obiettivo è raggiunto, e se la risposta è no si procede con la reiterazione (ed eventuale modifica) del passo precedente e talvolta anche di altri;
visualizzazione dei risultati in un formato comprensibile.

Riprendendo ora la domanda: come vendere smartphone ai settuagenari? Grazie al data mining si potrebbe scoprire (esempio fittizio ma verosimile) che gli stessi tendono ad acquistarli perlopiù nei centri commerciali, tramite interazione con commesse di sesso femminile e che i soggetti con figli e nipoti sono gli acquirenti disposti a investire un budget maggiore, mentre i soggetti diabetici risultano i più refrattari alla seduzione di questi dispositivi. Come si può notare, le singole informazioni hanno correlazioni impreviste (ad esempio l’ostacolo diabete), rivelando così l’utilità del data mining nell’identificare associazioni nascoste, utili per adottare strategie di marketing mirato.
(Analogamente, è possibile scoprire un buco nero in una galassia incrociando i dati relativi al comportamento degli astri che la compongono.)

Il cliente che chiede un prestito a un istituto di credito compra abitualmente feltrini adesivi per i piedi dei mobili? Se lo fa, le sue chance di ricevere il prestito aumentano. Il nesso, piuttosto curioso ma vero, è stato messo in luce proprio applicando strategie di data mining, che hanno evidenziato come chi compra feltrini tendenzialmente è un ottimo pagatore.

Compiti per il data mining

I compiti principali per il data mining sono:

classificazione: individuazione di classi (aventi per fondamenta determinate regole) e dell’insieme di elementi accomunati dalla corrispondenza alle medesime;
clusterizzazione (o segmentazione): identificazione di gruppi di elementi omogenei, che a differenza di quanto avviene nella classificazione, sono basati su regole occulte fino al momento della loro scoperta;
associazione: scoperta di nessi casuali ma ricorrenti estrapolabili dai dati racchiusi in una banca dati, finalizzata ad esempio al rilevamento di anomalie;
regressione: simile alla classificazione, dalla quale si differenzia per il fatto che le variabili (ossia le regole di appartenenza a una classe), di tipo categorico nelle classificazioni, nel caso delle regressioni possono assumere invece un numero elevato o infinito di valori;
time series (o serie storiche): si tratta di complesse regressioni che inglobano variabili temporali (date, variazione dei tassi di interesse, etc) e quindi particolarmente utili a scopo predittivo;
sequence discovery (scoperta di sequenze): riprende il concetto di associazione ma applicando il fattore di correlazione sequenziale, ossia rilevando quando ad A (esempio, acquisto di un giocattolo) segue B (acquisto in un certo arco temporale successivo di un optional per quel giocattolo).

Strumenti per il data mining

A seconda dell’obiettivo, gli strumenti per il data mining possono cambiare. Non di rado, poi, le varie metodiche possono integrarsi fra loro.

Una rete neurale è un particolare programma che per certi aspetti ricalca il funzionamento di una rete neurale biologica. Tale programma è dotato di un set di istruzioni e di un algoritmo di apprendimento che gli consente di evolversi con l’esperienza, ampliando la propria capacità di risolvere determinate tipologie di problemi.
Una rete neurale ad apprendimento supervisionato viene addestrata fornendo una certa quantità di input (problemi) ed output (soluzioni), in modo che rilevando le associazioni apprenda a produrre autonomamente output corretti. Una rete neurale ad apprendimento non supervisionato invece viene addestrata soltanto con input costituiti da selezionate tipologie di dati. Esaminando i medesimi, la rete apprende a cogliere analogie e differenze, operando classificazioni. Grazie all’elevata capacità di calcolo parallelo, queste 2 categorie di reti neurali sono in grado di processare in modo proficuo ed efficiente i big data, effettuando classificazioni, associazioni e clustering.

Un albero di decisione è un grafo in cui partendo dalla radice (training set), si procede ad effettuare una classificazione tramite un percorso che è di volta in volta una scelta fra varie diramazioni, o sottoinsiemi (detti nodi), i cui rami sono le alternative che conducono alle diverse foglie (risultati o classi). Un albero decisionale implementato in modo corretto deve avere dimensioni adeguate, il che significa non eccessive: un numero troppo alto di variabili renderebbe caotico e lento un algoritmo che è invece veloce ed efficiente. Nel data mining, gli alberi di decisione sono utilizzati per operazioni di segmentazione, classificazione, regressione e serie storiche.

Un Naive Bayes è un particolare classificatore di tipo probabilistico. Cosa significa? Che determina la probabilità di un elemento di appartenere o meno a una certa classe in funzione dei suoi attributi. Peculiarità del Naive Bayes è che ogni caratteristica viene valutata in autonomia: le probabilità di un attributo di risultare attinente a una classe (e quindi il suo contributo alla classificazione dell’elemento) non dipendono dalla relazione con altri attributi. Questa tipologia di classificatori è piuttosto robusta nei confronti del rumore (ossia dati errati, inutili, etc) e riesce ad essere efficiente anche in presenza di dati incompleti.

Principali campi di applicazione

I settori di applicazione del data mining sono innumerorevoli, ma raggruppabili in alcune macrocategorie. Le principali sono:

marketing;
economia e finanza;
scienza;
tecnologie dell’informazione e della comunicazione (ICT);
statistica;
industria.

Nel vasto campo del marketing, le principali applicazioni del data mining riguardano:

clusterizzazione della clientela (database marketing): individuazione di tipologie di acquirenti accomunati da abitudini di acquisto e caratteristiche socio-demografiche;
customer retriever: analizzando il comportamento della clientela di un brand diventa prevedibile identificare i soggetti a rischio abbandono, e adottare quindi opportune strategie per impedirlo;
market basket analysis: quali prodotti o servizi vengono abitualmente comprati insieme? Con l’analisi delle associazioni è possibile comprenderlo.

In ambito finanziario, il data mining si applica tra l’altro a:

rilevamento di frodi: analizzando, ad esempio, l’utilizzo delle carte di credito è possibile individuare anomalie e infine tracciare comportamenti fraudolenti;
previsioni sui trend degli indici azionari;
analisi sulle interazioni fra mercati finanziari: efficaci per predire l’influenza dell’andamento generale dei mercati sul singolo mercato.

Anche per quanto riguarda il campo scientifico il data mining viene utilizzato in un numero sterminato di settori, assumendo particolare rilevanza in:

medicina e biologia: clinica, genomica, farmacologia, etc. Particolarmente per la clinica e la farmacologia, il data mining è un valido supporto per il decision making. Significa, in concreto, che in base alle conoscenze che è in grado di apportare fornisce un modello predittivo, influenzando quindi il processo decisionale. Fra i vari esempi troviamo la scelta dei protocolli di cura, selezione delle protesi chirurgiche idonee, etc;
meteorologia: l’accuratezza delle previsioni meteorologiche è in funzione dell’analisi incrociata di enormi moli di dati; un perfetto “pane per i denti” del data mining insomma. Uno degli esempi più rilevanti sono i dati (sterminati) inviati dai satelliti;
astronomia: classificazione e individuazione di stelle, galassie, pianeti, satelliti e altri corpi celesti.

Com’è logico aspettarsi, nell’ICT l’apporto del data mining è fondamentale, e spazia su molteplici fronti. Uno di questi è la sicurezza. Grazie all’efficienza delle metodiche di data mining nel rilevare anomalie e discordanze da un insieme di dati (quali possono essere quelli relativi agli accessi a un sito aziendale o di un ente), le procedure di intrusion detection possono essere velocizzate e ottimizzate. In modo analogo è possibile individuare archivi corrotti in modo subdolo (a causa di malware) oppure bisognosi di aggiornamento. Questo risulta utile non solo per la protezione dei dati ma anche, ad esempio, a fini di marketing, nel caso si tratti di un archivio clienti (un malware potrebbe corromperne i dati, e, quindi, inficiare il successo di campagne di marketing mirate in base alle informazioni contenute proprio in quei dati).

Nell’ambito della statistica, il data mining velocizza le analisi demografiche e, soprattutto, ne ricava informazioni precluse alle normali metodiche statistiche, riuscendo a fornire validi modelli predittivi.

Industria: l’incremento della produttività è reso possibile dalle analisi in grado di identificare errori o inefficienze delle catene produttive, dal supporto alla logistica, etc.

Data mining: un rischio per la privacy?

Il rovescio della medaglia del data mining è dato dal potenziale effetto di violazione della privacy che detiene. Prendiamo, per esempio, l’accurata segmentazione di un target consumer a scopi di marketing. È uno dei traguardi del data mining, ma il risultato collaterale è che la profilazione mette in luce caratteristiche personali dell’individuo senza che lo stesso ne sia consapevole. Tantomeno, quindi, senza che abbia fornito il suo consenso.

Le due facce della medaglia non possono essere disgiunte. Detto in termini semplici, più si conosce di un individuo, meglio lo si può spingere verso un determinato acquisto. Tale processo di conoscenza si articola quindi in un’osservazione a 360°, spaziando dalle abitudini di acquisto alle informazioni sulla situazione patrimoniale, dalla psicologia dell’individuo alle abitudini sessuali, dalla scoperta dell’etnia a quella sul credo religioso, e così via. Tutto risulta utile ai fini di marketing.

Il singolo soggetto desideroso di riservatezza, però, può tutelarsi? Ebbene, soltanto in modo parziale e in sostanza poco efficace. In primis, bisognerebbe rinunciare a Internet. Chiunque sa che un like o un tweet sono rivelatori di una preferenza, ma pochi sono coscienti che, incrociando i dati, è possibile arrivare a individuare gusti e caratteristiche più intime, apparentemente disgiunte da quella espressa con il singolo like. La conclusione è che diventa infine possibile tracciare un identikit piuttosto accurato dell’individuo: etnia, orientamento sessuale, opinioni politiche e persino quoziente intellettivo possono essere predetti (pur se con un margine di errore).

Ma non si tratta soltanto di like o tweet: con la creazione dei data warehouse e con le metodiche del data mining, qualunque azione, persino qualunque atteggiamento passivo è, potenzialmente, altrettanto rivelatore e traducibile in informazione. La ragione è semplice: ci sono parecchie probabilità che finisca archiviato in una banca dati.