Skip to content

Clustering: Divide et impera

Segmentazione selettiva, conoscerne molti per colpirne pochi

L’analisi predittiva non si esaurisce con gli algoritmi che permettono di ottenere informazioni future, ma offre anche altre tipologie di algoritmi, come quelli di segmentazione.
Questi algoritmi permettono di suddividere la popolazione della propria base storica in gruppi con caratteristiche affini, da utilizzare ad esempio, per creare campagne di marketing specifiche e adatte a particolari gruppi (cluster).

Segmentazione, clustering
Segmentazione con l’uso dei cluster

Potrebbe non essere chiaro il motivo per il quale sia conveniente suddividere l’intera popolazione in sottogruppi, per questo è utile fare un esempio ed analizzare una generica campagna di Marketing. Uno degli approcci per raggiungere una determinata percentuale di successo potrebbe essere quello di inviare a tutta la popolazione un’e-mail che illustri la proposta dell’azienda. Questo metodo può talvolta risultare invasivo e non sempre portare i risultati attesi.
Per rendere più efficace una campagna di marketing è spesso più utile suddividere la popolazione in sottogruppi sui quali effettuare promozioni mirate.
[quote style=”boxed” float=”left”]Il segreto per la riuscita delle operazioni è la conoscenza, … che ha come oggetto gli innumerevoli dettagli in cui è strutturato il mondo[/quote]Dividendo la popolazione in cluster si riesce a determinare quali comportamenti e quali caratteristiche accomunano porzioni dell’intera popolazione. Analizzando successivamente le variabili che contraddistinguono ciascun cluster si possono ideare soluzioni di marketing efficaci e direttamente collegate alla tipologia di clienti presente nei vari gruppi.
La segmentazione attraverso cluster non trova come unico campo di applicazione le campagne marketing ma è applicabile anche ad altri settori: permette infatti analisi che considerano dati di varia natura oltre a quelli anagrafici.
Per fissare un po’ le idee, si evidenzia un altro caso applicativo nel quale si utilizza il clustering per parametrizzare gli stipendi in base ad età, anni di studio, formazione, competenze acquisite, conoscenze aggiuntive e altre variabili d’interesse.

L’algoritmo K-Means: l’individuazione dei cluster

L’algoritmo K-Means – o delle K medie – viene utilizzato per determinare sottogruppi simili che hanno lo stesso comportamento (o che presentino omogeneità) in base alle variabili in gioco.
Questo algoritmo non necessita di alcuna conoscenza a priori sulle relazioni che accomunano i componenti dei vari sottogruppi, anzi, i raggruppamenti vengono effettuati in base alla minimizzazione della media tra le distanze degli elementi dei cluster.
Il primo passo per determinare la composizione dei cluster varia in base all’implementazione scelta dell’algoritmo (MacQueen, Forgy, Lloyd o Hartigan&Wong) e al caso preso in esame. In questa fase, l’algoritmo posiziona i centroidi iniziali (ossia i centri dei vari cluster) e, in relazione all’opzione scelta, li colloca in uno dei seguenti modi:

• Utilizzando K osservazioni casuali;
• Usando le K osservazioni più lontane tra loro;
• Prendendo K valori casuali in Rd.

Successivamente i vari record vengono assegnati ai centroidi a loro più vicini considerando le variabili in gioco e, vengono ricalcolati i k centroidi minimizzando la media tra le distanze.
Infine si procede alla reiterazione del procedimento di assegnazione dei centroidi e alla minimizzazione delle medie delle distanze fino a quando non ci saranno più variazioni (la funzione obiettivo, ovvero le medie delle distanze, è minima).

Clustering, K-Means
Algoritmo delle K-medie

Il nucleo della conoscenza: se la possiedi, applicala

L’applicazione dell’algoritmo K-Means permette di individuare casi d’interesse particolari e di agire in base ai risultati che ne derivano.
Analizziamo il caso di una compagnia di assicurazioni che deve determinare il premio assicurativo in base al numero di incidenti dei suoi assicurati. Per determinare la fascia corretta del premio assicurativo si segmenta l’intera popolazione preferendo un numero basso di cluster. Si è scelto di suddividere la popolazione in 3 cluster e, come si può notare dall’immagine seguente, il terzo cluster è quello che ha il più alto rischio di incidenti.
Analizzando la composizione del cluster in base alla variabile più significativa, si scopre che racchiude tutti gli assicurati che hanno un’età superiore ai 75 anni.

clustering,cluster
Analisi di un cluster

Gli altri due cluster presentano invece diverse caratteristiche e comprendono una percentuale di popolazione più elevata. Per un’analisi più dettagliata, è utile filtrare per cluster e riapplicare la segmentazione in modo da ottenere sottogruppi più piccoli.
Un ruolo fondamentale nella clusterizzazione lo giocano gli outlier (anomalie) che devono essere considerati per un’analisi più accurata dei dati, filtrandoli e applicando un’ulteriore segmentazione.

Dal generale allo specifico

La clusterizzazione molto spesso viene sottovalutata preferendo classificare i customer in base ad una variabile target. Segmentare utilizzando i cluster però permette di raggruppare i clienti non solo per una determinata variabile, ma in base a comportamenti comuni e ad altri fattori d’interesse. Analisi e segmentazioni successive permettono di scendere ancora di più nello specifico e ottimizzare le soluzioni per le “personas” e per le aziende. L’analisi dettagliata derivante dal clustering è la chiave per il successo.

Login

Effettua l'accesso al sito se sei già registrato

Register

Oppure registrati qui

La Password verrà generata automaticamente e inviata via email
Tenere premuto CTRL o CMD su Mac per selezionare più di un interesse