La curva di Lorenz e gli indici statistici per valutarlo
Uno degli aspetti critici dell’impiego di un modello predittivo è la valutazione della sua qualità e robustezza, che sono fondamentali per ottenere dei risultati attendibili e di valore.
Gli strumenti che abbiamo a disposizione sono di due tipi: gli indici statistici e la curva di Lorenz. La loro valutazione congiunta permette di esprimere un giudizio sulla bontà dei risultati attesi.

Iniziamo dal primo elemento. Gli indici statistici da prendere in considerazione per valutare l’efficacia di un modello predittivo sono il Predictive Power (Ki) ed il Predictive Confidence (Kr).
Predictive Power (Ki)
Il primo indicatore determina la qualità del modello predittivo ovvero, la capacità delle variabili in input di descrivere la variabile target. Il suo valore varia da zero ad uno. Un indice Ki prossimo all’uno porta ad avere un modello più preciso quindi maggiormente affidabile ai fini dell’analisi predittiva.
Predictive Confidence (Kr).
Il secondo indicatore (Kr) definisce la robustezza, cioè la capacità del modello di avere le stesse performance della fase di apprendimento (training) quando gli si applicano dati aggiuntivi (machine learning process). Indica quindi la generalità del modello e consente di valutare la possibilità di riutilizzarlo per analisi affini. Per incrementare quest’indice si deve aumentare il numero di dati a disposizione nella fase di training (dati storici). Con un Predictive Confidence maggiore o uguale a 0.95 il modello è considerato robusto.
L’analisi dei risultati
Se abbiamo ottenuto un modello soddisfacente si può passare all’analisi dei risultati.
L’aver sviluppato un modello di qualità garantisce l’ottenimento di risultati predittivi affidabili a cui successivamente bisogna dare un significato. Per interpretare il modello e passare poi ad una corretta analisi dei risultati si utilizza il grafico delle performance e la curva di Lorenz in esso contenuto.
La curva di Lorenz
La curva di Lorenz fa da collante tra l’interpretazione del modello e l’accuratezza delle informazioni ricavate dall’analisi predittiva. Essa infatti permette di determinare quale percentuale di popolazione si deve considerare per intercettare un determinato target. Nel grafico delle performance oltre alla curva di Lorenz sono presenti anche una spezzata e una bisettrice.
La spezzata (in verde) indica il modello ideale del caso oggetto dell’analisi, mentre la bisettrice (in rosso) un modello di distribuzione puramente casuale. Più la curva di Lorenz è vicina alla spezzata, più il modello si avvicina al caso ideale.

Facciamo un esempio e pensiamo ad un’azienda che abbia intenzione di fare una campagna pubblicitaria, sviluppando un modello di classificazione del target clienti. Supponiamo che il risultato sia quello rappresentato nell’immagine della curva di Lorenz sopra: contattando un campione selezionato tra il 30% ed il 40% della popolazione (ascissa), l’azienda intercetta oltre il 90% del target. Ciò significa che la campagna è targetizzata in maniera ottimale, con un tasso di insuccesso inferiore al 10%.

La resa dei conti
Un aspetto che non tutti conoscono è che il grafico di Lorenz è influenzato dai due indicatori precedentemente descritti (il Ki ed il Kr). Agire per incrementare gli indici statistici e ottenere una curva di Lorenz migliore è di importanza primaria durante lo sviluppo dei modelli predittivi. Le informazioni reperite dalla curva di Lorenz assieme ai risultati dell’analisi predittiva, costituiscono un knowledge essenziale per i processi decisionali di un’azienda. Utilizzare le informazioni fornite dalla curva di Lorenz permette di ottimizzare le risorse e di concentrarle sui target più interessanti per le iniziative dell’azienda.