Il forecasting ai tempi del Covid-19

Come ovviare alle limitazioni dei modelli previsionali basati su serie storiche in questo momento di forte discontinuità

Il forecasting ai tempi del Covid-19 0

Contesto

Il particolare momento storico in cui ci troviamo ha evidenziato le limitazioni dei modelli di previsione basati sui dati storici. Ogni situazione di discontinuità rende infatti superflua l’informazione relativa ad osservazioni passate. Pensare che gli andamenti del 2020 possano anche lontanamente essere simili a quelli del 2019 è irrealistico e porterebbe ad una catena di decisioni errate. Ad esempio, si potrebbe verificare uno stoccaggio eccessivo di merce in magazzino o un approvvigionamento inadeguato per una produzione mal stimata. Per questo motivo è utile un cambio di prospettiva che consideri non solo a modelli di previsione autoregressivi, che sfruttano i dati storici, ma anche modelli regressivi, che invece tengono conto del contesto. Questi modelli utilizzano infatti la correlazione fra la quantità da predirre e ulteriori fattori che la possono influenzare come, ad esempio, la temperatura per la vendita di gelati o la percentuale di neo-patentati nella vendita di automobili.

Il nostro approccio

Machine Learning Reply si è posta l’obiettivo di rispondere in maniera tempestiva alla particolare situazione di rottura dei pattern previsionali progettando soluzioni in grado di supportare i nostri clienti nei processi decisionali durante questo particolare periodo storico.
Le soluzioni si applicano al mondo Retail, Manufacturing e a tutte le Industry che hanno visto dei cambiamenti radicali nella domanda dei loro beni e servizi.
Grazie alla combinazione di analisi statistiche e tecniche avanzate di Machine Learning siamo in grado di individuare variabili discriminatorie da utilizzare per prevedere il target senza affidarci a caratteristiche quali trend e stagionalità, dal momento in cui esse perdono di significato.
L’assenza di dato storico utile a stimare pattern ricorrenti viene ovviata dalla presenza di molteplici dati verticali su di un determinato periodo e potenziata dalla possibilità di simulare scenari alternativi.

Collezionamento dati

Lo sviluppo di modelli previsionali regressivi si basa sull’utilizzo di variabili apparentemente scollegate dall’attuale storico della variabile target. È pertanto fondamentale selezionare, sulla base della tipologia di problema, dati che possono potenzialmente avere un impatto importante nell’andamento della variabile target. Tali dati possono essere di proprietà del cliente, come i dati di budget o di produzione, ma anche disponibili pubblicamente, come i dati demografici o ambientali. In questa fase si raccolgono quanti più dati possibile per procedere poi ad un’analisi qualitativa per valutarne l'importanza.

Determinazione Rilevanza

Raccolte le diverse tipologie di dato si procede ad analizzarne quantitativamente l’importanza nell’ambito del problema affrontato. Grazie a diverse tipologie di test statistici è possibile stimare quale sia l’impatto dei dati raccolti sul risultato da prevedere e selezionare così l’insieme di informazioni che si utilizzerà per lo sviluppo di modelli di Machine Learning. È inoltre fondamentale in questa fase avere un approccio pragmatico volto a minimizzare la presenza di dati ridondanti, dati di scarsa qualità o dati non consistenti che porterebbero a modelli scarsamente performanti.

Data cleaning e sviluppo modelli

Individuati i dati da utilizzare si procede con una fase di pulizia e di pre-processing per standardizzare i dati prescelti e renderli compatibili fra di loro. La prima parte di questa fase prevede tecniche di missing data imputation, down sampling e up sampling ed in generale di cleaning. A seguire abbiamo una fase di sviluppo di modelli di Machine Learning che prevede l’addestramento di molteplici sistemi e la selezione del modello con performance migliori. Su tale modello viene poi effettuato un fine tuning per incrementare maggiormente l’accuratezza delle previsioni in situazioni specifiche.

Previsione e Simulazione

Sviluppato e potenziato il modello finale, esso si può utilizzare per fornire previsioni a granularità variabile a seconda delle esigenze del cliente. Per previsioni a lungo termine, come ad esempio il venduto stagionale previsto, la natura probabilistica del sistema permette al cliente anche di simulare scenari what-if scegliendo fra possibili evoluzioni delle variabili utilizzate, come la temperatura media o l’evoluzione dei contagi, nel caso esse siano state scelte come regressori del sistema. Questo permette di definire strategie alternative in relazione ai rischi evidenziati dal sistema.

Benefici

Machine Learning Reply si è focalizzata sugli ambiti che in maggior modo sono stati impattati dalla chiusura di attività dovuta al Covid-19. Il trend di vendita o di produzione è stato chiaramente sconvolto nelle sue logiche e ha pertanto richiesto nuovi approcci per la sua stima. L’utilizzo di modelli previsionali che non si basano su informazioni storiche della variabile da predirre ma su ulteriori variabili che possono incidere sul suo andamento sono utili ora che la valenza storica è minimizzata da altri eventi.
Questi modelli permettono inoltre di simulare scenari alternativi dove si vanno a modificare i dati di input prescelti e si vede come il risultato cambia al loro variare.
I vantaggi sono multipli: astraendoci dal concetto di passato possiamo offrire una nuova prospettiva che guarda ad una serie di fattori intrinsecamente utilizzati dall’essere umano nelle sue logiche previsionali ma non direttamente considerati dai classici modelli previsionali. Inoltre poter simulare molteplici scenari permette di gestire situazioni tipiche in cui le stesse informazioni di input sono stocastiche, come ad esempio la futura curva dei contagi; in questi casi è più utile dare un ventaglio di possibili previsioni giustificato da ragionamenti statistici invece che offrire un singolo valore previsionale con alto rischio di rivelarsi errato.
Questo permette di definire strategie per proteggersi da eventuali futuri lockdown ed organizzare le attività e la logistica in maniera ottimale sulla base delle previsioni a lungo termine.