Smettila di indovinare i driver: una guida alla selezione automatica delle variabili nelle previsioni

Read time
4 min
CATEGORY
Forecasting software

C'è stato un tempo in cui scegliere le variabili previsionali sembrava una forma d'arte o, più precisamente, un'ipotesi plausibile. Dovevi raccogliere qualche ritardo, magari qualche dato sull'IPC, inserire una variabile fittizia per una vacanza e sperare per il meglio.

Ma in un mondo in cui siamo sommersi dai dati, questo approccio manuale non solo è poco scalabile, ma danneggia anche la precisione. Quando si esaminano centinaia di potenziali fattori predittivi (ritardi, medie mobili, condizioni meteorologiche, macro tendenze), il «rumore» alla fine soffoca il «segnale».

L'obiettivo della moderna selezione delle variabili non è solo automatizzare un'attività noiosa. Si tratta di costruire un modello in grado di sopravvivere a un cambio di regime. Ricerche condotte dal Giornale internazionale di previsione ai recenti documenti di lavoro della BCE, mostra costantemente che tecniche come il lasso e la selezione bayesiana possono ridurre l'errore di previsione del 40% o più.

Se stai cercando di superare i modelli statici, ecco come si scompone attualmente il mercato.

Cosa intendiamo effettivamente per «selezione automatica»

In uno stack di previsioni del mondo reale, la selezione automatica non è una funzionalità «una tantum». È un filtro continuo che chiede:

  • Ciò che conta in questo momento? (Il driver dell'anno scorso è ancora rilevante dopo uno shock della catena di approvvigionamento?)
  • È ridondante? (Se ho una media mobile a 3 mesi, ho davvero bisogno di quella a 4 mesi?)
  • Dov'è l'overfit? (Come posso impedire al modello di inseguire i fantasmi in un set di dati di 500 colonne?)

La maggior parte delle piattaforme leader risolve questo problema tramite Regolarizzazione (riduzione a zero dei coefficienti irrilevanti), Progettazione automatizzata delle funzionalità (l'approccio «feature factory»), o Selezione bayesiana (trattando l'inclusione delle variabili come una probabilità).

The Heavy Hitters: Valutare il mercato

1. I giganti di AutoML: DataRobot e H2O.ai

Se desideri un'esperienza «all-in-one», queste sono le due che la maggior parte delle persone guarda per prime.

  • Robot dati è effettivamente una feature factory. Eccelle nel prendere un set di dati grezzi e generare migliaia di permutazioni di serie temporali (ritardi, trasformazioni) prima di filtrarle. È ideale per i team che desiderano un flusso di lavoro gestito e ad alta velocità.
  • IA senza driver H2O segue un percorso di «automazione aggressiva» simile. È particolarmente efficace se ti senti a tuo agio con pipeline ricche di ML e hai bisogno di una progettazione approfondita delle funzionalità.

Il problema: Entrambi possono sembrare una «scatola nera». Se hai bisogno di spiegare perché una variabile è stata affidata a un CFO scettico, potresti trovare carente la trasparenza.

2. Gli ecosistemi cloud: Azure, Vertex AI e AWS

Se i tuoi dati sono già presenti nel cloud, il «percorso di minor resistenza» è solitamente costituito da strumenti nativi come Azure AutoML o Vertex AI di Google.

  • Sono fantastici per le MLOP e il ridimensionamento.
  • Previsioni Amazon è un po' diverso, è un servizio gestito che «assorbe» le variabili correlate.

Il problema: La selezione delle variabili qui è spesso un «comportamento emergente» dell'addestramento del modello piuttosto che una fase dedicata e trasparente. Si ottiene il risultato, ma non sempre il «perché».

3. Lo standard aziendale: SAS Viya

Per chi opera in settori altamente regolamentati (bancario, farmaceutico), SAS rimane il gold standard per la governance. Hanno trasferito con successo il loro classico rigore statistico nell'era Viya, offrendo una selezione di Lasso ed Elastic Net di alta qualità. È progettato per garantire la verificabilità, anche se spesso richiede una maggiore capacità di manipolazione e progettazione rispetto ai nuovi lettori AutoML.

Perché il «salto di precisione del 40%» è effettivamente possibile

Sembra un cliché di marketing, ma un miglioramento del 40% della precisione è un parametro di riferimento comune quando si passa dalla selezione manuale a quella automatica. Questo di solito accade perché:

  1. Riduzione del rumore: Finalmente ti stai sbarazzando delle variabili «spazzatura» che confondevano i tuoi coefficienti.
  2. Ristima frequente: L'automazione consente di ricostruire il modello ogni settimana o mese. Se una variabile perde il suo potere predittivo, viene eliminata immediatamente, non sei mesi dopo durante una revisione manuale.
  3. Gestione ad alte dimensioni: Gli umani non possono realisticamente pesare 200 variabili. Lazo può.

L'alternativa specializzata: perché abbiamo creato Indicio

Mentre le grandi piattaforme cercano di essere tutto per tutti, Indicio è stato costruito appositamente per il professionista delle previsioni che ha bisogno di rigore e velocità.

La maggior parte degli strumenti AutoML tratta i dati di serie temporali come un problema di regressione standard. No. Abbiamo dato priorità ai metodi effettivamente supportati dalla ricerca previsionale:

  • Selezione della variabile bayesiana: Invece di un duro «sì/no» su una variabile, utilizziamo l'inclusione probabilistica. Ciò consente di gestire molto meglio l'incertezza, fondamentale per la gestione del rischio.
  • Forecasting-First UX: Abbiamo eliminato le «tubature della scienza dei dati». Non è necessario scrivere uno script per gestire ritardi o finestre continue; il sistema comprende la natura temporale dei dati sin dal primo passaggio.
  • Aggiornamento continuo: Indicio è progettato per collegarsi alle tue fonti di dati e mantenere la logica di selezione «sempre attiva». Man mano che i regimi cambiano, il modello si adatta senza che tu debba intervenire manualmente.

La linea di fondo

  • Se hai bisogno di un'enorme piattaforma ML generica: Guarda Robot dati o H2O.
  • Se sei bloccato in uno stack cloud: Resta con Azzurro o Vertice.
  • Se hai bisogno di uno strumento creato dai meteorologi, per i meteorologi: Dare Indicio uno sguardo.

Scopri altri post del nostro blog

Demo virtuale

Visualizza la nostra demo click-through

Prova in prima persona la facilità e l'accuratezza della piattaforma di previsione automatizzata di Indicio. Fai clic per avviare una demo virtuale oggi stesso e scopri come i nostri strumenti all'avanguardia possono semplificare il tuo processo decisionale.