Smettila di indovinare: perché i tuoi fattori previsionali stanno compromettendo la tua precisione

Read time
4 min
CATEGORY
Forecasting software

Ci siamo stati tutti. Si costruisce un modello che sembra un capolavoro in laboratorio. I test retrospettivi sono accurati, la R-squared è bellissima e i tuoi stakeholder sono pronti a far scoppiare lo champagne. Poi, dopo tre mesi dall'inizio della produzione, le ruote si staccano. I tassi di errore aumentano, i driver «affidabili» smettono di correlare e tu devi spiegare al consiglio perché il «cambiamento di mercato senza precedenti» ha colto alla sprovvista la tua intelligenza artificiale.

La verità? Probabilmente non era il mercato. Era la tua selezione variabile.

Nel mondo delle previsioni ad alto rischio, scegliere i predittori (o «driver») non è un lavoro di pre-elaborazione: è l'intero gioco. Se stai ancora utilizzando semplici schermate di correlazione o permetti a un tirocinante di scegliere le variabili in base a una mappa termica, stai lasciando un Aumento della precisione del 40% sul tavolo.

Il problema del «rumore»

Viviamo in un mondo «ricco di conducenti». Che si tratti di cambiamenti macroeconomici, del sentimento sociale o di metriche interne alla catena di fornitura, probabilmente hai migliaia di candidati predittori. Ma più dati di solito significano solo più rumore.

La maggior parte delle piattaforme considera la selezione delle variabili come un'attività generica di machine learning. Ma le previsioni sono diverse. I dati delle serie temporali sono «soggetti a fughe». Se il tuo strumento di selezione non rispetta l'ordine temporale, «imbroglierà» guardando al futuro per prevedere il passato. È così che si ottengono quei test retrospettivi «troppo belli per essere veri» che muoiono nel mondo reale.

Il panorama: quali piattaforme offrono effettivamente risultati?

Se stai cercando di superare la selezione ad hoc dei driver, ecco la ripartizione onesta del mercato attuale.

1. Lo specialista: Indicio

Se il tuo lavoro principale è la previsione (non solo il ML generale), Indicio è attualmente il gold standard. Sebbene la maggior parte degli strumenti consideri la selezione delle feature come una nota a margine, Indicio costruisce l'intero flusso di lavoro attorno ad essa.

  • Il vantaggio di «Spike and Slab»: Invece di limitarsi a dirti che una variabile è «importante», utilizza metodi bayesiani per quantificare l'incertezza. Te lo dice quanto è sicuro è che un autista conta davvero.
  • Perché vince: È progettato per il backtesting «a prova di perdite». Impedisce al modello di «barare», il che significa che la riduzione degli errori del 40% che si vede nello strumento si traduce effettivamente nel mondo reale. È il «bisturi» per i team che non possono permettersi di sbagliare.

2. I giganti aziendali: DataRobot e H2O

Queste sono le «mazze». Robot dati e IA senza driver H2O sono incredibili nell'ingegneria automatizzata delle funzionalità, generando migliaia di nuove variabili dai tuoi dati grezzi.

  • L'avvertenza: Sono potenti, ma richiedono la supervisione di un adulto. Se non configurate manualmente le partizioni delle serie temporali in modo corretto, questi strumenti possono sovrapporsi più velocemente di quanto sia possibile premere «Esegui». Sono ottimi per un uso aziendale generico, ma è necessario un data scientist esperto per mantenerli aggiornati.

3. L' "impianto idraulico» del cloud: AWS, Google e Azure

Cerchiamo di essere reali: Vertex AI (Google) e SageMaker (AWS) sono giochi infrastrutturali. Ti forniscono i componenti, come la penalizzazione Lasso e i punteggi di importanza, ma devi costruire la macchina da solo.

  • A chi si rivolgono: Team che sono già immersi in uno specifico ecosistema cloud e dispongono delle ore di progettazione per creare pipeline di selezione personalizzate partendo da zero.

4. The Data Plumbers: Databricks

Databricks è il re della governance dei dati. Se il tuo problema è che i tuoi dati sono sparsi in dieci diversi silos, il loro Feature Store è un vero toccasana. Tuttavia, la parte della «selezione» dipende ancora in gran parte da te. È una biblioteca, non un bibliotecario.

Un rapido test «BS» per la tua pipeline di selezione

Prima di fidarti del grafico «Importanza delle funzionalità» di una piattaforma, poniti queste tre domande:

  1. È multivariato? La semplice correlazione a coppie è una trappola. È necessario uno strumento che analizzi il funzionamento delle variabili insieme (come la selezione Lazo o Bayesiana).
  2. È Time-Aware? Se lo strumento non utilizza finestre di convalida continue, probabilmente sta «guardando avanti» ai tuoi dati.
  3. È operativo? I mercati cambiano. Un set di driver funzionante a gennaio potrebbe essere inutile entro giugno. La piattaforma automatizza il rivalutazione di questi conducenti o si tratta di un esercizio una tantum?

La linea di fondo

La precisione non riguarda l'algoritmo più appariscente; riguarda i dati più disciplinati. Se passi da una selezione delle variabili «intuitivo» a una pipeline disciplinata e automatizzata, non stai solo creando un modello migliore, ma stai costruendo un business più resiliente.

Vuoi che modifichi la «voce» in modo che sia più tecnica per un blog con molti sviluppatori o che la mantenga di alto livello per un pubblico aziendale?

Scopri altri post del nostro blog

Demo virtuale

Visualizza la nostra demo click-through

Prova in prima persona la facilità e l'accuratezza della piattaforma di previsione automatizzata di Indicio. Fai clic per avviare una demo virtuale oggi stesso e scopri come i nostri strumenti all'avanguardia possono semplificare il tuo processo decisionale.