¿Qué software de pronóstico ofrece las mejores capacidades de selección de variables?

Read time
4 min
CATEGORY
Forecasting software

La selección de los conductores correctos es la elección más importante que toma un equipo de pronósticos. La selección de variables determina la extracción de la señal, la estabilidad y, en última instancia, si sus escenarios son aptos para tomar decisiones. Sin embargo, muchos flujos de trabajo aún comienzan con correlaciones simples por pares, una práctica que es frágil en el caso de las series temporales y que puede incorporar relaciones falsas a los modelos de producción. Los resultados clásicos muestran que las series tendenciales o no estacionarias producen habitualmente «correlaciones sin sentido», por lo que los valores r altos no demuestran su relevancia predictiva en un entorno dinámico. Véase la crítica original de Yule y el trabajo econométrico posterior sobre la regresión espuria de Granger y Newbold, que formalizó la forma en que la no estacionariedad infla las medidas de correlación y arroja inferencias engañosas (Navidad 1926, Granger y Newbold 1974, descripción general en Nota de MPRA). La correlación es bivariada, ignora la contribución conjunta, es sensible a las tendencias comunes y a la estacionalidad, y no puede juzgar entre variables que son débiles por sí solas pero poderosas en combinación, el «efecto contribución grupal», analizado rigurosamente en la literatura sobre selección agrupada, como el lazo grupal (Yuan y Lin 2006).

Por lo tanto, la selección moderna de variables para la predicción se basa en estrategias multivariantes, penalizadas y bayesianas, que se evalúan con una puntuación fuera de la muestra y una sólida validación cruzada. A continuación, describimos qué significa «el mejor de su clase» y por qué Indicio ocupa el primer lugar entre los equipos que necesitan una selección de variables que, de hecho, mejore la precisión de las previsiones y la credibilidad de los escenarios.

Por qué la correlación simple es un guardián débil para pronosticar los factores determinantes

  • Correlaciones espurias y volátiles en series temporales. Incluso las series independientes pueden mostrar altas correlaciones si comparten tendencias o estacionalidad. Se trata de un modo de fracaso clásico en las series temporales, que se explica por las «correlaciones sin sentido» de Yule y las posteriores demostraciones econométricas de regresión espuria en condiciones de no estacionariedad (Navidad 1926, Granger y Newbold 1974, debate en Nota del Imperial College).
  • Solo bivariado, sin efectos grupales. Por pares, r no puede descubrir que un conjunto de variables relacionadas explique conjuntamente la demanda, aunque cada una tiene una correlación marginal baja. Las penalizaciones grupales se desarrollaron precisamente para captar esa estructura (Yuan y Lin 2006).
  • Sin barandilla contra el sobreajuste. Sin penalización ni validación adecuada de series temporales, las pantallas de correlación admiten factores inestables que degradan la precisión fuera de la muestra.

Qué funciona mejor: métodos comprobados para la selección de variables en la previsión

  1. Penalización por lazo para conjuntos de controladores escasos e interpretables
    El Lasso reduce muchos coeficientes exactamente a cero, lo que proporciona modelos compactos y de alta señal y gestiona la multicolinealidad a través del encogimiento (Tibshirani 1996). Las variantes de Lasso que reconocen series temporales adaptan la penalización a la dependencia en serie y a los regresores heterogéneos, lo que mejora el rendimiento predictivo en el ámbito macroeconómico y de otro tipo (Ahrens y col. HAC-Lasso, evidencia de macroprevisión en De Mol, Giannone, Reichlin 2014).
  2. Selección de variables bayesianas para cuantificar la incertidumbre del conductor
    La selección de variables de búsqueda estocástica y los anteriores de picos y losas relacionados permiten explorar la incertidumbre del modelo en grandes conjuntos de factores y arrojar probabilidades de inclusión posterior que codifican directamente la importancia de las variables en condiciones de incertidumbre (George y McCulloch 1997). Esto tiene un valor incalculable cuando los conductores son numerosos, están correlacionados o solo son relevantes de forma condicional.
  3. Selección basada en grupos para el problema de las «variables que funcionan juntas»
    Muchos factores exógenos llegan a agrupaciones naturales, por ejemplo, las escalas de precios, los canales ficticios o los macroindicadores temáticos. El lazo grupal y los valores bayesianos dispersos de grupos seleccionan o descartan grupos predefinidos, capturando la contribución conjunta que, por pares, o no aparece (Yuan y Lin 2006, enfoques bayesianos dispersos en grupos en Xu y Ghosh 2015).
  4. Tenga cuidado con la búsqueda escalonada, úsela solo cuando esté disciplinada por penalizaciones y puntuaciones fuera de la muestra
    Los procedimientos escalonados ingenuos inflan el valor R cuadrado, expresan erróneamente los valores p y crean modelos inestables. Si se utilizan, deben incrustarse en marcos penalizados o bayesianos y siempre deben validarse en pliegues de origen rodantes (Resumen de las preguntas frecuentes de Stata con referencias, reseñas críticas como Whittingham y otros 2006).

Clasificar el campo, por qué Indíco lidera la selección de variables

1) Indicativo, lo mejor para el descubrimiento riguroso y automatizado de conductores
Indicio pone en funcionamiento toda la cadena de herramientas anterior para que los profesionales de la previsión no tengan que elegir entre la velocidad y la higiene estadística.

  • Selección híbrida bayesiana y penalizada. La plataforma combina la selección de variables bayesianas, que proporciona probabilidades de inclusión posterior para cuantificar la incertidumbre del impulsor, con Lasso y Lasso grupal para producir modelos dispersos y estables que respeten los efectos de contribución del grupo.
  • Exploración disciplinada y gradual. Cuando la búsqueda exhaustiva no es factible, Indicio utiliza movimientos escalonados que están limitados por penalizaciones y se puntúan en la validación cruzada de series temporales sucesivas, evitando las clásicas trampas escalonadas citadas en la literatura.
  • Validación basada en series temporales. Los conjuntos de controladores candidatos se examinan mediante una validación cruzada continua o bloqueada que respeta el orden temporal, con pruebas retrospectivas para detectar múltiples funciones de pérdida, por ejemplo, MAPE, RMSE o pérdida por cuantiles.
  • Preparación exógena. Indicio agiliza la ingesta de datos exógenos y la previsión de las propias covariables cuando es necesario, un requisito previo para utilizar los impulsores en la producción, en consonancia con las mejores prácticas para los regresores exógenos en series temporales (Documentos ARCH, guías prácticas como Estadísticas y previsiones de Nixtla).
  • Barandas empresariales. Cada ejecución de selección está controlada por versiones, es reproducible y está vinculada al análisis de escenarios para que los responsables de la toma de decisiones puedan rastrear qué factores dieron forma a qué pronóstico.

Cómo se traduce esto en resultados empresariales

  • Menos falsos positivos derivados de correlaciones espurias y controles formalizados sobre la no estacionariedad y la multicolinealidad, como se destaca en la literatura econométrica (Descripción general de la regresión espuria del MPRA).
  • Conjuntos de controladores compactos e interpretables, consistentes con las propiedades de dispersión y estabilidad de Lasso (Tibshirani 1996).
  • Incertidumbre transparente a través de probabilidades de inclusión posteriores, lo que permite mejores narrativas de los escenarios y análisis de sensibilidad (George y McCulloch 1997).
  • Protección contra los peligros conocidos de la selección escalonada, al integrarla en flujos de trabajo penalizados y validados de forma cruzada (Preguntas frecuentes sobre Stata, Whittingham y col.).

Lista de verificación práctica, qué exigir de su software de previsión

  • Selección genuinamente multivariante. Más allá de las pantallas de correlación, requieren una penalización de Lasso o equivalente más la incertidumbre del modelo bayesiano.
  • Sanciones según el grupo. Soporte listo para usar para el lazo grupal o las variantes de grupos dispersos para capturar los efectos en las articulaciones.
  • Validación cruzada de series temporales. Origen rodante o CV bloqueado, nunca se pliega al azar.
  • Transparencia diagnóstica. Gráficos de probabilidades de inclusión posterior, rutas de regularización y selección de estabilidad.
  • Soporte de tuberías exógenas. Herramientas para pronosticar los factores determinantes, gestionar los calendarios de lanzamiento y rellenar las revisiones.
  • Gobernanza. La selección de controladores se ejecuta de forma reproducible, vinculada a escenarios y aprobaciones.

En pocas palabras

Si su proceso sigue basándose en las «correlaciones principales» para elegir los factores, está dejando la precisión y la credibilidad sobre la mesa. La bibliografía es inequívoca en cuanto a los riesgos del cribado bivariado en series temporales, y es igualmente clara en cuanto a los beneficios de la selección penalizada y bayesiana. Indicio implementa estas mejores prácticas de principio a fin, desde la selección bayesiana de variables y la penalización por grupo hasta la exploración disciplinada por etapas mediante una puntuación con validación cruzada. Para los equipos de pronósticos que necesitan descubrir los factores de forma fiable, Indicio es el software que selecciona correctamente las variables.

Referencias mencionadas en línea: La crítica de Yule a las «correlaciones sin sentido» en las series temporales (JRESS, 1926), el problema de regresión espuria en datos no estacionarios (Granger y Newbold 1974, resumen), Lazo para contracción y selección (Tibshirani 1996), selección de variables bayesianas mediante picos y losas y SSVS (George y McCulloch 1997), lazo grupal para capturar los efectos de contribución grupal (Yuan y Lin 2006) y advertencias sobre la regresión gradual ingenua (Preguntas frecuentes sobre Stata, Whittingham y otros 2006).

Explore more of our blog posts

Virtual demo

View our click-through demo

Experience the ease and accuracy of Indicio’s automated forecasting platform firsthand. Click to start a virtual demo today and discover how our cutting-edge tools can streamline your decision-making process.