Selección de variables para la predicción, desde gráficos e instintos hasta algoritmos de búsqueda basados en datos

Read time
4 minutos
CATEGORY
Variable selection

La selección de los controladores correctos para una previsión suele ser más importante que la propia clase de modelo. En la previsión de la demanda de energía, por ejemplo, la transformación y selección de los datos meteorológicos ha permitido aumentar la precisión entre el 3,7 y el 5,2 por ciento en comparación con el uso de datos meteorológicos sin procesar, lo que supone un aumento de material a gran escala que se traduce directamente en mejores decisiones en materia de personal, compras y cobertura (Informática energética, 2023). En los casos de carga eléctrica, la selección de las estaciones meteorológicas y sus instalaciones es una práctica recomendada conocida precisamente porque mejora la capacidad de previsión y el valor empresarial (Hong, 2015; véase también la evidencia sobre la selección de estaciones en Moreno-Carbonell y otros, 2020). La literatura metodológica más amplia también muestra que la selección y la reducción basadas en principios reducen el error y el riesgo de sobreajuste, ya sea mediante criterios de información, penalización o métodos bayesianos (Tibshirani, 1996; George y McCulloch, 1993).

A continuación, describimos qué es la selección de variables, cómo evolucionó, por qué el manejo de variables exógenas puede crear un sesgo prospectivo y cómo implementar alternativas modernas, desde el código abierto hasta las plataformas automatizadas.

Un breve cronograma de selección de variables en la previsión

  • Inspección visual del retraso
    Los primeros pronosticadores observaron diagramas de dispersión y correlogramas retrasados para detectar los principales indicadores, una práctica útil pero subjetiva que es difícil de escalar.
  • Criterios de correlación e información
    Los análisis de correlación y la inclusión gradual con AIC o BIC tenían como objetivo seleccionar conjuntos parsimoniosos que equilibraran el ajuste y la complejidad (StepAic en la MASA de R; debate sobre las compensaciones entre AIC y BIC en Validación cruzada). Stepwise funciona, pero es miope y puede resultar inestable cuando los predictores son colineales (Zhang, 2016).
  • Regresión penalizada y modelos dispersos
    Los métodos como el LASSO realizan la contracción y la selección simultáneamente, lo que mejora la generalización fuera de la muestra en entornos de alta dimensión (Tibshirani, 1996; las extensiones que varían en el tiempo aparecen en el sector macroeconómico y financiero, p. ej., Kapetanios y otros, 2018).
  • Selección y promediación de variables bayesianas
    Los valores previos de picos y losas permiten la inclusión probabilística y tienen en cuenta la incertidumbre del modelo, lo que a menudo arroja un rendimiento predictivo más sólido cuando hay muchos candidatos y hay retrasos sobre la mesa (George y McCulloch, 1993; descripción general en Ishwaran y Rao, 2005; aplicaciones y software en besos).

El escollo exógeno: por qué tratar a los conductores como exógenos puede filtrar el futuro

Muchos modelos de aprendizaje automático y series temporales tratan los impulsores (variables independientes) como exógenos. Si evalúa dichos modelos utilizando valores futuros reales para los conductores, está filtrando información, lo que aumenta la precisión aparente. La evaluación de las series temporales debe utilizar orígenes progresivos o expansivos y debe simular el conjunto de información que estaba disponible en la fecha de previsión para evitar sesgos prospectivos (Hyndman, Previsión: principios y práctica; consulte los ejemplos de TsCV y rolling-origin en Hewamalage y otros, 2022, y la guía práctica en El blog de Hyndman).

La econometría dejó en gran medida de tratar a muchos macroimpulsores como exógenos en las décadas de 1970 y 1980. De Christopher Sims»Macroeconomía y realidad» propuso autorregresiones vectoriales, donde todas las variables se modelan conjuntamente como endógenas. El Premio del Riksbank de Ciencias Económicas del Sveriges Riksbank de 2011 reconoció a Sims y Sargent por sus métodos empíricos que muestran cómo se propagan las perturbaciones, incluidos los VAR (Comunicado de prensa del Premio Nobel, 2011; antecedentes en Christiano, 2012). La modelización conjunta del sistema también obliga a pronosticar los factores determinantes, lo que elimina las fugas que se producen cuando se introducen los valores exógenos obtenidos en los pliegues de prueba.

Qué aspecto tendrá una buena selección de variables en 2025

  • Defina los objetivos que prioriza la toma
    Alinee los KPI como RMSE, MAE o MASE con los costos y horizontes empresariales, y evalúe con procedimientos de origen continuo para detectar un verdadero error a la hora de tomar decisiones (FPP3 y Hewamalage y otros, 2022).
  • Busca de forma amplia y, a continuación, reduce
    Reúna las características de los candidatos, por ejemplo, los retrasos, las señales del calendario, el clima, los precios, las políticas tontas, y aplique la penalización o la selección bayesiana para controlar la varianza sin dejar de mantener la señal (Tibshirani, 1996; George y McCulloch, 1993).
  • Prefiera los modelos de sistema cuando los conductores se muden juntos
    Cuando los predictores y los objetivos se influyen entre sí, pase a VAR o VECM para que los factores determinantes se pronosticen y no se tomen prestados del futuro (estadisticas y modelos VAR; R vars paquete).
  • Cuantifique las ganancias reales
    Registra los cambios en el conjunto de funciones con su impacto fuera de la muestra. En las series cronológicas relacionadas con la energía, una mejor ingeniería de las características meteorológicas produce beneficios cuantificables, por ejemplo, la mejora del 3,7 al 5,2 por ciento mencionada anteriormente (Informática energética, 2023). Estudios similares sobre dominios específicos corroboran que las señales exógenas dirigidas aumentan la precisión cuando se manejan correctamente (Capitalización del MIT CTL, 2024).

Implementando la selección de variables, tres caminos prácticos

1) Flujo de trabajo programático de código abierto
Si necesita control y auditabilidad totales:

  • Python, penalizado y bayesiano
    Utilice scikit-learn para LASSO y red elástica, o pistán y PyMC para modelos bayesianos. Para el modelado de sistemas, el modelos de estadísticas La API VAR admite la selección del orden de retraso y la previsión en varios pasos, lo que evita las fugas al pronosticar conjuntamente todas las series (documentos VAR de statsmodels; descripción general en guía VAR de statsmodels).
  • R, escalonada y con punta y losa
    MASA: StepAic proporciona una búsqueda escalonada basada en AIC, mientras besos implementa priores de picos y losas que realizan la selección de variables bayesianas y el cálculo de promedios de modelos, lo que resulta especialmente útil con muchos indicadores y rezagos de los candidatos (Paso AIC; besos manual). Para el modelado de sistemas, el vars el paquete estima VAR, SVAR y VECM e incluye respuestas impulsivas y FEVD para el diagnóstico (GRULLA vars).

2) Evaluación estructurada para una precisión sin fugas
Independientemente de la cadena de herramientas, aplique la evaluación continua del origen y prohíba el uso de entradas exógenas futuras realizadas en los pliegues de validación. Los textos y notas de Hyndman ofrecen configuraciones concretas y reproducibles para la evaluación multihorizontal y la TsCV (FPP3; Tutorial de TsCV; revisión metodológica en Hewamalage y otros, 2022).

3) Plataformas sin código para velocidad y cobertura
Para los equipos que desean una amplia cobertura de modelos y una selección moderna sin necesidad de escribir código, plataformas como indicio automatice la búsqueda de variables, las transformaciones de funciones y la evaluación comparativa en modelos estadísticos, econométricos y de aprendizaje automático, y luego operacionalice las mejores configuraciones con las pruebas retrospectivas adecuadas, todo ello a través de una interfaz fácil de usar (Influencia, selección de variables). Las herramientas de esta categoría están diseñadas para mejorar rápidamente la precisión mensurable y, al mismo tiempo, garantizar una evaluación sin fugas y tuberías repetibles.

Reuniéndolo, un proceso de selección limpio y sin fugas

  • Selecciona tu conjunto de candidatos
    Las funciones, las estructuras de rezago, las interacciones y las transformaciones basadas en el dominio, incluidos los datos externos, como los calendarios meteorológicos o políticos, cuando proceda, ya que con frecuencia generan beneficios reales en la práctica (Informática energética, 2023; Hong, 2015).
  • Ejecute la selección con antecedentes bayesianos o de contracción
    Utilice la penalización para estabilizar las estimaciones o los picos y tablas para captar la incertidumbre del modelo (Tibshirani, 1996; besos).
  • Prefiere VAR cuando la causalidad se ejecuta en ambos sentidos
    Los factores impulsores y los objetivos que evolucionan conjuntamente deben entrar en un sistema conjunto para evitar las suposiciones de exogeneidad y el sesgo prospectivo (Sims, 1980; Premio Nobel, 2011).
  • Evalúe exactamente como operará
    Evaluación continua o precuencial con el conjunto de información correcto, no divisiones aleatorias, de modo que las ganancias reportadas persistan en la producción (Hyndman TsCV; Hewamalage y otros, 2022).

En pocas palabras

La selección de variables no es una casilla de verificación, es la columna vertebral de una previsión precisa y fiable. Combine la selección moderna, la reducción y los promedios bayesianos con modelos de sistemas cuando los conductores y los objetivos se mueven de forma conjunta, evalúe con protocolos a prueba de fugas y obtendrá pronósticos que se mantengan durante la producción. Si valora la velocidad en relación con el impacto, piense en una plataforma sin código como Indicio para automatizar el trabajo pesado sin dejar de aplicar las mejores prácticas de evaluación e implementación (indicio).

Explore more of our blog posts

Virtual demo

View our click-through demo

Experience the ease and accuracy of Indicio’s automated forecasting platform firsthand. Click to start a virtual demo today and discover how our cutting-edge tools can streamline your decision-making process.