Selección de Variables en Pronóstico: Métodos, Beneficios y Mejores Prácticas (2026)

Read time
4 min
CATEGORY
Variable selection

La selección de variables es el proceso de identificar qué variables de entrada mejoran genuinamente una previsión y excluir aquellas que añaden ruido. Si se realiza correctamente, reduce el sobreajuste, mejora la precisión fuera de la muestra y produce previsiones más fáciles de explicar y sobre las que actuar.

Esta guía cubre por qué es importante la selección de variables, los métodos más efectivos utilizados en la práctica, cómo encajan los indicadores adelantados en el proceso de selección y cómo el software de previsión automatizada gestiona la selección de variables a gran escala.

¿Por qué la selección de variables mejora la precisión de las previsiones?

La selección de variables mejora la precisión de las previsiones al eliminar aquellas variables que explican bien los datos históricos pero predicen mal los valores futuros. Incluir demasiadas variables provoca sobreajuste: el modelo memoriza patrones en los datos de entrenamiento que no se mantienen en datos nuevos. El resultado es una previsión que parece precisa sobre el papel, pero que falla por completo el siguiente punto de inflexión.

El beneficio principal es la claridad de la señal. Cuando un modelo incluye solo variables con un poder predictivo genuino, cada estimación de coeficiente es más estable, los intervalos de confianza son más estrechos y la previsión se degrada de forma más gradual cuando las condiciones cambian.

En la práctica, las organizaciones que pasan de la selección de variables basada en correlación a métodos multivariantes avanzados observan mejoras sustanciales en la precisión de las previsiones, especialmente en previsiones económicas y de demanda a corto plazo donde las relaciones ruido-señal son altas.

¿Cuáles son los métodos de selección de variables más efectivos en la previsión económica?

Los métodos más efectivos dependen del número de variables candidatas, la frecuencia de los datos y de si la interpretabilidad es importante. Estos son los principales enfoques:

LASSO (Operador de Contracción y Selección Absoluta Mínima)

LASSO añade un término de penalización al objetivo de regresión que reduce los coeficientes pequeños a exactamente cero, eliminando eficazmente esas variables del modelo. Es el método de selección de variables automatizado más utilizado en la previsión económica porque maneja conjuntos de predictores grandes de manera eficiente y produce modelos dispersos e interpretables.

LASSO funciona mejor cuando:

  • El número de variables candidatas excede el número de observaciones (el problema de "p grande, n pequeña" común en la macroprevisión)
  • La interpretabilidad de las variables retenidas es importante
  • Un único parámetro de regularización puede ajustarse mediante validación cruzada

Elastic Net extiende LASSO añadiendo un componente de penalización Ridge. Esto maneja mejor los predictores correlacionados, un escenario común cuando se trabaja con indicadores macroeconómicos que se mueven juntos.

Promediación de Modelos Bayesianos (BMA)

La Promediación de Modelos Bayesianos evalúa muchas posibles especificaciones de modelos y pondera cada una por su probabilidad posterior dados los datos. En lugar de elegir un único modelo "mejor", BMA retiene variables con alta probabilidad de inclusión posterior (PIP) — la probabilidad de que una variable dada pertenezca al verdadero modelo generador de datos.

BMA es particularmente efectivo para la previsión económica porque:

  • Tiene en cuenta la incertidumbre del modelo en lugar de tratar una especificación como definitiva
  • Las puntuaciones PIP proporcionan a los profesionales una base fundamentada para incluir o excluir variables límite
  • Maneja mejor los cambios de régimen que los modelos de especificación fija cuando se combina con priors variables en el tiempo

Algoritmos de búsqueda y paso a paso (hacia adelante, hacia atrás, paso a paso)

Los métodos paso a paso prueban combinaciones de variables secuencialmente:

  • Selección hacia adelante comienza sin variables y añade la que más mejora el ajuste del modelo en cada paso
  • Eliminación hacia atrás comienza con todas las variables y elimina la menos significativa en cada paso
  • Paso a paso combina ambos, permitiendo que las variables vuelvan a entrar si las condiciones cambian

Estos métodos son computacionalmente eficientes para conjuntos de predictores moderados y producen resultados fácilmente interpretables. Pueden sobreajustarse en muestras pequeñas, por lo que la validación cruzada en un período de retención es esencial.

Criterios de Información (AIC y BIC)

El Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC) evalúan el ajuste del modelo mientras penalizan el número de parámetros. BIC aplica una penalización más fuerte y tiende a seleccionar modelos más parsimoniosos. Ambos se utilizan como funciones objetivo dentro de algoritmos de búsqueda en lugar de como métodos de selección independientes.

Importancia de las Características en Machine Learning

Los métodos basados en árboles (Random Forest, XGBoost, gradient boosting) producen puntuaciones de importancia de las variables basadas en cuánto reduce cada variable el error de predicción en todas las divisiones. Estas puntuaciones se utilizan para clasificar y filtrar predictores candidatos antes de entrar en un modelo paramétrico.

Los valores SHAP (SHapley Additive exPlanations) extienden este enfoque al atribuir la contribución de cada variable a las predicciones individuales, permitiendo una explicación post-hoc de qué variables impulsaron un resultado de previsión específico.

¿Cómo influyen los indicadores adelantados en la selección de variables?

Los indicadores adelantados son variables que cambian consistentemente antes de que lo haga la variable objetivo. En la previsión económica, ejemplos comunes incluyen permisos de construcción (adelantando la construcción residencial), diferenciales de crédito (adelantando las tasas de impago corporativo), índices de gerentes de compras (adelantando la producción industrial) y encuestas de confianza del consumidor (adelantando el gasto minorista).

Los indicadores adelantados influyen en la selección de variables de dos maneras:

1. Alineación temporal. Un indicador adelantado solo es útil si su tiempo de adelanto es lo suficientemente largo como para ser accionable. Los métodos de selección de variables que tienen en cuenta los desfases temporales —incluyendo la construcción de variables rezagadas y enfoques de frecuencia mixta— son más adecuados para capturar esta relación que los métodos que asumen efectos contemporáneos.

2. Estabilidad predictiva. Algunos indicadores adelantan de forma fiable a lo largo de múltiples ciclos económicos; otros tienen relaciones de adelanto inestables. Los métodos bayesianos son particularmente adecuados para manejar esta inestabilidad porque actualizan las probabilidades de inclusión a medida que llegan nuevos datos, despriorizando los indicadores cuyo poder predictivo ha disminuido.

En plataformas de previsión automatizada como Indicio, el análisis de indicadores adelantados está integrado en el flujo de trabajo de selección de variables. La plataforma genera automáticamente características de retardo, medias móviles y factores estacionales para cada variable candidata, luego evalúa su contribución predictiva mediante validación cruzada antes de incluirlas en el conjunto de modelos final.

¿Cómo funciona la selección de variables en el software de previsión automatizada?

El software de previsión automatizada gestiona la selección de variables a través de un pipeline que combina ingeniería de datos, pruebas estadísticas y validación cruzada:

  1. Ingeniería de características — El software genera automáticamente transformaciones de cada variable candidata: rezagos en múltiples horizontes, medias móviles, ajustes estacionales y términos de interacción. Esto expande el espacio de predictores candidatos sin requerir trabajo manual.
  2. Clasificación automatizada — Los modelos de machine learning puntúan cada variable candidata (incluidas las características ingenierizadas) por su contribución a la precisión de la previsión fuera de la muestra. Las variables se clasifican por su puntuación de importancia.
  3. Selección y poda — Una combinación de métodos (LASSO, criterios bayesianos o criterios de información, según la plataforma) reduce el conjunto de candidatos a un subconjunto más pequeño de variables genuinamente predictivas.
  4. Validación cruzada — Los conjuntos de variables seleccionados se evalúan en períodos de retención para confirmar que las elecciones de selección se generalizan. Las métricas utilizadas incluyen RMSE, MAPE, MASE y la tasa de aciertos, dependiendo del horizonte de previsión y el objetivo de negocio.
  5. Anulación manual — Las buenas plataformas permiten a los profesionales anular las selecciones automatizadas: forzar la inclusión de variables que el conocimiento del dominio sugiere que son importantes, incluso si los datos actuales las infravaloran, o excluir variables que están correlacionadas con el objetivo pero carecen de un mecanismo causal.

Indicio implementa los cinco pasos en una interfaz guiada sin código. Los usuarios pueden analizar la importancia de las variables automáticamente, incluir o excluir variables manualmente, ejecutar validación cruzada en diferentes configuraciones de variables e inspeccionar diagnósticos que muestran qué variables se retuvieron, se eliminaron y por qué —incluyendo la atribución basada en SHAP para la explicabilidad del modelo.

¿Qué variables debería considerar en la previsión económica y empresarial?

El conjunto de variables adecuado depende de la serie objetivo, pero las siguientes categorías mejoran consistentemente la precisión de las previsiones en todas las industrias:

Indicadores macroeconómicos

  • Tipos de interés y forma de la curva de rendimiento
  • Inflación (IPC, IPP, PCE)
  • Índices de producción industrial
  • Índices de Gerentes de Compras (PMI)
  • Datos de desempleo y mercado laboral
  • Diferenciales de crédito e índices de condiciones financieras

Indicadores adelantados específicos de la industria

  • Automoción: matriculaciones de vehículos nuevos, volúmenes de originación de crédito, ciclos de reemplazo de flotas
  • Construcción: permisos de construcción, inicios de viviendas, facturación arquitectónica
  • Servicios financieros: volúmenes de solicitudes de préstamos, tasas de morosidad, tasas de préstamos interbancarios
  • Comercio minorista/planificación de la demanda: confianza del consumidor, afluencia de público, clima, calendarios promocionales

Señales internas del negocio

  • Volúmenes históricos de pedidos y cartera de pedidos
  • Cambios de precios y actividad promocional
  • Etapa del ciclo de vida del producto
  • Datos de tiempo de entrega y cancelación a nivel de cliente

Variables de calendario y eventos

  • Días festivos, patrones estacionales y efectos del calendario fiscal
  • Eventos puntuales (cambios de política, shocks de oferta, lanzamientos de productos)

Las plataformas automatizadas como Indicio se conectan a proveedores de datos externos para ingerir directamente indicadores macroeconómicos y específicos de la industria, reduciendo el esfuerzo manual de obtener y alinear los datos de las variables.

Preguntas frecuentes

¿Por qué la correlación se queda corta como método de selección de variables? La correlación mide solo las relaciones lineales entre pares de variables. Omite los efectos de interacción, las relaciones no lineales y la contribución combinada de grupos de variables correlacionadas. Métodos avanzados como LASSO y la Promediación de Modelos Bayesianos evalúan la contribución predictiva incremental de cada variable dentro de un modelo multivariante, lo que produce una mejor precisión fuera de la muestra.

¿Qué es la probabilidad de inclusión posterior (PIP) en la selección bayesiana de variables? PIP es la probabilidad de que una variable dada pertenezca al verdadero modelo generador de datos, estimada a través de una gran muestra de especificaciones de modelos. Una variable con un PIP superior a 0.5 tiene más probabilidades de pertenecer al modelo que de no hacerlo. Las puntuaciones PIP proporcionan a los profesionales una base fundamentada y cuantificada para incluir o excluir predictores límite.

¿Cuántas variables debería incluir un modelo de previsión? No hay una regla universal, pero el principio rector es la parsimonia: utilizar el número mínimo de variables que logre la precisión objetivo fuera de la muestra. Más variables aumentan el coste computacional, reducen la interpretabilidad y el riesgo de sobreajuste, especialmente en series temporales cortas. La validación cruzada en un período de retención es la mejor guía para optimizar el equilibrio entre precisión y complejidad.

¿Se aplica la selección de variables a los modelos univariantes? No. La selección de variables es específica de los modelos multivariantes porque implica elegir qué variables externas incluir junto con la serie objetivo. Los modelos univariantes (ARIMA, Suavizado Exponencial, Prophet) utilizan solo el historial de la propia variable objetivo. La selección de variables se vuelve relevante al pasar a modelos multivariantes como VAR, ARDL, MIDAS o conjuntos basados en ML.

¿Cuál es la diferencia entre selección de variables e ingeniería de características? La ingeniería de características crea nuevas variables candidatas a partir de las existentes (rezagos, medias móviles, factores estacionales, términos de interacción). La selección de variables determina entonces cuáles de esas características ingenierizadas —junto con las variables originales— deben incluirse en el modelo. Los dos pasos son complementarios: una mejor ingeniería de características expande el conjunto de candidatos; una mejor selección de variables elige los correctos de ese conjunto.

¿Cómo se compara LASSO con la regresión Ridge para la selección de variables? LASSO reduce algunos coeficientes a exactamente cero, realizando la selección de variables por exclusión. Ridge reduce todos los coeficientes hacia cero, pero mantiene todas las variables en el modelo. Para aplicaciones de previsión donde se desea un conjunto de variables más pequeño e interpretable, LASSO es la opción preferida. Elastic Net combina ambas penalizaciones y es preferible cuando los predictores están altamente correlacionados.

¿Puede el software de previsión automatizada reemplazar el juicio experto en la selección de variables? Los métodos automatizados son superiores para procesar grandes conjuntos de candidatos y evitar el sobreajuste mediante una validación cruzada consistente. El juicio experto sigue siendo importante para dos decisiones: (1) definir el conjunto de variables candidatas —la automatización solo puede seleccionar de lo que se le proporciona, por lo que el conocimiento del dominio sobre qué indicadores son mecánicamente relevantes sigue siendo importante; y (2) anular las exclusiones automatizadas cuando una variable tiene una fuerte justificación causal a pesar de una señal débil en los datos actuales.

¿Cómo interactúa la selección de variables con el horizonte de previsión? Los horizontes de pronóstico más largos requieren variables con mayor anticipación. Una variable que se adelanta al objetivo por un mes no es útil para un pronóstico a 12 meses. Los métodos de selección de variables que prueban explícitamente las variables con múltiples desfases —o que utilizan enfoques de frecuencia mixta para combinar indicadores mensuales y trimestrales— son más adecuados para la previsión a medio y largo plazo que los métodos que solo prueban relaciones contemporáneas.

Acerca de Indicio

Indicio es una plataforma de pronóstico automatizada que combina modelos econométricos, de IA y de aprendizaje automático en una interfaz sin código. Incluye análisis automatizado de importancia de variables, selección de variables LASSO y bayesiana, explicabilidad basada en SHAP y herramientas de validación cruzada, diseñada para equipos de FP&A, planificación de la demanda y economía que necesitan pronósticos rigurosos y explicables sin escribir código.

Explora las funciones de selección de variables de Indicio →

Explore more of our blog posts

Virtual demo

View our click-through demo

Experience the ease and accuracy of Indicio’s automated forecasting platform firsthand. Click to start a virtual demo today and discover how our cutting-edge tools can streamline your decision-making process.