Deje de adivinar cuáles son sus factores: una guía para la selección automática de variables en la predicción

Read time
4 min
CATEGORY
Forecasting software

Hubo un tiempo en el que elegir las variables de pronóstico parecía una forma de arte o, más exactamente, una suposición fundamentada. Tomabas algunos rezagos, tal vez algunos datos del IPC, añadías una variable ficticia para unas vacaciones y esperabas lo mejor.

Sin embargo, en un mundo en el que nos ahogamos en datos, ese enfoque manual no solo se amplía de manera deficiente, sino que perjudica activamente la precisión. Si analizamos cientos de posibles factores de predicción (retrasos, promedios móviles, condiciones meteorológicas, macrotendencias), el «ruido» acaba ahogando la «señal».

El objetivo de la selección de variables moderna no es solo automatizar una tarea tediosa. Se trata de construir un modelo que pueda sobrevivir a un cambio de régimen. Investigación del Revista internacional de pronósticos según documentos de trabajo recientes del BCE, demuestra consistentemente que técnicas como el lazo y la selección bayesiana pueden reducir el error de previsión en un 40% o más.

Si está buscando superar los modelos estáticos, así es como se descompone el mercado actualmente.

Qué queremos decir realmente con «selección automatizada»

En una pila de pronósticos del mundo real, la selección automática no es una función que se haga una sola vez. Es un filtro continuo que pregunta:

  • Lo que importa ahora mismo? (¿Sigue siendo relevante el factor impulsor del año pasado tras una crisis en la cadena de suministro?)
  • ¿Es esto redundante? (Si tengo un promedio móvil de 3 meses, ¿realmente necesito el de 4 meses?)
  • ¿Dónde está el sobreajuste? (¿Cómo evito que el modelo persiga fantasmas en un conjunto de datos de 500 columnas?)

La mayoría de las plataformas líderes resuelven esto mediante Regularización (reduciendo los coeficientes irrelevantes a cero), Ingeniería de funciones automatizada (el enfoque de «fábrica de funciones»), o Selección bayesiana (tratar la inclusión de variables como una probabilidad).

The Heavy Hitters: evaluando el mercado

1. Los gigantes de AutoML: DataRobot y H2O.ai

Si quieres una experiencia «todo en uno», estas son las dos que la mayoría de la gente ve primero.

  • Robot de datos es, en efecto, una fábrica de funciones. Se destaca por tomar un conjunto de datos sin procesar y generar miles de permutaciones de series temporales (retrasos, transformaciones) antes de filtrarlas. Es ideal para los equipos que desean un flujo de trabajo gestionado y de alta velocidad.
  • IA sin conductor H2O sigue un camino similar de «automatización agresiva». Es especialmente eficaz si te sientes cómodo con los oleoductos con un alto contenido de ML y necesitas una ingeniería de funciones profunda.

El problema: Ambas pueden parecerse un poco a una «caja negra». Si necesitas explicártelo por qué se le pasó una variable a un CFO escéptico, es posible que le falte transparencia.

2. Los ecosistemas de nube: Azure, Vertex AI y AWS

Si sus datos ya se encuentran en la nube, el «camino de menor resistencia» suelen ser las herramientas nativas, como Azure AutoML o La IA Vertex de Google.

  • Son fantásticos para los MLOP y el escalado.
  • Pronóstico de Amazon es un poco diferente, es un servicio gestionado que «absorbe» las variables relacionadas.

El problema: La selección de variables en este caso es a menudo un «comportamiento emergente» del entrenamiento del modelo, más que un paso dedicado y transparente. Se obtiene el resultado, pero no siempre el «por qué».

3. El estándar empresarial: SAS Viya

Para quienes trabajan en industrias altamente reguladas (banca, farmacéutica), SAS sigue siendo el estándar de oro para la gobernanza. Han trasladado con éxito su rigor estadístico clásico a la era Viya, ofreciendo una selección de Lasso y Elastic Net apta para producción. Está diseñado para ser auditable, aunque a menudo requiere más ingeniería y control que los reproductores AutoML más nuevos.

Por qué el «salto de precisión del 40%» es realmente posible

Parece un cliché de marketing, pero una mejora del 40% en la precisión es un punto de referencia común cuando se pasa de la selección manual a la automática. Esto suele ocurrir porque:

  1. Reducción de ruido: Por fin te estás deshaciendo de las variables «basura» que confundían tus coeficientes.
  2. Reestimación frecuente: La automatización le permite reconstruir el modelo cada semana o cada mes. Si una variable pierde su poder predictivo, se descarta inmediatamente, no seis meses después, durante una revisión manual.
  3. Manejo de alta dimensión: Los humanos no pueden pesar 200 variables de manera realista. Lasso puede.

La alternativa especializada: por qué construimos Indicación

Mientras las grandes plataformas intentan serlo todo para todos, indicio se creó específicamente para el profesional de pronósticos que necesita rigor y velocidad.

La mayoría de las herramientas de AutoML tratan los datos de series temporales como un problema de regresión estándar. No lo hacemos. Hemos priorizado los métodos que realmente respaldan las investigaciones sobre pronósticos:

  • Selección de variables bayesianas: En lugar de un «sí/no» rotundo en una variable, utilizamos la inclusión probabilística. Esto le permite controlar mucho mejor la incertidumbre, que es crucial para la gestión de riesgos.
  • Experiencia de usuario que prioriza la previsión: Hemos eliminado las «tuberías de la ciencia de datos». No es necesario escribir un script para gestionar los retrasos o los intervalos de tiempo; el sistema entiende la naturaleza temporal de los datos desde el primer paso.
  • Actualización continua: Indicio está diseñado para conectarse a sus fuentes de datos y mantener su lógica de selección «siempre activa». A medida que cambian los regímenes, su modelo se adapta sin que tenga que intervenir manualmente.

El resultado final

  • Si necesita una plataforma de aprendizaje automático masiva y de uso general: Mira Robot de datos o H2O.
  • Si está atrapado en una pila de nube: Quédate con Azure o Vértice.
  • Si necesita una herramienta creada por pronosticadores, para pronosticadores: Regala indicio una mirada.

Explore more of our blog posts

Virtual demo

View our click-through demo

Experience the ease and accuracy of Indicio’s automated forecasting platform firsthand. Click to start a virtual demo today and discover how our cutting-edge tools can streamline your decision-making process.