Sélection de variables pour les prévisions, des graphiques et de l'intuition aux algorithmes de recherche pilotés par les données

Read time
4 minutes
CATEGORY
Variable selection

La sélection des bons facteurs pour une prévision est souvent plus importante que la classe de modèle elle-même. Dans le domaine de la prévision de la demande énergétique, par exemple, la transformation et la sélection des données météorologiques ont permis de gagner en précision entre 3,7 et 5,2 % par rapport à l'utilisation de données météorologiques brutes, une augmentation d'échelle qui se traduit directement par de meilleures décisions en matière de personnel, d'achat et de couverture (Informatique énergétique, 2023). Dans les cas de consommation d'électricité, la conservation des stations et des caractéristiques météorologiques est une bonne pratique connue, précisément parce qu'elle améliore les compétences en matière de prévisions et la valeur commerciale (Hong, 2015; voir également les preuves sur la sélection des stations dans Moreno-Carbonell et coll., 2020). L'ensemble de la littérature méthodologique montre également que la sélection et la réduction fondées sur des principes réduisent le risque d'erreur et de surajustement, que ce soit par le biais de critères d'information, de pénalisation ou de méthodes bayésiennes (Tibshirani, 1996; George et McCulloch, 1993).

Nous décrivons ci-dessous ce qu'est la sélection de variables, comment elle a évolué, pourquoi la gestion des variables exogènes peut créer un biais prospectif et comment mettre en œuvre des alternatives modernes, des plateformes open source aux plateformes automatisées.

Une brève chronologie de la sélection des variables dans les prévisions

  • Inspection visuelle du décalage
    Les premiers prévisionnistes ont observé des diagrammes de dispersion et des corrélogrammes décalés pour repérer les indicateurs avancés, une pratique utile mais subjective qui est difficile à mettre à l'échelle.
  • Critères de corrélation et d'information
    Les tests de corrélation et l'inclusion par étapes avec AIC ou BIC visaient à sélectionner des ensembles parcimonieux qui équilibrent ajustement et complexité (StepAic dans R's MASS; discussion sur les compromis entre AIC et BIC dans Validation croisée). Stepwise fonctionne, mais il est myope et peut être instable lorsque les prédicteurs sont colinéaires (Zhang, 2016).
  • Régression pénalisée et modèles clairsemés
    Des méthodes telles que le LASSO effectuent simultanément le rétrécissement et la sélection, améliorant ainsi la généralisation hors échantillon dans des environnements de grande dimension (Tibshirani, 1996; des extensions variables dans le temps apparaissent dans les domaines de la macroéconomie et de la finance, par exemple, Kapetanios et coll., 2018).
  • Sélection de variables bayésiennes et calcul de la moyenne
    Les priors Spike-and-Slab permettent une inclusion probabiliste et tiennent compte de l'incertitude du modèle, ce qui se traduit souvent par de meilleures performances prédictives lorsque de nombreux candidats et des retards sont sur la table (George et McCulloch, 1993; vue d'ensemble dans Ishwaran et Rao, 2005; applications et logiciels dans meilleurs).

L'écueil exogène : pourquoi le fait de traiter les conducteurs comme étant exogènes peut être une question d'avenir

De nombreux modèles d'apprentissage automatique et de séries chronologiques considèrent les facteurs (variables indépendantes) comme étant exogènes. Si vous évaluez ces modèles à l'aide de valeurs futures réelles pour les conducteurs, vous divulguez des informations, ce qui augmente la précision apparente. L'évaluation des séries chronologiques doit utiliser des origines continues ou croissantes et doit simuler l'ensemble d'informations qui était disponible à la date de prévision afin d'éviter tout biais prospectif (Hyndman, Prévisions : principes et pratiques; voir les exemples de TSCv et de rolling-origin dans Hewamalage et coll., 2022, et le guide pratique en Le blog de Hyndman).

Dans les années 1970 et 1980, l'économétrie a largement abandonné le traitement de nombreux facteurs macroéconomiques comme étant exogènes. « Les Sims » de Christopher SimsMacroéconomie et réalité» autorégressions vectorielles proposées, où toutes les variables sont modélisées conjointement comme endogènes. Le prix de sciences économiques de la Sveriges Riksbank en 2011 a récompensé Sims et Sargent pour leurs méthodes empiriques qui montrent comment les chocs se propagent, y compris les variables variables (Communiqué de presse du prix Nobel 2011; contexte dans Christiano, 2012). La modélisation conjointe du système vous oblige à prévoir également les facteurs déterminants, ce qui élimine les fuites qui se produisent lorsque vous introduisez les valeurs exogènes obtenues dans les plis de test.

À quoi ressemblera une bonne sélection de variables en 2025

  • Définissez des cibles privilégiant la prise de décision
    Alignez les KPI tels que RMSE, MAE ou MASE avec les coûts et les horizons de l'entreprise, et évaluez-les à l'aide de procédures d'origine continue afin de détecter les véritables erreurs au moment de la prise de décision (FP3 et Hewamalage et coll., 2022).
  • Effectuez une recherche large, puis réduisez
    Assemblez les caractéristiques candidates, par exemple les retards, les signaux calendaires, la météo, les prix, les indicateurs de politique, et appliquez une pénalisation ou une sélection bayésienne pour contrôler la variance tout en conservant le signal (Tibshirani, 1996; George et McCulloch, 1993).
  • Préférez les modèles de système lorsque les conducteurs se déplacent en même temps
    Lorsque les prédicteurs et les cibles s'influencent mutuellement, passez à la VAR ou au VECM afin que les facteurs soient prévisionnels et non empruntés à l'avenir (statsmodels VAR; R vars colis).
  • Quantifier les gains réels
    Enregistrez les modifications apportées à l'ensemble des fonctionnalités avec leur impact hors échantillon. Dans les séries chronologiques sur l'énergie, une meilleure ingénierie des caractéristiques météorologiques entraîne des gains mesurables, par exemple l'amélioration de 3,7 à 5,2 % citée ci-dessus (Informatique énergétique, 2023). Des études similaires spécifiques à un domaine corroborent le fait que les signaux exogènes ciblés augmentent la précision lorsqu'ils sont gérés correctement (Sommet du MIT CTL, 2024).

Mise en œuvre de la sélection de variables, trois voies pratiques

1) Flux de travail programmatique open source
Si vous avez besoin d'un contrôle et d'une auditabilité complets :

  • Python, pénalisé et bayésien
    Utiliser scikit-learn pour LASSO et filet élastique, ou pystan et PyMC pour les modèles bayésiens. Pour la modélisation du système, modèles de statistiques L'API VAR prend en charge la sélection de l'ordre de latence et la prévision en plusieurs étapes, ce qui permet d'éviter les fuites en prévoyant conjointement toutes les séries (documentation VAR statsmodels; vue d'ensemble dans guide VAR statsmodels).
  • R, par étapes et pointe et dalle
    Masse : étape C fournit une recherche étape par étape basée sur AIC, tandis que meilleurs implémente des priors de pointes et de dalles qui effectuent la sélection de variables bayésiennes et la moyenne des modèles, particulièrement utiles avec de nombreux décalages et indicateurs candidats (Étape A C; meilleurs manuel). Pour la modélisation du système, vars le package estime la VAR, le SVAR et le VECM et inclut les réponses impulsionnelles et le FEVD pour les diagnostics (GRUE vars).

2) Évaluation structurée pour une précision sans fuite
Quelle que soit la chaîne d'outils, appliquez l'évaluation de l'origine glissante et interdisez l'utilisation des futures entrées exogènes réalisées dans les plis de validation. Les textes et les notes de Hyndman fournissent des configurations concrètes et reproductibles pour l'évaluation multi-horizons et le TsCV (FP3; Tutoriel TsCV; revue méthodologique dans Hewamalage et coll., 2022).

3) Plateformes sans code pour la vitesse et la couverture
Pour les équipes qui souhaitent une couverture étendue des modèles et une sélection moderne sans écrire de code, des plateformes telles que Indício automatisez la recherche de variables, la transformation des fonctionnalités et l'analyse comparative entre les modèles statistiques, économétriques et ML, puis mettez en œuvre les meilleures configurations grâce à des backtests appropriés, le tout via une interface conviviale (Indicio, sélection de variables). Les outils de cette catégorie sont conçus pour apporter rapidement des améliorations de précision mesurables, tout en garantissant une évaluation sans fuite et des pipelines répétables.

En les réunissant, un pipeline de sélection propre et sans fuite

  • Organisez votre liste de candidats
    Fonctionnalités, structures de décalage, interactions et transformations tenant compte du domaine, y compris des données externes telles que les calendriers météorologiques ou politiques, le cas échéant, car elles génèrent souvent de réels gains dans la pratique (Informatique énergétique, 2023; Hong, 2015).
  • Exécuter la sélection avec rétrécissement ou a priori bayésien
    Utilisez la pénalisation pour stabiliser les estimations ou utilisez des pointes pour saisir l'incertitude du modèle (Tibshirani, 1996; meilleurs).
  • Préférez la VAR lorsque la causalité va dans les deux sens
    Les moteurs et les cibles qui évoluent en même temps devraient entrer dans un système commun afin d'éviter les hypothèses d'exogénéité et les biais prospectifs (Les Sims, 1980; Prix Nobel 2011).
  • Évaluez exactement comment vous allez opérer
    Évaluation continue ou séquentielle à l'aide de l'ensemble d'informations correct, et non de divisions aléatoires, de sorte que les gains signalés persistent en termes de production (Hyndman TSCv; Hewamalage et coll., 2022).

Conclusion

La sélection des variables n'est pas une case à cocher, c'est l'épine dorsale d'une prévision précise et fiable. Associez la sélection moderne, le rétrécissement et la moyenne bayésienne à des modèles de système lorsque les conducteurs et les cibles se déplacent conjointement, évaluez à l'aide de protocoles étanches et vous obtiendrez des prévisions fiables en production. Si vous accordez de l'importance à la rapidité, optez pour une plateforme sans code telle qu'Indicio pour automatiser les tâches les plus lourdes tout en respectant les meilleures pratiques d'évaluation et de déploiement (Indício).

Découvrez d'autres articles de notre blog

Démo virtuelle

Consultez notre démo en un clic

Découvrez de première main la facilité et la précision de la plateforme de prévisions automatisée d'Indicio. Cliquez pour démarrer une démonstration virtuelle dès aujourd'hui et découvrez comment nos outils de pointe peuvent rationaliser votre processus de prise de décision.