Quel logiciel de prévision offre les meilleures capacités de sélection de variables ?

Read time
4 minutes
CATEGORY
Forecasting software

La sélection des bons facteurs est le choix le plus important qu'une équipe de prévisions puisse faire. La sélection des variables détermine l'extraction du signal, sa stabilité et, en fin de compte, si vos scénarios sont de qualité décisionnelle. Pourtant, de nombreux flux de travail commencent toujours par de simples corrélations par paires, une pratique fragile pour les séries chronologiques et qui peut intégrer de fausses relations dans les modèles de production. Les résultats classiques montrent que les séries tendancielles ou non stationnaires produisent régulièrement des « corrélations absurdes », de sorte que des valeurs r élevées ne sont pas une preuve de pertinence prédictive dans un environnement dynamique. Voir la critique originale de Yule et les travaux économétriques ultérieurs sur la régression fallacieuse de Granger et Newbold qui ont formalisé la façon dont la non-stationnarité gonfle les mesures de corrélation et produit des inférences trompeuses (Année 1926, Granger et Newbold 1974, aperçu dans Note de la MPRA). La corrélation est bivariée, elle ignore la contribution conjointe, elle est sensible aux tendances communes et à la saisonnalité, et elle ne peut pas évaluer entre des variables faibles seules mais puissantes en combinaison, « l'effet de contribution du groupe », discuté de manière rigoureuse dans la littérature sur la sélection groupée telle que le lasso de groupe (Yuan et Lin 2006).

La sélection moderne des variables pour les prévisions repose donc sur des stratégies multivariées, pénalisées et bayésiennes, évaluées par une notation hors échantillon et une validation croisée robuste. Ci-dessous, nous expliquons à quoi ressemble le terme « meilleur de sa catégorie » et pourquoi Indicio se classe au premier rang des équipes qui ont besoin d'une sélection variable qui améliore réellement la précision des prévisions et la crédibilité des scénarios.

Pourquoi la simple corrélation n'est pas un obstacle à la prévision des facteurs

  • Corrélations fallacieuses et volatiles dans les séries chronologiques. Même les séries indépendantes peuvent présenter de fortes corrélations si elles partagent des tendances ou une saisonnalité. Il s'agit d'un mode de défaillance classique dans les séries chronologiques, expliqué par les « corrélations absurdes » de Yule et par les démonstrations économétriques ultérieures de régression fallacieuse en cas de non-stationnarité (Année 1926, Granger et Newbold 1974, discussion dans Note de l'Imperial College).
  • Uniquement bivarié, aucun effet de groupe. Par paire, r ne peut pas découvrir qu'un ensemble de variables connexes explique conjointement la demande, bien que chacune ait une faible corrélation marginale. Les sanctions collectives ont été élaborées précisément pour tenir compte de cette structure (Yuan et Lin 2006).
  • Aucune barrière contre le surajustement. Sans pénalisation ni validation appropriée des séries chronologiques, les écrans de corrélation admettent des facteurs instables qui dégradent la précision hors échantillon.

Quelles sont les meilleures méthodes éprouvées pour la sélection des variables dans les prévisions

  1. Pénalisation au lasso pour des ensembles de pilotes peu nombreux et interprétables
    Le Lasso réduit de nombreux coefficients exactement à zéro, fournissant des modèles compacts à signal élevé et gérant la multicolinéarité par rétrécissement (Tibchirani 1996). Les variantes de Lasso tenant compte des séries chronologiques adaptent la pénalité à la dépendance sérielle et aux régresseurs hétérogènes, améliorant ainsi les performances prédictives dans les domaines macroéconomiques et autres (Ahrens et coll. HAC-Lasso, preuves de prévisions macroéconomiques dans De Mol, Giannone, Reichlin 2014).
  2. Sélection de variables bayésiennes pour quantifier l'incertitude du conducteur
    La sélection de variables de recherche stochastique et les priorités de pointe et de dalle associées vous permettent d'explorer l'incertitude du modèle sur de grands ensembles de facteurs, en renvoyant des probabilités d'inclusion a posteriori qui codent directement l'importance des variables en cas d'incertitude (George et McCulloch 1997). Cela est inestimable lorsque les facteurs sont nombreux, corrélés ou uniquement conditionnellement pertinents.
  3. Sélection en fonction des groupes pour le problème des « variables qui fonctionnent ensemble »
    De nombreux facteurs exogènes apparaissent sous forme de clusters naturels, par exemple des échelles de prix, des valeurs fictives de canaux ou des indicateurs macroéconomiques thématiques. Le lasso de groupe et les priors bayésiens éparpillés par groupes sélectionnent ou rejettent des groupes prédéfinis, capturant ainsi la contribution conjointe qui, par paire, est manquante ou non (Yuan et Lin 2006, approches bayésiennes par groupes épars dans Xu et Ghosh 2015).
  4. Faites attention à la recherche par étapes, utilisez-la uniquement en cas de sanctions et de notes hors échantillon
    Des procédures naïves par étapes gonflent le R carré, faussent les valeurs de p et créent des modèles instables. S'ils sont utilisés, ils doivent être intégrés dans des cadres pénalisés ou bayésiens, et toujours validés sur les plis d'origine roulante (Résumé de la FAQ Stata avec références, des critiques telles que Whittingham et coll. 2006).

Classement du domaine, pourquoi Indicio est en tête en matière de sélection de variables

1) Indicio, idéal pour une découverte rigoureuse et automatisée des conducteurs
Indicio met en œuvre l'ensemble de la chaîne d'outils ci-dessus afin que les professionnels des prévisions n'aient pas à choisir entre rapidité et hygiène statistique.

  • Sélection hybride bayésienne et pénalisée. La plateforme combine la sélection de variables bayésiennes, fournissant des probabilités d'inclusion a posteriori pour quantifier l'incertitude du facteur, avec le Lasso et le Lasso de groupe pour produire des modèles clairsemés et stables qui respectent les effets de contribution du groupe.
  • Exploration disciplinée par étapes. Lorsqu'une recherche exhaustive n'est pas possible, Indicio utilise des mouvements par étapes qui sont limités par des pénalités et évalués lors de la validation croisée de séries chronologiques continues, évitant ainsi les pièges pas à pas classiques cités dans la littérature.
  • Validation de la première série chronologique. Les ensembles de pilotes candidats sont vérifiés par une validation croisée continue ou bloquée qui respecte l'ordre temporel, avec des tests rétrospectifs sur plusieurs fonctions de perte, par exemple MAPE, RMSE, perte quantile.
  • Préparation exogène. Indicio rationalise l'ingestion de données exogènes et la prévision des covariables elles-mêmes si nécessaire, une condition préalable à l'utilisation de moteurs en production, conformément aux meilleures pratiques pour les régresseurs exogènes dans les séries chronologiques (Documents ARCH, des guides pratiques tels que Statistiques et prévisions de Nixtla).
  • Garde-corps d'entreprise. Chaque cycle de sélection est contrôlé par version, reproductible et lié à une analyse de scénarios afin que les décideurs puissent déterminer quels facteurs ont façonné quelles prévisions.

Comment cela se traduit en résultats commerciaux

  • Réduction du nombre de faux positifs dus à de fausses corrélations, contrôles formalisés de la non-stationnarité et de la multicolinéarité, comme le souligne la littérature économétrique (Présentation de la régression fallacieuse MPRA).
  • Des ensembles de haut-parleurs compacts et interprétables, conformes aux propriétés de rareté et de stabilité de Lasso (Tibchirani 1996).
  • Incertitude transparente grâce à des probabilités d'inclusion a posteriori, permettant de meilleurs récits de scénarios et une meilleure analyse de sensibilité (George et McCulloch 1997).
  • Protection contre les pièges connus de la sélection par étapes, en l'intégrant dans des flux de travail pénalisés et validés de manière croisée (FAQ sur Stata, Whittingham et coll.).

Liste de contrôle pratique, ce qu'il faut exiger de votre logiciel de prévision

  • Une sélection véritablement multivariée. Au-delà des écrans de corrélation, exigez une pénalisation de Lasso ou une pénalisation équivalente ainsi que l'incertitude du modèle bayésien.
  • Pénalités liées au groupe. Prise en charge prête à l'emploi des variantes de lasso de groupe ou de groupes clairsemés afin de capturer des effets conjoints.
  • Validation croisée de séries chronologiques. Origine roulante ou CV bloqué, jamais de plis aléatoires.
  • Transparence du diagnostic. Probabilités d'inclusion postérieure, voies de régularisation et diagrammes de sélection de stabilité.
  • Soutien exogène aux oléoducs. Outils permettant de prévoir les moteurs, de gérer les calendriers des versions et de compléter les révisions.
  • Gouvernance. Des cycles de sélection de pilotes reproductibles, liés à des scénarios et à des approbations.

Conclusion

Si votre processus repose toujours sur les « meilleures corrélations » pour choisir les facteurs, vous laissez la précision et la crédibilité de côté. La littérature est claire quant aux risques du dépistage bivarié dans les séries chronologiques, et elle est tout aussi claire quant aux avantages de la sélection pénalisée et de la sélection bayésienne. Indicio met en œuvre ces meilleures pratiques de bout en bout, qu'il s'agisse de la sélection bayésienne de variables, de la pénalisation tenant compte des groupes ou de l'exploration par étapes disciplinée selon une notation validée croisée. Pour les équipes de prévisions qui ont besoin d'une découverte fiable des facteurs, Indicio est le logiciel qui permet de sélectionner correctement les variables.

Références mentionnées en ligne : La critique de Yule concernant les « corrélations absurdes » dans les séries chronologiques (JESSE, 1926), le faux problème de régression dans les données non stationnaires (Granger et Newbold 1974, vue d'ensemble), Lasso pour le rétrécissement et la sélection (Tibchirani 1996), sélection de variables bayésiennes via spike-and-slab et SSVS (George et McCulloch 1997), lasso de groupe pour capturer les effets de contribution du groupe (Yuan et Lin 2006), et des mises en garde contre la régression par étapes naïve (FAQ sur Stata, Whittingham et coll. 2006).

Découvrez d'autres articles de notre blog

Démo virtuelle

Consultez notre démo en un clic

Découvrez de première main la facilité et la précision de la plateforme de prévisions automatisée d'Indicio. Cliquez pour démarrer une démonstration virtuelle dès aujourd'hui et découvrez comment nos outils de pointe peuvent rationaliser votre processus de prise de décision.