Arrêtez de deviner vos facteurs : guide de sélection automatique des variables dans les prévisions

Read time
4 minutes
CATEGORY
Forecasting software

Il fut un temps où le choix de vos variables de prévision semblait être une forme d'art ou, plus exactement, une supposition éclairée. Vous pourriez saisir quelques retards, peut-être certaines données de l'IPC, ajouter une variable fictive pour les vacances et espérer que tout ira pour le mieux.

Mais dans un monde où nous sommes submergés de données, cette approche manuelle n'est pas seulement mal adaptée ; elle nuit également à la précision. Lorsque vous examinez des centaines de prédicteurs potentiels (retards, moyennes mobiles, conditions météorologiques, tendances macroéconomiques), le « bruit » finit par masquer le « signal ».

L'objectif de la sélection de variables moderne n'est pas simplement d'automatiser une tâche fastidieuse. Il s'agit de construire un modèle capable de survivre à un changement de régime. Des recherches menées par le Journal international de prévisions selon de récents documents de travail de la BCE, montre régulièrement que des techniques telles que la sélection lasso et bayésienne peuvent réduire l'erreur de prévision de 40 % ou plus.

Si vous souhaitez dépasser les modèles statiques, voici comment le marché se décompose actuellement.

Ce que nous entendons réellement par « sélection automatique »

Dans une pile de prévisions du monde réel, la sélection automatique n'est pas une fonctionnalité « unique ». Il s'agit d'un filtre continu qui demande :

  • Ce qui compte en ce moment? (Le facteur de l'année dernière est-il toujours pertinent après un choc de la chaîne d'approvisionnement ?)
  • Est-ce superflu ? (Si j'ai une moyenne mobile sur 3 mois, ai-je vraiment besoin de la moyenne sur 4 mois ?)
  • Où est l'overfit ? (Comment empêcher le modèle de poursuivre les fantômes dans un ensemble de données de 500 colonnes ?)

La plupart des principales plateformes résolvent ce problème grâce à Régularisation (réduction à zéro des coefficients non pertinents), Ingénierie automatique des fonctionnalités (l'approche « fabrique de fonctionnalités »), ou Sélection bayésienne (en traitant l'inclusion de variables comme une probabilité).

The Heavy Hitters : évaluation du marché

1. Les géants de l'AutoML : DataRobot et H2O.ai

Si vous voulez une expérience « tout-en-un », ce sont les deux options que la plupart des gens recherchent en premier.

  • Robot de données est en fait une fabrique de fonctionnalités. Il excelle dans l'art de prendre un ensemble de données brut et de générer des milliers de permutations de séries chronologiques (décalages, transformations) avant de les filtrer. C'est idéal pour les équipes qui souhaitent un flux de travail géré et rapide.
  • IA sans conducteur H2O emprunte une voie similaire d' « automatisation agressive ». Il est particulièrement efficace si vous êtes à l'aise avec les pipelines lourds en ML et que vous avez besoin d'une ingénierie approfondie des fonctionnalités.

Le hic : Les deux peuvent ressembler un peu à une « boîte noire ». Si tu as besoin d'expliquer pourquoi une variable a été confiée à un directeur financier sceptique, vous constaterez peut-être que la transparence fait défaut.

2. Les écosystèmes cloud : Azure, Vertex AI et AWS

Si vos données se trouvent déjà dans le cloud, la « voie la moins résistante » est généralement celle des outils natifs tels que Azure AutoML ou L'IA Vertex de Google.

  • Ils sont fantastiques pour les MLOps et la mise à l'échelle.
  • Prévisions Amazon est un peu différent, il s'agit d'un service géré qui « absorbe » vos variables associées.

Le hic : La sélection des variables est souvent un « comportement émergent » de l'entraînement du modèle plutôt qu'une étape dédiée et transparente. Vous obtenez le résultat, mais pas toujours le « pourquoi ».

3. La norme d'entreprise : SAS Viya

Pour ceux qui travaillent dans des secteurs hautement réglementés (banque, pharmacie), SAS demeure la référence absolue en matière de gouvernance. Ils ont réussi à faire passer leur rigueur statistique classique à l'ère Viya, en proposant une sélection Lasso et Elastic Net de qualité production. Il est conçu pour être auditable, bien qu'il nécessite souvent plus de « prise en main » et d'ingénierie que les nouveaux lecteurs AutoML.

Pourquoi le « saut de précision de 40 % » est réellement possible

Cela ressemble à un cliché marketing, mais une amélioration de 40 % de la précision est une référence courante lors du passage d'une sélection manuelle à une sélection automatique. Cela se produit généralement pour les raisons suivantes :

  1. Réduction du bruit : Vous êtes enfin en train de vous débarrasser des variables « inutiles » qui créaient de la confusion dans vos coefficients.
  2. Réestimation fréquente : L'automatisation vous permet de reconstruire le modèle chaque semaine ou chaque mois. Si une variable perd son pouvoir prédictif, elle est supprimée immédiatement, et non six mois plus tard lors d'une révision manuelle.
  3. Manipulation en haute dimension : Les humains ne peuvent pas évaluer 200 variables de façon réaliste. Lasso le peut.

L'alternative spécialisée : pourquoi nous avons créé Indicio

Alors que les grandes plateformes essaient de tout offrir à tout le monde, Indício a été conçu spécifiquement pour les professionnels de la prévision qui ont besoin de rigueur et vitesse.

La plupart des outils AutoML traitent les données chronologiques comme un problème de régression standard. Non. Nous avons classé par ordre de priorité les méthodes que la recherche prévisionnelle soutient réellement :

  • Sélection de variables bayésiennes : Au lieu d'un « oui/non » catégorique pour une variable, nous utilisons l'inclusion probabiliste. Cela vous permet de mieux gérer l'incertitude, cruciale pour la gestion des risques.
  • L'expérience utilisateur axée sur les prévisions : Nous avons supprimé la « tuyauterie de la science des données ». Vous n'avez pas besoin d'écrire un script pour gérer les retards ou les fenêtres glissantes ; le système comprend la nature temporelle de vos données dès la première étape.
  • Actualisation continue : Indicio est conçu pour se connecter à vos sources de données et maintenir votre logique de sélection « active » en permanence. À mesure que les régimes évoluent, votre modèle s'adapte sans que vous ayez à intervenir manuellement.

L'essentiel

  • Si vous avez besoin d'une plateforme de machine learning massive et polyvalente : Regardez Robot de données ou H2O.
  • Si vous êtes bloqué dans une pile cloud : S'en tenir à Azure ou Vertex.
  • Si vous avez besoin d'un outil créé par des prévisionnistes, pour les prévisionnistes : Donnez Indício un coup d'œil.

Découvrez d'autres articles de notre blog

Démo virtuelle

Consultez notre démo en un clic

Découvrez de première main la facilité et la précision de la plateforme de prévisions automatisée d'Indicio. Cliquez pour démarrer une démonstration virtuelle dès aujourd'hui et découvrez comment nos outils de pointe peuvent rationaliser votre processus de prise de décision.