Variablenauswahl für Prognosen, von Diagrammen und Bauchgefühl bis hin zu datengesteuerten Suchalgorithmen

Read time
4 Minuten
CATEGORY
Variable selection

Die Auswahl der richtigen Treiber für eine Prognose ist oft wichtiger als die Modellklasse selbst. Bei der Vorhersage des Energiebedarfs hat beispielsweise die Transformation und Auswahl von Wettereingaben im Vergleich zur Verwendung von Wetterrohdaten zu Genauigkeitsgewinnen zwischen 3,7 und 5,2 Prozent geführt — ein erheblicher Anstieg im großen Maßstab, der sich direkt in besseren Personal-, Kauf- und Absicherungsentscheidungen niederschlägt (Energieinformatik, 2023). Bei Stromausfällen ist das Kuratieren von Wetterstationen und -funktionen eine bekannte bewährte Methode, gerade weil es die Prognosefähigkeit und den Geschäftswert verbessert (Hongkong, 2015; siehe auch Hinweise zur Senderauswahl in Moreno-Carbonell et al., 2020). Aus der breiteren methodischen Literatur geht ebenfalls hervor, dass prinzipientreue Auswahl und Schrumpfung das Risiko von Fehlern und Überanpassungen verringern, sei es durch Informationskriterien, Strafen oder Bayessche Methoden (Tibshirani, 1996; George und McCulloch, 1993).

Im Folgenden erläutern wir, was Variablenauswahl ist, wie sie sich entwickelt hat, warum der Umgang mit exogenen Variablen zu Vorausschauverzerrungen führen kann und wie moderne Alternativen implementiert werden können, von Open-Source-Plattformen bis hin zu automatisierten Plattformen.

Eine kurze Zeitleiste der Variablenauswahl in der Prognose

  • Visuelle Lag-Inspektion
    Frühe Prognostiker beobachteten Streudiagramme und verzögerte Korrelogramme, um Frühindikatoren zu erkennen — eine nützliche, aber subjektive Praxis, die sich nur schwer skalieren lässt.
  • Korrelations- und Informationskriterien
    Korrelationsbildschirme und schrittweise Inklusion mit AIC oder BIC zielten darauf ab, sparsame Sets auszuwählen, die Passform und Komplexität in Einklang bringen (StepAic in Rs MASS; Diskussion über Kompromisse zwischen AIC und BIC in Kreuzvalidiert). Stepwise funktioniert, ist aber kurzsichtig und kann instabil sein, wenn die Prädiktoren kollinear sind (Zhang, 2016).
  • Bestrafte Regression und spärliche Modelle
    Methoden wie das LASSO führen Schrumpfung und Selektion gleichzeitig durch und verbessern so die Generalisierung außerhalb der Probe in hochdimensionalen Umgebungen (Tibshirani, 1996; zeitlich variierende Erweiterungen treten in den Bereichen Makro- und Finanzwesen auf, z. Kapetanios et al., 2018).
  • Bayessche Variablenauswahl und Mittelwertbildung
    Spike-and-Slab-Prioren ermöglichen probabilistische Inklusion und tragen der Modellunsicherheit Rechnung, was häufig zu einer besseren Prognoseleistung führt, wenn viele Kandidaten und Lags auf dem Tisch liegen (George und McCulloch, 1993; Überblick in Ishwaran und Rao, 2005; Anwendungen und Software in Büsten).

Die exogene Fallstricke: Warum die Behandlung von Fahrern als exogen die Zukunft gefährden kann

Viele Modelle für maschinelles Lernen und Zeitreihen behandeln Treiber (unabhängige Variablen) als exogen. Wenn Sie solche Modelle anhand der tatsächlichen zukünftigen Werte für die Treiber auswerten, geben Sie Informationen preis, was die scheinbare Genauigkeit erhöht. Bei der Auswertung von Zeitreihen müssen rollende oder expandierende Ursprünge verwendet werden, und es muss der Informationssatz simuliert werden, der zum Prognosedatum verfügbar war, um eine Verzerrung der Vorausschau zu vermeiden (Hyndman, Prognose: Prinzipien und Praxis; siehe Beispiele für tSCV und Rolling-Origin in Heamalage et al., 2022, und der praktische Leitfaden in Weblog von Hyndman).

In den 1970er bis 1980er Jahren wandte sich die Ökonometrie weitgehend davon ab, viele Makrotreiber als exogen zu behandeln. Christopher Sims“Makroökonomie und Realität“ vorgeschlagene Vektorautoregressionen, bei denen alle Variablen gemeinsam als endogen modelliert werden. Mit dem Preis der Sveriges Riksbank für Wirtschaftswissenschaften 2011 wurden Sims und Sargent für ihre empirischen Methoden ausgezeichnet, die zeigen, wie sich Schocks ausbreiten, darunter VARs (Pressemitteilung zum Nobelpreis, 2011; Hintergrund in Christiano, 2012). Wenn Sie das System gemeinsam modellieren, müssen Sie auch die Treiber vorhersagen. Dadurch wird die Leckage vermieden, die entsteht, wenn Sie die realisierten exogenen Werte in die Testfalten einspeisen.

Wie sieht eine gute Variablenauswahl im Jahr 2025 aus?

  • Definieren Sie Ziele, die an erster Stelle stehen
    Richten Sie KPIs wie RMSE, MAE oder MASE an den Geschäftskosten und -horizonten aus und evaluieren Sie sie mit Verfahren zur fortlaufenden Entstehungsanalyse, damit Sie echte Fehler bei der Entscheidungsfindung erkennen (FPP3 und Heamalage et al., 2022).
  • Umfassend suchen und dann verkleinern
    Stellen Sie mögliche Merkmale zusammen, z. B. Verzögerungen, Kalendersignale, Wetter, Preise, politische Dummys, und wenden Sie Strafen oder Bayessche Auswahl an, um die Varianz zu kontrollieren und gleichzeitig das Signal beizubehalten (Tibshirani, 1996; George und McCulloch, 1993).
  • Bevorzugen Sie Systemmodelle, wenn Fahrer mitfahren
    Wenn sich Prädiktoren und Ziele gegenseitig beeinflussen, wechseln Sie zu VAR oder VECM, damit die Treiber prognostiziert und nicht aus der Zukunft übernommen werden (Statistikmodelle VAR; R Vars Paket).
  • Quantifizieren Sie reale Gewinne
    Protokollieren Sie Änderungen am Funktionsumfang mit ihren Auswirkungen außerhalb der Stichprobe. Bei Energiezeitreihen führt eine bessere Konstruktion von Wettermerkmalen zu messbaren Gewinnen, beispielsweise zu der oben genannten Verbesserung um 3,7 bis 5,2 Prozent (Energieinformatik, 2023). Ähnliche domänenspezifische Studien bestätigen, dass gezielte exogene Signale die Genauigkeit erhöhen, wenn sie richtig behandelt werden (MIT CTL Schlussstein, 2024).

Implementierung der Variablenauswahl, drei praktische Wege

1) Programmatischer Open-Source-Workflow
Wenn Sie volle Kontrolle und Überprüfbarkeit benötigen:

  • Python, bestraft und Bayesian
    Benutzen Scikit-Learn für LASSO und elastisches Netz, oder Pystan und PyMC für Bayessche Modelle. Für die Systemmodellierung ist der Statistikmodelle Die VAR-API unterstützt die Auswahl von Lag-Ordern und mehrstufige Prognosen, wodurch Leckagen verhindert werden, indem alle Serien gemeinsam prognostiziert werden (statsmodels VAR-Dokumente; Überblick in statsmodels VAR-Leitfaden).
  • R, schrittweise und mit Spike-and-Slab
    MASS: :STEPA IC bietet eine AIC-basierte schrittweise Suche, während Büsten implementiert Spike-and-Slab-Prioren, die eine Bayessche Variablenauswahl und Modellmittelwertbildung durchführen, was besonders bei vielen Kandidatenlags und Indikatoren nützlich ist (Schritt AIC; Büsten manuell). Für die Systemmodellierung ist der Vars Das Paket schätzt VAR, SVAR und VECM und beinhaltet Impulsantworten und FEVD für die Diagnose (KRAN Vars).

2) Strukturierte Bewertung für leckagefreie Genauigkeit
Erzwingen Sie unabhängig von der Toolchain eine Bewertung der fortlaufenden Herkunft und verbieten Sie die Verwendung realisierter zukünftiger exogener Inputs in Validierungsfalten. Hyndmans Texte und Anmerkungen bieten konkrete, reproduzierbare Voraussetzungen für die Bewertung mehrerer Horizonte und tSCV (FPP3; tSCV-Tutorial; methodische Überprüfung in Heamalage et al., 2022).

3) Plattformen ohne Code für Geschwindigkeit und Reichweite
Für Teams, die eine breite Modellabdeckung und eine moderne Auswahl wünschen, ohne Code schreiben zu müssen, bieten Plattformen wie Indicio Automatisieren Sie die Variablensuche, Merkmalstransformationen und Benchmarking für statistische, ökonometrische und ML-Modelle und operationalisieren Sie dann die besten Konfigurationen mit geeignetem Backtesting — alles über eine benutzerfreundliche Oberfläche (Indicio, Variablenauswahl). Die Tools dieser Kategorie sind so konzipiert, dass sie schnell messbare Genauigkeitsverbesserungen ermöglichen und gleichzeitig eine leckagefreie Bewertung und wiederholbare Rohrleitungen gewährleisten.

Alles in allem eine saubere, leckagefreie Auswahlpipeline

  • Kuratieren Sie Ihr Kandidatenset
    Domäneninformierte Funktionen, Lag-Strukturen, Interaktionen und Transformationen, einschließlich externer Daten wie Wetter- oder Politikkalender, sofern relevant, da diese in der Praxis oft zu echten Gewinnen führen (Energieinformatik, 2023; Hongkong, 2015).
  • Führen Sie die Auswahl mit Schrumpfungs- oder Bayesian-Prioren aus
    Verwenden Sie Penalization, um Schätzungen zu stabilisieren, oder Spike-and-Slab, um die Modellunsicherheit zu erfassen (Tibshirani, 1996; Büsten).
  • Bevorzugen Sie VAR, wenn die Kausalität in beide Richtungen verläuft
    Triebkräfte und Ziele, die sich gemeinsam entwickeln, sollten in ein gemeinsames System einfliessen, um Exogenitätsannahmen und vorausschauende Verzerrungen zu vermeiden (Die Sims, 1980; Nobelpreis, 2011).
  • Beurteilen Sie genau, wie Sie operieren werden
    Fortlaufende oder präquentielle Bewertung mit den richtigen Informationen, keine zufälligen Aufteilungen, sodass die gemeldeten Zuwächse in der Produktion bestehen bleiben (Hyndman TSV; Heamalage et al., 2022).

Unterm Strich

Die Variablenauswahl ist kein Kontrollkästchen, sie ist das Rückgrat genauer und zuverlässiger Prognosen. Kombinieren Sie moderne Auswahl, Schrumpfung und Bayessche Mittelwertbildung mit Systemmodellen, wenn Fahrer und Ziele gemeinsam unterwegs sind, und evaluieren Sie anhand von Protokollen, die vor Leckagen geschützt sind, und Sie werden Prognosen erstellen, die in der Produktion Bestand haben. Wenn Sie Wert auf Geschwindigkeit legen, um Wirkung zu erzielen, sollten Sie eine No-Code-Plattform wie Indicio in Betracht ziehen, um die Schwerstarbeit zu automatisieren und gleichzeitig die Bewertung und Implementierung von Best-Practice-Beispielen einzuhalten (Indicio).

Entdecke mehr unserer Blogbeiträge

Virtuelle Demo

Sehen Sie sich unsere Click-Through-Demo an

Erleben Sie die Einfachheit und Genauigkeit der automatisierten Prognoseplattform von Indicio aus erster Hand. Klicken Sie hier, um noch heute eine virtuelle Demo zu starten und zu erfahren, wie unsere hochmodernen Tools Ihren Entscheidungsprozess optimieren können.