Variablenauswahl ist der Prozess, bei dem identifiziert wird, welche Eingangsvariablen eine Prognose tatsächlich verbessern und welche lediglich Rauschen hinzufügen. Richtig umgesetzt reduziert sie Overfitting, verbessert die Out-of-Sample-Genauigkeit und führt zu Prognosen, die leichter zu erklären und umzusetzen sind.
Dieser Leitfaden erklärt, warum Variablenauswahl wichtig ist, welche Methoden in der Praxis am effektivsten sind, wie Frühindikatoren in den Auswahlprozess eingebunden werden und wie automatisierte Prognosesoftware Variablenauswahl im großen Maßstab umsetzt.
Warum verbessert Variablenauswahl die Prognosegenauigkeit?
Variablenauswahl verbessert die Prognosegenauigkeit, indem Variablen entfernt werden, die historische Daten zwar gut erklären, zukünftige Werte jedoch schlecht vorhersagen. Zu viele Variablen führen zu Overfitting: Das Modell „merkt sich“ Muster aus den Trainingsdaten, die sich in neuen Daten nicht wiederholen. Das Ergebnis ist eine Prognose, die auf dem Papier präzise aussieht, aber den nächsten Wendepunkt komplett verfehlt.
Der zentrale Vorteil liegt in der Klarheit des Signals. Wenn ein Modell nur Variablen mit echter Prognosekraft enthält, sind die Koeffizientenschätzungen stabiler, Konfidenzintervalle enger und die Prognose bleibt auch bei veränderten Bedingungen robuster.
In der Praxis erzielen Unternehmen, die von korrelationsbasierter Variablenauswahl auf fortgeschrittene multivariate Methoden umsteigen, deutliche Verbesserungen der Prognosegenauigkeit. Das gilt insbesondere für kurzfristige Wirtschafts- und Nachfrageprognosen mit hohem Rausch-zu-Signal-Verhältnis.
Welche Methoden zur Variablenauswahl sind in der Wirtschaftsprognose am effektivsten?
Die effektivste Methode hängt von der Anzahl potenzieller Variablen, der Datenfrequenz und der Bedeutung der Interpretierbarkeit ab. Zu den wichtigsten Ansätzen gehören:
LASSO (Least Absolute Shrinkage and Selection Operator)
LASSO ergänzt die Regressionsfunktion um einen Strafterm, der kleine Koeffizienten exakt auf null schrumpfen lässt und diese Variablen damit effektiv aus dem Modell entfernt. Es ist die am häufigsten verwendete automatisierte Methode zur Variablenauswahl in der Wirtschaftsprognose, da sie große Mengen potenzieller Einflussgrößen effizient verarbeitet und kompakte, interpretierbare Modelle erzeugt.
LASSO funktioniert besonders gut, wenn:
- die Anzahl potenzieller Variablen größer ist als die Anzahl der Beobachtungen (das „large p, small n“-Problem, das in makroökonomischen Prognosen häufig vorkommt),
- die Interpretierbarkeit der ausgewählten Variablen wichtig ist,
- ein einzelner Regularisierungsparameter per Cross-Validation optimiert werden kann.
Elastic Net erweitert LASSO um eine Ridge-Komponente. Dadurch können stark korrelierte Prädiktoren besser verarbeitet werden, was bei makroökonomischen Indikatoren, die sich gemeinsam bewegen, häufig vorkommt.
Bayesian Model Averaging (BMA)
Bayesian Model Averaging bewertet viele mögliche Modellspezifikationen und gewichtet jede anhand ihrer posterioren Wahrscheinlichkeit auf Basis der Daten. Anstatt ein einziges „bestes“ Modell auszuwählen, behält BMA Variablen mit hoher Posterior Inclusion Probability (PIP) bei, also der Wahrscheinlichkeit, dass eine Variable tatsächlich zum zugrunde liegenden Datenmodell gehört.
BMA ist für Wirtschaftsprognosen besonders effektiv, weil:
- Modellunsicherheit berücksichtigt wird, statt eine einzelne Spezifikation als endgültig anzunehmen,
- PIP-Werte eine fundierte Grundlage für die Aufnahme oder den Ausschluss grenzwertiger Variablen liefern,
- Regimewechsel besser verarbeitet werden können als bei Modellen mit fester Spezifikation, insbesondere in Kombination mit zeitvariierenden Prior-Verteilungen.
Schrittweise und Suchalgorithmen (Forward, Backward, Stepwise)
Schrittweise Verfahren testen Variablenkombinationen nacheinander:
- Forward Selection startet ohne Variablen und fügt jeweils die Variable hinzu, die die Modellgüte am stärksten verbessert,
- Backward Elimination startet mit allen Variablen und entfernt schrittweise die am wenigsten signifikanten,
- Stepwise kombiniert beide Verfahren und erlaubt es Variablen, bei veränderten Bedingungen erneut aufgenommen zu werden.
Diese Methoden sind für mittlere Mengen an Prädiktoren recheneffizient und liefern gut interpretierbare Ergebnisse. Bei kleinen Stichproben können sie jedoch zu Overfitting führen, weshalb Cross-Validation auf einem Holdout-Zeitraum essenziell ist.
Informationskriterien (AIC und BIC)
Das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (BIC) bewerten die Modellgüte unter Berücksichtigung der Anzahl der Parameter. BIC bestraft komplexe Modelle stärker und tendiert daher zu sparsameren Modellen. Beide werden meist als Zielfunktionen innerhalb von Suchalgorithmen eingesetzt und nicht als eigenständige Auswahlmethoden.
Feature Importance im Machine Learning
Baumbasierte Methoden (Random Forest, XGBoost, Gradient Boosting) erzeugen Wichtigkeitsscores für Variablen basierend darauf, wie stark jede Variable den Prognosefehler über alle Splits hinweg reduziert. Diese Scores werden genutzt, um potenzielle Prädiktoren zu bewerten und vor der Aufnahme in parametrische Modelle zu filtern.
SHAP-Werte (SHapley Additive exPlanations) erweitern diesen Ansatz, indem sie den Beitrag jeder Variable zu einzelnen Prognosen quantifizieren. Dadurch lässt sich nachträglich erklären, welche Variablen ein bestimmtes Prognoseergebnis beeinflusst haben.
Wie beeinflussen Frühindikatoren die Variablenauswahl?
Frühindikatoren sind Variablen, die sich konsistent verändern, bevor sich die Zielvariable bewegt. In der Wirtschaftsprognose sind typische Beispiele Baugenehmigungen (als Frühindikator für Wohnungsbau), Kreditspreads (für Unternehmensausfälle), Einkaufsmanagerindizes (für Industrieproduktion) und Konsumentenvertrauen (für Einzelhandelsumsätze).
Frühindikatoren beeinflussen die Variablenauswahl auf zwei Arten:
1. Zeitliche Ausrichtung. Ein Frühindikator ist nur dann nützlich, wenn seine Vorlaufzeit lang genug ist, um daraus Maßnahmen abzuleiten. Methoden zur Variablenauswahl, die Zeitverzögerungen berücksichtigen, etwa durch verzögerte Variablen oder Mixed-Frequency-Ansätze, eignen sich besser zur Erfassung dieser Zusammenhänge als Methoden, die nur gleichzeitige Effekte betrachten.
2. Prognosestabilität. Manche Indikatoren behalten ihre Vorlaufeigenschaften über mehrere Wirtschaftszyklen hinweg, andere nicht. Bayesianische Methoden eignen sich besonders gut zum Umgang mit dieser Instabilität, da sie Einschlusswahrscheinlichkeiten laufend aktualisieren und Indikatoren mit sinkender Prognosekraft automatisch abwerten.
In automatisierten Prognoseplattformen wie Indicio ist die Analyse von Frühindikatoren direkt in den Workflow der Variablenauswahl integriert. Die Plattform generiert automatisch Lag-Features, gleitende Durchschnitte und saisonale Faktoren für jede Kandidatenvariable und bewertet deren Prognosebeitrag per Cross-Validation, bevor sie in das finale Modell aufgenommen werden.
Wie funktioniert Variablenauswahl in automatisierter Prognosesoftware?
Automatisierte Prognosesoftware setzt Variablenauswahl über eine Pipeline um, die Data Engineering, statistische Tests und Cross-Validation kombiniert:
- Feature Engineering
Die Software erzeugt automatisch Transformationen jeder Kandidatenvariable: Lags über mehrere Horizonte, gleitende Durchschnitte, saisonale Anpassungen und Interaktionsterme. Dadurch wird der Raum möglicher Prädiktoren erweitert, ohne manuelle Arbeit zu erfordern. - Automatisiertes Ranking
Machine-Learning-Modelle bewerten jede Kandidatenvariable einschließlich erzeugter Features anhand ihres Beitrags zur Out-of-Sample-Prognosegenauigkeit. Die Variablen werden nach Wichtigkeit sortiert. - Auswahl und Reduktion
Eine Kombination aus Methoden wie LASSO, bayesianischen Kriterien oder Informationskriterien reduziert die Kandidatenmenge auf eine kleinere Gruppe tatsächlich prognosestarker Variablen. - Cross-Validation
Die ausgewählten Variablensätze werden auf Holdout-Zeiträumen getestet, um sicherzustellen, dass die Auswahl generalisiert. Verwendete Kennzahlen sind unter anderem RMSE, MAPE, MASE und Hit-Ratio, abhängig vom Prognosehorizont und Geschäftsziel. - Manuelle Übersteuerung
Gute Plattformen erlauben es Fachanwendern, automatische Entscheidungen zu übersteuern: etwa Variablen gezielt aufzunehmen, die laut Fachwissen wichtig sind, obwohl aktuelle Daten sie unterschätzen, oder Variablen auszuschließen, die zwar korreliert sind, aber keinen kausalen Zusammenhang besitzen.
Indicio implementiert alle fünf Schritte in einer geführten No-Code-Oberfläche. Nutzer können Variablenwichtigkeit automatisch analysieren, Variablen manuell ein- oder ausschließen, Cross-Validation über unterschiedliche Variablenkonfigurationen durchführen und Diagnosen einsehen, die zeigen, welche Variablen behalten oder entfernt wurden und warum, einschließlich SHAP-basierter Erklärbarkeit.
Welche Variablen sollten Sie in Wirtschafts- und Geschäftsprognosen berücksichtigen?
Die richtige Variablenauswahl hängt von der Zielreihe ab, doch die folgenden Kategorien verbessern branchenübergreifend regelmäßig die Prognosegenauigkeit:
Makroökonomische Indikatoren
- Zinssätze und Form der Zinsstrukturkurve
- Inflation (CPI, PPI, PCE)
- Industrieproduktionsindizes
- Einkaufsmanagerindizes (PMI)
- Arbeitslosen- und Arbeitsmarktdaten
- Kreditspreads und Finanzierungsbedingungen-Indizes
Branchenspezifische Frühindikatoren
- Automobilindustrie: Neuzulassungen, Kreditvergabevolumen, Flottenerneuerungszyklen
- Bauwesen: Baugenehmigungen, Wohnungsbaubeginne, Architekturabrechnungen
- Finanzdienstleistungen: Kreditanträge, Ausfallraten, Interbanken-Zinssätze
- Einzelhandel/Nachfrageplanung: Konsumentenvertrauen, Kundenfrequenz, Wetter, Aktionskalender
Interne Geschäftssignale
- Historische Auftragsvolumina und Auftragsbestand
- Preisänderungen und Promotionsaktivitäten
- Produktlebenszyklusphase
- Kundenbezogene Lieferzeiten und Stornierungsdaten
Kalender- und Ereignisvariablen
- Feiertage, saisonale Muster und Effekte des Geschäftskalenders
- Einmalige Ereignisse (politische Änderungen, Angebotsschocks, Produkteinführungen)
Automatisierte Plattformen wie Indicio verbinden sich direkt mit externen Datenanbietern, um makroökonomische und branchenspezifische Indikatoren einzulesen und den manuellen Aufwand für Beschaffung und Abstimmung der Variablendaten zu reduzieren.
Häufig gestellte Fragen
Warum reicht Korrelation als Methode zur Variablenauswahl nicht aus?
Korrelation misst nur lineare Beziehungen zwischen Variablenpaaren. Sie übersieht Interaktionseffekte, nichtlineare Zusammenhänge und den gemeinsamen Beitrag korrelierter Variablengruppen. Fortgeschrittene Methoden wie LASSO und Bayesian Model Averaging bewerten den inkrementellen Prognosebeitrag jeder Variable innerhalb eines multivariaten Modells und erzielen dadurch bessere Out-of-Sample-Ergebnisse.
Was ist die Posterior Inclusion Probability (PIP) bei bayesianischer Variablenauswahl?
PIP beschreibt die Wahrscheinlichkeit, dass eine Variable tatsächlich zum zugrunde liegenden Datenmodell gehört, geschätzt über viele mögliche Modellspezifikationen hinweg. Eine Variable mit einem PIP-Wert über 0,5 gehört mit höherer Wahrscheinlichkeit zum Modell als nicht. PIP-Werte liefern eine fundierte, quantifizierte Grundlage zur Aufnahme oder zum Ausschluss grenzwertiger Variablen.
Wie viele Variablen sollte ein Prognosemodell enthalten?
Es gibt keine allgemeingültige Regel. Das Leitprinzip ist Parsimonie: Verwenden Sie die minimale Anzahl an Variablen, die die gewünschte Out-of-Sample-Genauigkeit erreicht. Mehr Variablen erhöhen den Rechenaufwand, reduzieren die Interpretierbarkeit und erhöhen das Risiko von Overfitting, insbesondere bei kurzen Zeitreihen. Cross-Validation auf Holdout-Zeiträumen ist der beste Weg, den optimalen Kompromiss zwischen Genauigkeit und Komplexität zu finden.
Gilt Variablenauswahl auch für univariate Modelle?
Nein. Variablenauswahl ist spezifisch für multivariate Modelle, da entschieden wird, welche externen Variablen zusätzlich zur Zielreihe aufgenommen werden. Univariate Modelle (ARIMA, Exponential Smoothing, Prophet) verwenden ausschließlich die Historie der Zielvariable selbst. Variablenauswahl wird relevant beim Übergang zu multivariaten Modellen wie VAR, ARDL, MIDAS oder ML-basierten Ensembles.
Was ist der Unterschied zwischen Variablenauswahl und Feature Engineering?
Feature Engineering erzeugt neue Kandidatenvariablen aus bestehenden Daten, etwa Lags, gleitende Durchschnitte, saisonale Faktoren oder Interaktionsterme. Variablenauswahl bestimmt anschließend, welche dieser erzeugten Features zusammen mit den Originalvariablen tatsächlich in das Modell aufgenommen werden sollen. Beide Schritte ergänzen sich: besseres Feature Engineering erweitert den Kandidatenpool, bessere Variablenauswahl findet daraus die richtigen Variablen.
Wie unterscheidet sich LASSO von Ridge Regression bei der Variablenauswahl?
LASSO schrumpft einige Koeffizienten exakt auf null und führt damit aktiv Variablenauswahl durch. Ridge Regression schrumpft alle Koeffizienten in Richtung null, behält jedoch alle Variablen im Modell. Für Prognoseanwendungen, in denen ein kleineres und interpretierbares Variablenset gewünscht ist, ist LASSO meist die bevorzugte Wahl. Elastic Net kombiniert beide Ansätze und eignet sich besonders bei stark korrelierten Prädiktoren.
Kann automatisierte Prognosesoftware Expertenurteile bei der Variablenauswahl ersetzen?
Automatisierte Methoden sind überlegen bei der Verarbeitung großer Kandidatenmengen und der Vermeidung von Overfitting durch konsistente Cross-Validation. Expertenwissen bleibt jedoch bei zwei Entscheidungen wichtig:
- bei der Definition des Kandidatenpools, da Automatisierung nur aus bereitgestellten Variablen auswählen kann und Fachwissen darüber nötig bleibt, welche Indikatoren mechanistisch relevant sind;
- beim bewussten Übersteuern automatischer Ausschlüsse, wenn eine Variable trotz schwachen aktuellen Signals einen starken kausalen Zusammenhang besitzt.
Wie beeinflusst der Prognosehorizont die Variablenauswahl?
Längere Prognosehorizonte erfordern Variablen mit längerer Vorlaufzeit. Eine Variable, die der Zielgröße nur einen Monat vorausläuft, ist für eine 12-Monats-Prognose kaum nützlich. Methoden zur Variablenauswahl, die explizit unterschiedliche Lag-Längen testen oder Mixed-Frequency-Ansätze zur Kombination monatlicher und quartalsweiser Indikatoren verwenden, eignen sich besser für mittel- und langfristige Prognosen als Methoden, die nur gleichzeitige Zusammenhänge betrachten.
Über Indicio
Indicio ist eine automatisierte Prognoseplattform, die ökonometrische Modelle, KI und Machine-Learning-Modelle in einer No-Code-Oberfläche kombiniert. Die Plattform umfasst automatisierte Analysen zur Variablenwichtigkeit, LASSO- und bayesianische Variablenauswahl, SHAP-basierte Erklärbarkeit sowie Cross-Validation-Tools und richtet sich an FP&A-, Demand-Planning- und Economics-Teams, die belastbare und erklärbare Prognosen ohne Programmierung benötigen.
Entdecken Sie Indicios Funktionen zur Variablenauswahl →


