Variabele selectie voor prognoses, van plots en onderbuikgevoel tot datagestuurde zoekalgoritmen

Read time
4 minuten
CATEGORY
Variable selection

Het selecteren van de juiste drivers voor een voorspelling is vaak belangrijker dan de modelklasse zelf. Bij het voorspellen van de energievraag heeft de transformatie en selectie van weersinputs bijvoorbeeld gezorgd voor een nauwkeurigheidsstijging van 3,7 tot 5,2 procent in vergelijking met het gebruik van onbewerkte weergegevens, een aanzienlijke toename van materiaal die zich rechtstreeks vertaalt in betere personeels-, inkoop- en hedgingbeslissingen (Energie-informatica, 2023). In gevallen van elektriciteitsbelasting is het samenstellen van weerstations en functies een bekende beste praktijk, juist omdat het de voorspellingsvaardigheden en de bedrijfswaarde verbetert (Hong, 2015; zie ook bewijsmateriaal over de selectie van stations in Moreno-Carbonell c.s.., 2020). De bredere methodologische literatuur toont eveneens aan dat principiële selectie en krimp het risico op fouten en overaanpassing verminderen, of het nu gaat om informatiecriteria, bestraffing of Bayesiaanse methoden (Tibshirani, 1996; George en McCulloch, 1993).

Hieronder geven we aan wat variabele selectie is, hoe deze is geëvolueerd, waarom de behandeling van exogene variabelen kan leiden tot vooruitkijken, en hoe moderne alternatieven kunnen worden geïmplementeerd, van open source tot geautomatiseerde platforms.

Een korte tijdlijn van de selectie van variabelen bij prognoses

  • Inspectie van visuele vertraging
    Vroege voorspellers keken naar spreidingsdiagrammen en correlogrammen met vertragingen om toonaangevende indicatoren te herkennen, een nuttige maar subjectieve praktijk die moeilijk te schalen is.
  • Correlatie- en informatiecriteria
    Correlatieschermen en stapsgewijze inclusie met AIC of BIC waren bedoeld om spaarzame sets te kiezen die een evenwicht vinden tussen pasvorm en complexiteit (StepAic in de MASS van R; discussie over de afwegingen tussen AIC en BIC in Crossgevalideerd). Stapsgewijs werkt, maar het is kortzichtig en kan instabiel zijn wanneer voorspellers collineair zijn (Zhang, 2016).
  • Gestrafte regressie en schaarse modellen
    Methoden zoals de LASSO voeren tegelijkertijd krimp en selectie uit, waardoor de generalisatie buiten de steekproef in hoogdimensionale omgevingen wordt verbeterd (Tibshirani, 1996; in de tijd variërende uitbreidingen komen voor in de macro- en financiële sector, bijvoorbeeld Kapetanios et al., 2018).
  • Selectie en middeling van Bayesiaanse variabelen
    Spike-and-Slab-prioriteiten maken probabilistische inclusie mogelijk en houden rekening met modelonzekerheid, wat vaak leidt tot sterkere voorspellende prestaties wanneer er veel kandidaten en vertragingen op tafel liggen (George en McCulloch, 1993; overzicht in Ishwaran en Rao, 2005; toepassingen en software in beste).

De exogene valkuil, waarom bestuurders als exogeen behandelen de toekomst kan lekken

Veel modellen voor machine learning en tijdreeksen behandelen drivers (onafhankelijke variabelen) als exogeen. Als u dergelijke modellen evalueert op basis van actuele toekomstige waarden voor de chauffeurs, lekt u informatie uit, wat de schijnbare nauwkeurigheid verhoogt. Bij de evaluatie van tijdreeksen moet gebruik worden gemaakt van voortschrijdende of uitbreidende bronnen en moet de informatieset worden gesimuleerd die beschikbaar was op de prognosedatum om vooruitblikken te voorkomen (Hyndman, Prognoses: principes en praktijk; zie voorbeelden van TsCV en rolling-origin in Hewamalage c.s.., 2022, en de praktische gids in Het blog van Hyndman).

Econometrie heeft in de jaren zeventig tot tachtig grotendeels afstand genomen van het behandelen van veel macrofactoren als exogeen. van Christopher Sims”Macro-economie en realiteit” voorgestelde vectorautoregressies, waarbij alle variabelen gezamenlijk als endogeen worden gemodelleerd. De Sveriges Riksbank-prijs voor economische wetenschappen in 2011 erkende Sims en Sargent voor empirische methoden die laten zien hoe schokken zich voortplanten, waaronder VAR's (Persbericht voor de Nobelprijs, 2011; achtergrond in Christiano, 2012). Door het systeem te modelleren, wordt u gezamenlijk gedwongen om ook de drivers te voorspellen, waardoor de lekkage wordt weggenomen die optreedt wanneer u gerealiseerde exogene waarden invoert in testplooien.

Hoe een goede selectie van variabelen er in 2025 uitziet

  • Definieer doelstellingen waarbij de beslissing voorop staat
    Stem KPI's zoals RMSE, MAE of MASE af op bedrijfskosten en -horizonten, en evalueer met rolling-origin-procedures zodat u echte fouten in het besluitvormingsproces ziet (FPP3 en Hewamalage c.s.., 2022).
  • Breed zoeken, dan krimpen
    Stel kandidaatkenmerken samen, zoals vertragingen, kalendersignalen, weer, prijzen, polisdummies, en pas bestraffing of Bayesiaanse selectie toe om de variantie te beheersen met behoud van het signaal (Tibshirani, 1996; George en McCulloch, 1993).
  • Geef de voorkeur aan systeemmodellen wanneer bestuurders samen rijden
    Als voorspellers en doelen elkaar beïnvloeden, ga dan over op VAR of VECM zodat de drivers worden voorspeld en niet worden geleend van de toekomst (statistiekenmodellen VAR; R vars verpakken).
  • Reële winsten kwantificeren
    Wijzigingen in de functieset registreren met hun impact die buiten de steekproef valt. In energietijdreeksen levert technologie met betere weerfuncties meetbare winsten op, bijvoorbeeld de hierboven genoemde verbetering van 3,7 tot 5,2 procent (Energie-informatica, 2023). Vergelijkbare domeinspecifieke onderzoeken bevestigen dat gerichte exogene signalen de nauwkeurigheid verhogen wanneer ze correct worden behandeld (MIT CTL sluitsteen, 2024).

Variabele selectie implementeren, drie praktische paden

1) Open source, programmatische workflow
Als u volledige controle en controleerbaarheid nodig hebt:

  • Python, bestraft en Bayesiaans
    Gebruik scikit-leren voor LASSO en elastisch net, of pystan en PyMC voor Bayesiaanse modellen. Voor systeemmodellering is de statistiekenmodellen De VAR API ondersteunt de selectie van lag-orders en prognoses in meerdere stappen, wat lekkage voorkomt door alle series gezamenlijk te voorspellen (statsmodels VAR documenten; overzicht in statsmodels VAR-gids).
  • R, stapsgewijs en spike-and-slab
    MASSA: :StepAic biedt op AIC gebaseerd stapsgewijs zoeken, terwijl beste implementeert spike-and-slab priors die Bayesiaanse variabele selectie en modelmiddeling uitvoeren, vooral nuttig bij veel kandidaat-vertragingen en indicatoren (Stap Aic; beste handmatig). Voor systeemmodellering is de vars het pakket schat VAR, SVAR en VECM en omvat impulsreacties en FEVD voor diagnostiek (KRAAN vars).

2) Gestructureerde evaluatie voor lekvrije nauwkeurigheid
Ongeacht de toolchain, dwing de evaluatie van de rollende oorsprong af en verbied het gebruik van gerealiseerde toekomstige exogene inputs in validatievouwen. De teksten en notities van Hyndman geven concrete, reproduceerbare opstellingen voor evaluatie met meerdere horizonten en TsCV (FPP3; TsCV-handleiding; methodologische beoordeling in Hewamalage c.s.., 2022).

3) Platforms zonder code voor snelheid en dekking
Voor teams die een brede modeldekking en een moderne selectie willen zonder code te schrijven, zijn platforms zoals Indicio automatiseer het zoeken naar variabelen, functietransformaties en benchmarking in statistische, econometrische en ML-modellen, en implementeer vervolgens de beste configuraties met de juiste backtesting, allemaal via een gebruiksvriendelijke interface (Indico, variabele selectie). Tools in deze categorie zijn ontworpen om snel meetbare nauwkeurigheidsverbeteringen aan het licht te brengen, terwijl ze toch lekvrije evaluatie en herhaalbare pijpleidingen afdwingen.

Alles bij elkaar, een schone, lekvrije selectiepijplijn

  • Stel uw kandidatenpakket samen
    Op domeinen gebaseerde functies, vertragingsstructuren, interacties en transformaties, inclusief externe gegevens zoals weer- of beleidskalenders waar relevant, aangezien deze in de praktijk vaak echte voordelen opleveren (Energie-informatica, 2023; Hong, 2015).
  • Selectie uitvoeren met krimp- of Bayesiaanse prioriteiten
    Gebruik bestraffing om schattingen te stabiliseren of spike-and-slab om modelonzekerheid vast te leggen (Tibshirani, 1996; beste).
  • Geef de voorkeur aan VAR wanneer causaliteit twee kanten op loopt
    Co-evoluerende drijfveren en doelstellingen moeten in een gezamenlijk systeem worden opgenomen om exogeniteitsaannames en vooruitziende vooroordelen te vermijden (Sims, 1980; Nobelprijs, 2011).
  • Evalueer precies zoals u gaat opereren
    Voortschrijdende of prequentiële evaluatie met de juiste informatieset, niet met willekeurige splitsingen, zodat de gerapporteerde winsten in de productie blijven bestaan (Hyndman TsCV; Hewamalage c.s.., 2022).

Kort gezegd

Variabele selectie is geen checkbox, maar de ruggengraat van nauwkeurige en betrouwbare prognoses. Combineer moderne selectie, krimp en Bayesiaanse middeling aan systeemmodellen wanneer chauffeurs en doelwitten samen bewegen, evalueer met lekvrije protocollen, en u verzendt voorspellingen die in de productie hetzelfde zijn. Als je snelheid belangrijker vindt dan impact, overweeg dan een platform zonder code, zoals Indicio, om het zware werk te automatiseren en tegelijkertijd de evaluatie en implementatie van de beste praktijken te volgen (Indicio).

Explore more of our blog posts

Virtual demo

View our click-through demo

Experience the ease and accuracy of Indicio’s automated forecasting platform firsthand. Click to start a virtual demo today and discover how our cutting-edge tools can streamline your decision-making process.