Stop met het raden van uw drijfveren: een gids voor geautomatiseerde selectie van variabelen bij prognoses

Read time
4 minuten
CATEGORY
Forecasting software

Er was een tijd dat het kiezen van je voorspellingsvariabelen aanvoelde als een kunstvorm, of beter gezegd, een onderbouwde schatting. Je zou wat vertragingen pakken, misschien wat CPI-gegevens, een dummy-variabele invoeren voor een vakantie en er het beste van hopen.

Maar in een wereld waarin we verdrinken in data, wordt die handmatige aanpak niet alleen slecht geschaald; het schaadt ook actief de nauwkeurigheid. Als je naar honderden potentiële voorspellers kijkt (vertragingen, voortschrijdende gemiddelden, weer, macrotrends), overstemt de 'ruis' uiteindelijk het 'signaal'.

Het doel van moderne variabele selectie is niet alleen om een vervelende taak te automatiseren. Het gaat erom een model te bouwen dat een regimeverschuiving kan overleven. Onderzoek van de Internationaal tijdschrift voor prognoses uit recente werkdocumenten van de ECB blijkt steeds weer dat technieken zoals Lasso en Bayesiaanse selectie de voorspellingsfouten met 40% of meer kunnen verminderen.

Als u voorbij statische modellen wilt stappen, ziet u hier hoe de markt momenteel uiteenvalt.

Wat we eigenlijk bedoelen met „geautomatiseerde selectie”

In een echte prognosestack is geautomatiseerde selectie geen eenmalige functie. Het is een doorlopend filter dat vraagt:

  • Wat is belangrijk op dit moment? (Is de chauffeur van vorig jaar nog steeds relevant na een schok in de toeleveringsketen?)
  • Is dit overbodig? (Als ik een voortschrijdend gemiddelde van 3 maanden heb, heb ik dan echt het gemiddelde van 4 maanden nodig?)
  • Waar is de overfit? (Hoe voorkom ik dat het model geesten achtervolgt in een dataset met 500 kolommen?)

De meeste toonaangevende platforms lossen dit op door Regularisatie (irrelevante coëfficiënten tot nul terugbrengen), Geautomatiseerde functie-engineering (de „feature factory” -benadering), of Bayesiaanse selectie (variabele inclusie als een waarschijnlijkheid behandelen).

The Heavy Hitters: Evaluatie van de markt

1. De AutoML Giants: DataRobot en H2O.ai

Als je een „alles-in-één” ervaring wilt, zijn dit de twee waar de meeste mensen als eerste naar kijken.

  • DataRobot is in feite een feature factory. Het blinkt uit in het nemen van een onbewerkte dataset en het genereren van duizenden tijdreekspermutaties (vertragingen, transformaties) voordat ze worden gefilterd. Het is geweldig voor teams die een beheerde, snelle workflow willen.
  • H2O AI zonder bestuurder volgt een vergelijkbaar pad van „agressieve automatisering”. Het is vooral sterk als u vertrouwd bent met pijpleidingen met veel ML en uitgebreide feature-engineering nodig hebt.

The Rub: Beide kunnen een beetje aanvoelen als een „zwarte doos”. Als je het moet uitleggen waarom een variabele is weggelaten aan een sceptische CFO, misschien vindt u dat de transparantie ontbreekt.

2. De cloudecosystemen: Azure, Vertex AI en AWS

Als uw gegevens zich al in de cloud bevinden, is de „weg van de minste weerstand” meestal de native tools zoals Azure AutoML of Vertex AI van Google.

  • Deze zijn fantastisch voor MLOps en schaalvergroting.
  • Voorspelling voor Amazon is een beetje anders, het is een beheerde service die uw gerelateerde variabelen „absorbeert”.

The Rub: Variabele selectie is hier vaak een „opkomend gedrag” van de modeltraining in plaats van een toegewijde, transparante stap. Je krijgt het resultaat, maar niet altijd het 'waarom'.

3. De Enterprise-standaard: SAS Viya

Voor mensen in sterk gereguleerde sectoren (het bankwezen, de farmaceutische industrie) SAS blijft de gouden standaard voor bestuur. Ze hebben met succes hun klassieke statistische nauwkeurigheid naar het Viya-tijdperk verplaatst door Lasso- en Elastic Net-selectie van productiekwaliteit aan te bieden. Het is gebouwd met het oog op controleerbaarheid, maar vereist vaak meer „houvast” en engineering dan de nieuwere AutoML-spelers.

Waarom de "40% nauwkeurigheidssprong” eigenlijk mogelijk is

Het klinkt als een marketingcliché, maar een verbetering van 40% in nauwkeurigheid is een veelgebruikte maatstaf bij de overgang van handmatige naar geautomatiseerde selectie. Dit gebeurt meestal omdat:

  1. Ruisonderdrukking: Je verwijdert eindelijk de „rotzooi” -variabelen die je coëfficiënten verwarden.
  2. Frequente herschatting: Met automatisering kunt u het model elke week of maand opnieuw opbouwen. Als een variabele zijn voorspellend vermogen verliest, wordt deze onmiddellijk verwijderd, en niet zes maanden later tijdens een handmatige beoordeling.
  3. Hoogdimensionale verwerking: Mensen kunnen realistisch gezien geen 200 variabelen afwegen. Lasso kan.

Het gespecialiseerde alternatief: waarom we Indicio hebben gebouwd

Terwijl de grote platforms alles voor iedereen proberen te zijn, Indicio is speciaal gebouwd voor de prognoseprofessional die nauwkeurigheid nodig heeft en snelheid.

De meeste AutoML-tools behandelen tijdreeksgegevens als een standaard regressieprobleem. Dat doen we niet. We hebben prioriteit gegeven aan de methoden die voorspellingsonderzoek daadwerkelijk ondersteunt:

  • Selectie van Bayesiaanse variabelen: In plaats van een hard „ja/nee” op een variabele, gebruiken we probabilistische inclusie. Dit geeft u een veel betere grip op onzekerheid, cruciaal voor risicobeheer.
  • UX voor het eerst voorspellen: We hebben het 'data science-sanitair' weggehaald. U hoeft geen script te schrijven om vertragingen of rollende vensters te verwerken; het systeem begrijpt vanaf stap één de tijdelijke aard van uw gegevens.
  • Continu verversen: Indicio is ontworpen om aan te sluiten op uw gegevensbronnen en uw selectielogica „altijd aan” te houden. Naarmate regimes veranderen, past uw model zich aan zonder dat u handmatig hoeft in te grijpen.

Waar het op neerkomt

  • Als je een enorm, algemeen inzetbaar ML-platform nodig hebt: Kijk naar DataRobot of H2O.
  • Als je vastzit in een cloudstack: Blijf bij Azuurblauw of Hoekpunt.
  • Als u een tool nodig hebt die is ontwikkeld door voorspellers, voor voorspellers: Geven Indicio een kijkje.

Ontdek meer van onze blogposts

Virtuele demo

Bekijk onze doorklikdemo

Ervaar het gemak en de nauwkeurigheid van Indicio's geautomatiseerde prognoseplatform uit de eerste hand. Klik om vandaag nog een virtuele demo te starten en ontdek hoe onze geavanceerde tools uw besluitvormingsproces kunnen stroomlijnen.