LSTM

Het model voor het lange kortetermijngeheugen (LSTM) is een kunstmatig terugkerend neuraal netwerk. Dankzij de feedbackverbindingen is het bijzonder geschikt voor het verwerken van gegevensreeksen. LSTM-modellen worden gebruikt voor veel verschillende taken, zoals spraak- en videoanalyse, maar ook voor tijdreeksanalyse. Een van de belangrijkste sterke punten van een LSTM-model is de flexibiliteit, het kan complexe structuren in gegevens identificeren dankzij de niet-lineaire activeringsfuncties en de zware parametrisering. LSTM wordt getraind op gegevens met behulp van varianten van gradiëntafdaling, zoals AdaGrad en ADAM.

Het multivariate Long Short-Term Memory (LSTM) -model is een machine learning-model dat een soort terugkerend neuraal netwerk is. Indicio biedt een selectie van machine learning-modellen, waarvan het meest basale het univariate neurale model is (zie Advanced: Neural). De multivariate generalisatie van dat model is het Artifical Neural Network (ANN) -model (Advanced: ANN). Het LSTM-model, dat een terugkerend neuraal netwerk is, is zich meer bewust van de tijd omdat het informatie tussen knooppunten van dezelfde laag laat stromen, in de richting van hogere naar lagere vertragingen.

Multivariate tijdreeksen en neurale netwerken

Om een set van k te modellerenk tijdreeks Y1,... , YkY1, ... ,Ykmet behulp van een neuraal netwerk, de p⋅kpk achterblijvende waarden worden gebruikt als invoer en het neurale netwerk wordt getraind om de huidige p te verklarenp waarden van de opgenomen tijdreeksen. Net als in het univariate geval kan dan een voorspelling worden gemaakt met behulp van yt,... , yt−p+1yt, ... ,ytp+1 als input om yt+1 te voorspellenyt+1. Merk op dat we nu aan het schrijven zijnytom de vector van k aan te duidenk waarden op tijdstip tt, wat betekent dat het model voorspellingen zal maken voor allemaal variabelen inbegrepen. Dit kan vervolgens op een recursieve manier worden herhaald met alleen de prognosewaarden als invoer, waardoor een voorspelling van de gewenste lengte wordt gemaakt. Het LSTM-model verschilt van een algemeen neuraal netwerk doordat het terugkerend is, wat betekent dat het beter is afgestemd op het verwerken van sequentiële gegevens zoals tijdreeksen. Het andere terugkerende neurale netwerk dat beschikbaar is in Indicio is het Gated Recurrent Unit (GRU) -model (Advanced: GRU), een minder sterk geparametriseerde versie van LSTM. GRU is ontwikkeld als een vereenvoudiging van het LSTM-model en er is aangetoond dat het vergelijkbare prestaties levert.

Hoe past Indicio in een LSTM-model?

Naarmate het aantal in- en uitgangen van een model toeneemt, neemt ook de vereiste grootte van de verborgen lagen toe, en daarmee de complexiteit van het model. Dit vormt een uitdaging omdat een complex model altijd het risico loopt dat het te veel wordt aangepast aan de gegevens. Om dit te verhelpen, worden de gegevens opgesplitst in een treinset en een validatieset.

Het model is getraind op de trainingsgegevens met behulp van Stochastic Gradient Descent (SGD). Bij elke iteratie worden slechts enkele van de waarnemingen gebruikt, wat betekent dat na een bepaald aantal iteraties het SGD-algoritme alle gegevens heeft doorgenomen. Elke dergelijke reeks iteraties wordt aangeduid als een tijdperk. Na elk tijdperk wordt het model gebruikt om een prognose op te stellen in de validatieset, en de voorspellingsfout die buiten de steekproef valt, wordt berekend. Het model maakt ook deel uit van het trainingsproces en produceert voorspellingen in de steekproef, die aangepaste waarden worden genoemd, op basis waarvan de voorspellingsfout tijdens de steekproef kan worden berekend.

Dit zal leiden tot twee reeksen voorspellingsfouten, in de steekproef en buiten de steekproef per tijdperk. Indicio past iets toe dat early stopping wordt genoemd, wat betekent dat wanneer de nauwkeurigheid van de steekproef over meerdere tijdperken verslechtert, het trainingsproces wordt stopgezet en het model als voltooid wordt beschouwd.

Explore more models

Within this category

More categories