Il modello LSTM (Long Short-Term Memory) multivariato è un modello di Machine Learning che è un tipo di rete neurale ricorrente. Indicio offre una selezione di modelli di apprendimento automatico, il più semplice dei quali è il modello neurale univariato (vedi Advanced: Neural). La generalizzazione multivariata di quel modello è il modello Artifical Neural Network (ANN) (Advanced: ANN). Il modello LSTM, essendo una rete neurale ricorrente, è più sensibile dal punto di vista temporale in quanto consente alle informazioni di fluire tra i nodi dello stesso livello, nella direzione di ritardi superiori o inferiori.
Per modellare un set di kk serie temporale Y1,... , SìY1, ... ,Ykusando una rete neurale, la p∙kp⋅k i valori ritardati vengono utilizzati come input e la rete neurale viene addestrata per spiegare la corrente pp valori delle serie temporali incluse. Proprio come nel caso univariato, è quindi possibile creare una previsione utilizzando yt,... , yt−p+1yt, ... ,yt−p+1 come input per prevedere yt+1yt+1. Nota che stiamo ancora scrivendoytper indicare il vettore di kk valori al tempo tt, il che significa che il modello creerà previsioni per tutti variabili incluse. Questo può quindi essere ripetuto in modo ricorsivo utilizzando i soli valori di previsione come input, creando una previsione della lunghezza desiderata. Il modello LSTM si differenzia da una rete neurale generale in quanto è ricorrente, il che implica che è più adatto alla gestione di dati sequenziali come le serie temporali. L'altra rete neurale ricorrente disponibile in Indicio è il modello Gated Recurrent Unit (GRU) (Advanced: GRU), che è una versione meno parametrizzata di LSTM. GRU è stato sviluppato come semplificazione del modello LSTM e ha dimostrato di avere prestazioni simili.
All'aumentare del numero di input e output di un modello, aumenta anche la dimensione richiesta dei livelli nascosti e con essi la complessità del modello. Ciò rappresenta una sfida in quanto un modello complesso rischia sempre di essere sovradimensionato dai dati. Per ovviare a questo problema, i dati vengono suddivisi in un set di treni e un set di convalida.
Il modello viene addestrato sui dati di addestramento utilizzando Stochastic Gradient Descent (SGD). Ad ogni iterazione vengono utilizzate solo alcune osservazioni, il che significa che dopo un determinato numero di iterazioni, l'algoritmo SGD avrà esaminato tutti i dati. Ciascuno di questi set di iterazioni viene definito epoca. Dopo ogni epoca, il modello viene utilizzato per creare una previsione nel set di convalida e viene calcolato l'errore di previsione non compreso nel campione. Il modello fa inoltre parte del processo di formazione per la produzione di previsioni all'interno del campione, denominate valori adattati, dai quali è possibile calcolare l'errore di previsione all'interno del campione.
Ciò creerà due serie di errori di previsione, all'interno e all'esterno del campione per epoca. Indicio applica qualcosa chiamato arresto anticipato, il che significa che quando la precisione del campione inizia a peggiorare nel corso di più epoche, il processo di addestramento viene interrotto e il modello è considerato finito.