LSTM

Model pamięci długotrwałej (LSTM) jest sztuczną nawracającą siecią neuronową. Szczególnie nadaje się do przetwarzania sekwencji danych, dzięki połączeniom sprzężenia zwrotnego. Modele LSTM są używane do wielu różnych zadań, takich jak analiza mowy i wideo, a także analiza szeregów czasowych. Jedną z głównych zalet modelu LSTM jest jego elastyczność, potrafi identyfikować złożone struktury w danych dzięki nieliniowym funkcjom aktywacji i dużej parametryzacji. LSTM jest szkolony na danych przy użyciu wariantów opadania gradientu, takich jak AdaGrad i ADAM.

Wielowymiarowy model pamięci długoterminowej (LSTM) to model uczenia maszynowego, który jest rodzajem nawracającej sieci neuronowej. Indicio oferuje wybór modeli uczenia maszynowego, z których najbardziej podstawowym jest jednozmienny model neuronowy (patrz Zaawansowane: Neural). Wielowymiarowym uogólnieniem tego modelu jest model Artifical Neural Network (ANN) (Advanced: ANN). Model LSTM, będący nawracającą siecią neuronową, jest bardziej świadomy czasowo, ponieważ umożliwia przepływ informacji między węzłami tej samej warstwy, w kierunku od wyższych do niższych opóźnień.

Wielowymiarowe szeregi czasowe i sieci neuronowe

Aby modelować zestaw kk serie czasowe Y1,... , YkY1, ... ,Ykprzy użyciu sieci neuronowej, p⋅kpk wartości opóźnione są używane jako dane wejściowe, a sieć neuronowa jest szkolona w celu wyjaśnienia bieżącego pp wartości uwzględnionych szeregów czasowych. Podobnie jak w przypadku jednozmiennym, prognozę można następnie utworzyć za pomocą yt,... , yt−p+1yt, ... ,ytp+1 jako dane wejściowe do przewidywania yt+1yt+1. Zauważ, że teraz piszemy ytytaby oznaczyć wektor kk wartości w czasie tt, co oznacza, że model stworzy prognozy dla wszyscy uwzględnione zmienne. Można to następnie powtórzyć w sposób rekurencyjny, używając wartości tylko prognozy jako danych wejściowych, tworząc prognozę o pożądanej długości. Model LSTM różni się od ogólnej sieci neuronowej tym, że jest powtarzający się, co oznacza, że jest lepiej dostosowany do obsługi danych sekwencyjnych, takich jak szeregi czasowe. Inną powtarzającą się siecią neuronową dostępną w Indicio jest model Gated Recurrent Unit (GRU) (Advanced: GRU), który jest mniej silnie sparametryzowaną wersją LSTM. GRU został opracowany jako uproszczenie modelu LSTM i wykazano, że ma podobną wydajność.

Jak Indicio pasuje do modelu LSTM?

Wraz ze wzrostem liczby wejść i wyjść modelu rośnie wymagany rozmiar ukrytych warstw, a wraz z nimi złożoność modelu. Stanowi to wyzwanie, ponieważ złożony model zawsze wiąże się z ryzykiem nadmiernego dopasowania do danych. Aby temu zaradzić, dane są podzielone na zestaw pociągów i zestaw walidacji.

Model jest trenowany na danych treningowych przy użyciu Stochastic Gradient Descent (SGD). Tylko kilka obserwacji jest używanych w każdej iteracji, co oznacza, że po określonej liczbie iteracji algorytm SGD przejdzie przez wszystkie dane. Każdy taki zestaw iteracji jest określany jako epoka. Po każdej epoce model jest używany do tworzenia prognozy w zestawie walidacji i obliczany jest błąd prognozy poza próbką. Model jest również częścią procesu szkoleniowego tworzenia prognoz w próbce, które są określane jako wartości dopasowane, z których można obliczyć błąd prognozy w próbce.

Spowoduje to utworzenie dwóch serii błędów prognoz, w próbce i poza próbką na epokę. Indicio stosuje coś, co nazywa się wczesnym zatrzymaniem, co oznacza, że gdy dokładność poza próbką zaczyna się pogarszać w wielu epokach, proces szkolenia zostaje zatrzymany, a model jest uważany za ukończony.

Explore more models

Within this category

More categories