Wybór zmiennych do prognozowania, od wykresów i intuicji po algorytmy wyszukiwania oparte na danych

Read time
4min
CATEGORY
Variable selection

Wybór odpowiednich sterowników do prognozy często ma większe znaczenie niż sama klasa modelu. Na przykład w prognozowaniu zapotrzebowania na energię przekształcanie i wybieranie nakładów pogodowych przyniosło wzrost dokładności między 3,7 a 5,2 procent w porównaniu z wykorzystaniem surowych danych pogodowych, co przekłada się bezpośrednio na lepsze decyzje dotyczące zatrudnienia, zakupów i zabezpieczania (Informatyka Energetyczna, 2023). W przypadku obciążenia prądem kuracja stacji pogodowych i funkcji jest znaną najlepszą praktyką właśnie dlatego, że poprawia umiejętności prognozy i wartość biznesową (Hongkong, 2015; patrz także dowody dotyczące wyboru stacji w Moreno-Carbonell i in., 2020). Szersza literatura metodologiczna również pokazuje, że zasadniczy dobór i kurczenie się zmniejszają ryzyko błędów i nadmiernego dopasowania, czy to za pomocą kryteriów informacyjnych, kar lub metod bayesowskich (Tibshirani, 1996; George i McCulloch, 1993).

Poniżej przedstawiamy, czym jest wybór zmiennych, jak ewoluował, dlaczego obsługa zmiennych egzogennych może powodować stronniczość spojrzenia w przyszłość i jak wdrażać nowoczesne alternatywy, od open source po zautomatyzowane platformy.

Krótki harmonogram doboru zmiennych w prognozowaniu

  • Wizualna kontrola opóźnień
    Wcześni prognostycy obserwowali wykresy rozproszenia i opóźnione korelogramy, aby wykryć wiodące wskaźniki, przydatna, ale subiektywna praktyka, którą trudno skalować.
  • Kryteria korelacji i informacji
    Ekrany korelacji i stopniowe włączanie z AIC lub BIC miały na celu wybranie oszczędnych zestawów, które równoważą dopasowanie i złożoność (StepAic w R's MASS; dyskusja na temat kompromisów AIC vs BIC w CrossValidated). Działa krok po kroku, ale jest krótkowzroczny i może być niestabilny, gdy predyktory są współliniowe (Zhang, 2016).
  • Regresja karana i rzadkie modele
    Metody takie jak LASSO wykonują jednocześnie kurczenie i selekcję, poprawiając uogólnienie poza próbką w ustawieniach wysokowymiarowych (Tibshirani, 1996; zmieniające się w czasie rozszerzenia pojawiają się w makrach i finansach, np. Kapetanios i in., 2018).
  • Wybór i uśrednianie zmiennej bayesowskiej
    Priory typu spike-and-slab umożliwiają włączenie probabilistyczne i uwzględniają niepewność modelu, często dając silniejsze wyniki predykcyjne, gdy na stole jest wielu kandydatów i opóźnień (George i McCulloch, 1993; przegląd w Ishwaran i Rao, 2005; aplikacje i oprogramowanie w bsts).

Egzogenna pułapka, dlaczego traktowanie kierowców jako egzogennych może wyciekać przyszłość

Wiele modeli uczenia maszynowego i serii czasowej traktuje sterowniki (zmienne niezależne) jako egzogenne. Jeśli oceniasz takie modele na podstawie rzeczywistych przyszłych wartości dla kierowców, wyciekasz informacje, które zwiększają widoczną dokładność. Ocena szeregów czasowych musi wykorzystywać toczne lub rozszerzające się początki i musi symulować zestaw informacji, który był dostępny w dacie prognozy, aby uniknąć błędu patrzenia w przyszłość (Hindman, Prognozowanie: zasady i praktyka; patrz przykłady TsCV i rolling-origin w Hewamalage i in., 2022, i praktyczny przewodnik w Blog Hyndmana).

Ekonometria w dużej mierze odeszła od traktowania wielu makro sterowników jako egzogennych w latach 70. i 80. Christophera Simsa”Makroekonomia i rzeczywistość” proponowane autoregresje wektorowe, w których wszystkie zmienne są modelowane wspólnie jako endogenne. Nagroda Sveriges Riksbank w dziedzinie nauk ekonomicznych w 2011 roku doceniła Simsa i Sargenta za metody empiryczne, które pokazują, jak propagują się wstrząsy, w tym VAR (Komunikat prasowy Nagrody Nobla, 2011; tło w Christiano, 2012). Wspólne modelowanie systemu zmusza również do prognozowania sterowników, co usuwa wyciek, który pojawia się podczas podawania zrealizowanych wartości egzogennych do fałd testowych.

Jak wygląda dobry wybór zmiennych w 2025 roku

  • Zdefiniuj cele decyzyjne
    Dopasuj wskaźniki KPI, takie jak RMSE, MAE lub MASE, do kosztów i horyzontów biznesowych oraz oceniaj za pomocą procedur rolling-origin, aby zobaczyć prawdziwy błąd w czasie podejmowania decyzji (FPP3 a Hewamalage i in., 2022).
  • Szukaj szeroko, a następnie zmniejsz
    Zbieraj funkcje kandydatów, np. opóźnienia, sygnały kalendarza, pogodę, ceny, manekiny polityczne i zastosuj karę lub wybór bayesowski, aby kontrolować wariancję przy zachowaniu sygnału (Tibshirani, 1996; George i McCulloch, 1993).
  • Preferuj modele systemów, gdy kierowcy poruszają się razem
    Kiedy predyktory i cele wpływają na siebie nawzajem, przejdź do VAR lub VECM, aby sterowniki były prognozowane, a nie zapożyczone z przyszłości (Modele statyczne VAR; R Wars pakiet).
  • Określ ilościowo realne zyski
    Rejestruj zmiany zestawu funkcji z ich wpływem poza próbką. W energetycznych szeregach czasowych lepsza inżynieria funkcji pogodowych przynosi wymierne zyski, na przykład wspomnianą powyżej poprawę od 3,7 do 5,2 procent (Informatyka Energetyczna, 2023). Podobne badania specyficzne dla dziedziny potwierdzają, że ukierunkowane sygnały egzogenne zwiększają dokładność, gdy są obsługiwane prawidłowo (Końcówka MIT CTL, 2024).

Implementacja wyboru zmiennych, trzy praktyczne ścieżki

1) Otwarty, programowy przepływ pracy
Jeśli potrzebujesz pełnej kontroli i audytowalności:

  • Python, ukarany i bayesowski
    Użyj scikit-nauka do LASSO i siatki elastycznej, lub pystan a PyMC dla modeli bayesowskich. W przypadku modelowania systemu, mody statyczne VAR API obsługuje wybór zleceń opóźnień i prognozowanie wieloetapowe, co zapobiega wyciekom poprzez wspólne prognozowanie wszystkich serii (Statsmodels VAR docs; przegląd w statsmodels VAR przewodnik).
  • R, stopniowe i kolczaste i stropowe
    MASA: :Stepaic zapewnia stopniowe wyszukiwanie oparte na AIC, podczas gdy bsts implementuje priorytety kolców i płytek, które wykonują wybór zmiennych bayesowskich i uśrednianie modelu, szczególnie przydatne w przypadku wielu opóźnień i wskaźników kandydatów (StepAic; bsts instrukcja obsługi). W przypadku modelowania systemu, Wars pakiet szacuje VAR, SVAR i VECM i obejmuje odpowiedzi impulsowe i FEVD do diagnostyki (KRAN Wars).

2) Ustrukturyzowana ocena dokładności bez wycieków
Bez względu na łańcuch narzędzi, egzekwuj ocenę pochodzenia rolkowego i zabraniaj używania zrealizowanych przyszłych egzogennych danych wejściowych w fałdach walidacyjnych. Teksty i notatki Hyndmana zawierają konkretne, powtarzalne ustawienia oceny wielohoryzontowej i TsCV (FPP3; Samouczek TsCV; przegląd metodologiczny w Hewamalage i in., 2022).

3) Platformy bez kodu dla szybkości i zasięgu
Dla zespołów, które chcą szerokiego zakresu modeli i nowoczesnego wyboru bez pisania kodu, platformy takie jak Wskaźnik zautomatyzuj wyszukiwanie zmiennych, przekształcenia funkcji i benchmarking w modelach statystycznych, ekonometrycznych i ML, a następnie operacjonalizuj najlepsze konfiguracje z odpowiednim testowaniem wstecznym, a wszystko to za pomocą przyjaznego dla użytkownika interfejsu (Wskaźnik, wybór zmiennej). Narzędzia z tej kategorii są zaprojektowane tak, aby szybko poprawiać mierzalną dokładność, przy jednoczesnym wymuszeniu oceny bez wycieków i powtarzalnych rurociągów.

Łącząc je, czysty, wolny od wycieków rurociąg selekcyjny

  • Kurator swojego zestawu kandydatów
    Funkcje oparte na domenie, struktury opóźnień, interakcje i transformacje, w tym dane zewnętrzne, takie jak pogoda lub kalendarze zasad, w stosownych przypadkach, ponieważ często przynoszą one realne korzyści w praktyce (Informatyka Energetyczna, 2023; Hongkong, 2015).
  • Uruchamianie zaznaczania za pomocą skurczu lub priorytetów bayesowskich
    Użyj penalizacji, aby ustabilizować szacunki lub spike-and-slab, aby uchwycić niepewność modelu (Tibshirani, 1996; bsts).
  • Preferuj VAR, gdy przyczynowość działa w obie strony
    Współewoluujące czynniki i cele powinny wejść do wspólnego systemu, aby uniknąć założeń egzogeniczności i stronniczości spojrzenia na przyszłość (Simowie, 1980; Nagroda Nobla, 2011).
  • Oceń dokładnie tak, jak będziesz działać
    Ocena bieżąca lub wstępna z prawidłowym zestawem informacji, a nie losowymi podziałami, więc zgłoszone zyski utrzymują się w produkcji (Hyndman TsCV; Hewamalage i in., 2022).

Podsumowując

Wybór zmiennej nie jest polem wyboru, jest podstawą dokładnego i wiarygodnego prognozowania. Połącz nowoczesną selekcję, kurczenie i uśrednianie bayesowskie z modelami systemu, gdy kierowcy i cele poruszają się razem, oceniaj za pomocą protokołów odpornych na wycieki, a otrzymasz prognozy, które będą gotowe do produkcji. Jeśli cenisz szybkość od uderzenia, rozważ platformę bez kodu, taką jak Indicio, aby zautomatyzować podnoszenie ciężarów, przy jednoczesnym przestrzeganiu oceny i wdrażania najlepszych praktyk (Wskaźnik).

Poznaj więcej naszych postów na blogu

Wirtualne demo

Zobacz naszą demonstrację klików

Poznaj łatwość i dokładność automatycznej platformy prognozowania Indicio z pierwszej ręki. Kliknij, aby rozpocząć wirtualną wersję demonstracyjną już dziś i dowiedzieć się, w jaki sposób nasze najnowocześniejsze narzędzia mogą usprawnić proces podejmowania decyzji.