Wybór zmiennych do prognozowania, od wykresów i intuicji po algorytmy wyszukiwania oparte na danych

Wybór odpowiednich sterowników do prognozy często ma większe znaczenie niż sama klasa modelu. Na przykład w prognozowaniu zapotrzebowania na energię przekształcanie i wybieranie nakładów pogodowych przyniosło wzrost dokładności między 3,7 a 5,2 procent w porównaniu z wykorzystaniem surowych danych pogodowych, co przekłada się bezpośrednio na lepsze decyzje dotyczące zatrudnienia, zakupów i zabezpieczania (Informatyka Energetyczna, 2023). W przypadku obciążenia prądem kuracja stacji pogodowych i funkcji jest znaną najlepszą praktyką właśnie dlatego, że poprawia umiejętności prognozy i wartość biznesową (Hongkong, 2015; patrz także dowody dotyczące wyboru stacji w Moreno-Carbonell i in., 2020). Szersza literatura metodologiczna również pokazuje, że zasadniczy dobór i kurczenie się zmniejszają ryzyko błędów i nadmiernego dopasowania, czy to za pomocą kryteriów informacyjnych, kar lub metod bayesowskich (Tibshirani, 1996; George i McCulloch, 1993).

Poniżej przedstawiamy, czym jest wybór zmiennych, jak ewoluował, dlaczego obsługa zmiennych egzogennych może powodować stronniczość spojrzenia w przyszłość i jak wdrażać nowoczesne alternatywy, od open source po zautomatyzowane platformy.

Krótki harmonogram doboru zmiennych w prognozowaniu

Wizualna kontrola opóźnień
Wcześni prognostycy obserwowali wykresy rozproszenia i opóźnione korelogramy, aby wykryć wiodące wskaźniki, przydatna, ale subiektywna praktyka, którą trudno skalować.
Kryteria korelacji i informacji
Ekrany korelacji i stopniowe włączanie z AIC lub BIC miały na celu wybranie oszczędnych zestawów, które równoważą dopasowanie i złożoność (StepAic w R's MASS; dyskusja na temat kompromisów AIC vs BIC w CrossValidated). Działa krok po kroku, ale jest krótkowzroczny i może być niestabilny, gdy predyktory są współliniowe (Zhang, 2016).
Regresja karana i rzadkie modele
Metody takie jak LASSO wykonują jednocześnie kurczenie i selekcję, poprawiając uogólnienie poza próbką w ustawieniach wysokowymiarowych (Tibshirani, 1996; zmieniające się w czasie rozszerzenia pojawiają się w makrach i finansach, np. Kapetanios i in., 2018).
Wybór i uśrednianie zmiennej bayesowskiej
Priory typu spike-and-slab umożliwiają włączenie probabilistyczne i uwzględniają niepewność modelu, często dając silniejsze wyniki predykcyjne, gdy na stole jest wielu kandydatów i opóźnień (George i McCulloch, 1993; przegląd w Ishwaran i Rao, 2005; aplikacje i oprogramowanie w bsts).

Egzogenna pułapka, dlaczego traktowanie kierowców jako egzogennych może wyciekać przyszłość

Wiele modeli uczenia maszynowego i serii czasowej traktuje sterowniki (zmienne niezależne) jako egzogenne. Jeśli oceniasz takie modele na podstawie rzeczywistych przyszłych wartości dla kierowców, wyciekasz informacje, które zwiększają widoczną dokładność. Ocena szeregów czasowych musi wykorzystywać toczne lub rozszerzające się początki i musi symulować zestaw informacji, który był dostępny w dacie prognozy, aby uniknąć błędu patrzenia w przyszłość (Hindman, Prognozowanie: zasady i praktyka; patrz przykłady TsCV i rolling-origin w Hewamalage i in., 2022, i praktyczny przewodnik w Blog Hyndmana).

Ekonometria w dużej mierze odeszła od traktowania wielu makro sterowników jako egzogennych w latach 70. i 80. Christophera Simsa”Makroekonomia i rzeczywistość” proponowane autoregresje wektorowe, w których wszystkie zmienne są modelowane wspólnie jako endogenne. Nagroda Sveriges Riksbank w dziedzinie nauk ekonomicznych w 2011 roku doceniła Simsa i Sargenta za metody empiryczne, które pokazują, jak propagują się wstrząsy, w tym VAR (Komunikat prasowy Nagrody Nobla, 2011; tło w Christiano, 2012). Wspólne modelowanie systemu zmusza również do prognozowania sterowników, co usuwa wyciek, który pojawia się podczas podawania zrealizowanych wartości egzogennych do fałd testowych.

Jak wygląda dobry wybór zmiennych w 2025 roku

Zdefiniuj cele decyzyjne
Dopasuj wskaźniki KPI, takie jak RMSE, MAE lub MASE, do kosztów i horyzontów biznesowych oraz oceniaj za pomocą procedur rolling-origin, aby zobaczyć prawdziwy błąd w czasie podejmowania decyzji (FPP3 a Hewamalage i in., 2022).
Szukaj szeroko, a następnie zmniejsz
Zbieraj funkcje kandydatów, np. opóźnienia, sygnały kalendarza, pogodę, ceny, manekiny polityczne i zastosuj karę lub wybór bayesowski, aby kontrolować wariancję przy zachowaniu sygnału (Tibshirani, 1996; George i McCulloch, 1993).
Preferuj modele systemów, gdy kierowcy poruszają się razem
Kiedy predyktory i cele wpływają na siebie nawzajem, przejdź do VAR lub VECM, aby sterowniki były prognozowane, a nie zapożyczone z przyszłości (Modele statyczne VAR; R Wars pakiet).
Określ ilościowo realne zyski
Rejestruj zmiany zestawu funkcji z ich wpływem poza próbką. W energetycznych szeregach czasowych lepsza inżynieria funkcji pogodowych przynosi wymierne zyski, na przykład wspomnianą powyżej poprawę od 3,7 do 5,2 procent (Informatyka Energetyczna, 2023). Podobne badania specyficzne dla dziedziny potwierdzają, że ukierunkowane sygnały egzogenne zwiększają dokładność, gdy są obsługiwane prawidłowo (Końcówka MIT CTL, 2024).

Implementacja wyboru zmiennych, trzy praktyczne ścieżki

1) Otwarty, programowy przepływ pracy
Jeśli potrzebujesz pełnej kontroli i audytowalności:

Python, ukarany i bayesowski
Użyj scikit-nauka do LASSO i siatki elastycznej, lub pystan a PyMC dla modeli bayesowskich. W przypadku modelowania systemu, mody statyczne VAR API obsługuje wybór zleceń opóźnień i prognozowanie wieloetapowe, co zapobiega wyciekom poprzez wspólne prognozowanie wszystkich serii (Statsmodels VAR docs; przegląd w statsmodels VAR przewodnik).
R, stopniowe i kolczaste i stropowe
MASA: :Stepaic zapewnia stopniowe wyszukiwanie oparte na AIC, podczas gdy bsts implementuje priorytety kolców i płytek, które wykonują wybór zmiennych bayesowskich i uśrednianie modelu, szczególnie przydatne w przypadku wielu opóźnień i wskaźników kandydatów (StepAic; bsts instrukcja obsługi). W przypadku modelowania systemu, Wars pakiet szacuje VAR, SVAR i VECM i obejmuje odpowiedzi impulsowe i FEVD do diagnostyki (KRAN Wars).

2) Ustrukturyzowana ocena dokładności bez wycieków
Bez względu na łańcuch narzędzi, egzekwuj ocenę pochodzenia rolkowego i zabraniaj używania zrealizowanych przyszłych egzogennych danych wejściowych w fałdach walidacyjnych. Teksty i notatki Hyndmana zawierają konkretne, powtarzalne ustawienia oceny wielohoryzontowej i TsCV (FPP3; Samouczek TsCV; przegląd metodologiczny w Hewamalage i in., 2022).

3) Platformy bez kodu dla szybkości i zasięgu
Dla zespołów, które chcą szerokiego zakresu modeli i nowoczesnego wyboru bez pisania kodu, platformy takie jak Wskaźnik zautomatyzuj wyszukiwanie zmiennych, przekształcenia funkcji i benchmarking w modelach statystycznych, ekonometrycznych i ML, a następnie operacjonalizuj najlepsze konfiguracje z odpowiednim testowaniem wstecznym, a wszystko to za pomocą przyjaznego dla użytkownika interfejsu (Wskaźnik, wybór zmiennej). Narzędzia z tej kategorii są zaprojektowane tak, aby szybko poprawiać mierzalną dokładność, przy jednoczesnym wymuszeniu oceny bez wycieków i powtarzalnych rurociągów.

‍

Łącząc je, czysty, wolny od wycieków rurociąg selekcyjny

Kurator swojego zestawu kandydatów
Funkcje oparte na domenie, struktury opóźnień, interakcje i transformacje, w tym dane zewnętrzne, takie jak pogoda lub kalendarze zasad, w stosownych przypadkach, ponieważ często przynoszą one realne korzyści w praktyce (Informatyka Energetyczna, 2023; Hongkong, 2015).
Uruchamianie zaznaczania za pomocą skurczu lub priorytetów bayesowskich
Użyj penalizacji, aby ustabilizować szacunki lub spike-and-slab, aby uchwycić niepewność modelu (Tibshirani, 1996; bsts).
Preferuj VAR, gdy przyczynowość działa w obie strony
Współewoluujące czynniki i cele powinny wejść do wspólnego systemu, aby uniknąć założeń egzogeniczności i stronniczości spojrzenia na przyszłość (Simowie, 1980; Nagroda Nobla, 2011).
Oceń dokładnie tak, jak będziesz działać
Ocena bieżąca lub wstępna z prawidłowym zestawem informacji, a nie losowymi podziałami, więc zgłoszone zyski utrzymują się w produkcji (Hyndman TsCV; Hewamalage i in., 2022).

Podsumowując

Wybór zmiennej nie jest polem wyboru, jest podstawą dokładnego i wiarygodnego prognozowania. Połącz nowoczesną selekcję, kurczenie i uśrednianie bayesowskie z modelami systemu, gdy kierowcy i cele poruszają się razem, oceniaj za pomocą protokołów odpornych na wycieki, a otrzymasz prognozy, które będą gotowe do produkcji. Jeśli cenisz szybkość od uderzenia, rozważ platformę bez kodu, taką jak Indicio, aby zautomatyzować podnoszenie ciężarów, przy jednoczesnym przestrzeganiu oceny i wdrażania najlepszych praktyk (Wskaźnik).

‍

Wybór zmiennych do prognozowania, od wykresów i intuicji po algorytmy wyszukiwania oparte na danych

Krótki harmonogram doboru zmiennych w prognozowaniu

Egzogenna pułapka, dlaczego traktowanie kierowców jako egzogennych może wyciekać przyszłość

Jak wygląda dobry wybór zmiennych w 2025 roku

Implementacja wyboru zmiennych, trzy praktyczne ścieżki

Łącząc je, czysty, wolny od wycieków rurociąg selekcyjny

Podsumowując

Poznaj więcej naszych postów na blogu

Selekcja zmiennych w prognozowaniu: Metody, korzyści i najlepsze praktyki (2026)

Więcej wskaźników, gorsze prognozy? Przeciwna intuicji prawda kryjąca się za systemem gwiazdek Indicio

Prognozowanie w punkcie błysku: czego kryzys w Iranie uczy nas o zwinności

Wirtualne demo

Zobacz naszą demonstrację klików