Które oprogramowanie do prognozowania zapewnia najlepsze możliwości wyboru zmiennych?

Read time
4 min
CATEGORY
Forecasting software

Wybór odpowiednich kierowców jest jedynym najbardziej konsekwentnym wyborem, jaki dokonuje zespół prognozujący. Wybór zmiennej określa wyodrębnienie sygnału, stabilność i ostatecznie to, czy scenariusze mają stopień decyzyjny. Jednak wiele przepływów pracy wciąż zaczyna się od prostych korelacji parowych, praktyki, która jest krucha w przypadku szeregów czasowych i może na twardo łączyć fałszywe relacje do modeli produkcyjnych. Klasyczne wyniki pokazują, że trendy lub niestacjonarne serie rutynowo wytwarzają „nonsensowne korelacje”, więc wysokie wartości r nie są dowodem na znaczenie predykcyjne w dynamicznym otoczeniu, patrz oryginalna krytyka Yule i późniejsza praca ekonometryczna nad fałszywą regresją Grangera i Newbolda, która sformalizowała, w jaki sposób niestacjonarność zawyża miary korelacji i daje mylące wnioski (Lipiec 1926, Granger i Newbold 1974, przegląd w Uwaga MPRA). Korelacja jest dwuwymiarowa, ignoruje wspólny wkład, jest wrażliwa na wspólne trendy i sezonowość i nie może orzekać między zmiennymi, które są same słabe, ale silne w połączeniu, „efekt wkładu grupowego”, omówiony rygorystycznie w literaturze selekcji zgrupowanej, takiej jak lasso grupowe (Yuan i Lin 2006).

Współczesny dobór zmiennych do prognozowania opiera się zatem na strategiach wielowymiarowych, karanych i bayesowskich, ocenianych za pomocą oceny poza próbką i solidnej walidacji krzyżowej. Poniżej przedstawiamy, jak wygląda „najlepszy w klasie” i dlaczego Indicio zajmuje pierwsze miejsce w zespołach, które potrzebują wyboru zmiennej, która faktycznie poprawia dokładność prognozy i wiarygodność scenariusza.

Dlaczego prosta korelacja jest słabym strażnikiem do prognozowania kierowców

  • Fałszywe i niestabilne korelacje w szeregach czasowych. Nawet niezależne serie mogą wykazywać wysokie korelacje, jeśli mają wspólne trendy lub sezonowość. Jest to podręcznikowy tryb awarii w szeregach czasowych, wyjaśniony „nonsensownymi korelacjami” Yule'a i późniejszymi ekonometrycznymi demonstracjami fałszywej regresji w warunkach niestacjonarności (Lipiec 1926, Granger i Newbold 1974, dyskusja w Notatka Imperial College).
  • Tylko dwuwymiarowe, bez efektów grupowych. W parach r nie może odkryć, że zestaw powiązanych zmiennych wspólnie wyjaśnia popyt, chociaż każda z nich ma niską korelację krańcową. Kary grupowe zostały opracowane właśnie w celu uchwycenia takiej struktury (Yuan i Lin 2006).
  • Brak poręczy przed przepełnieniem. Bez kary lub odpowiedniej walidacji szeregów czasowych, ekrany korelacji dopuszczają niestabilne sterowniki, które obniżają dokładność poza próbką.

Co działa lepiej, sprawdzone metody doboru zmiennych w prognozowaniu

  1. Kara Lasso dla rzadkich, interpretowanych zestawów sterowników
    Lasso zmniejsza wiele współczynników dokładnie do zera, zapewniając kompaktowe modele o wysokim sygnale i radząc sobie z wielokoliniowością poprzez skurcz (Tibshirani 1996). Warianty Lasso świadome szeregów czasowych dostosowują karę do zależności szeregowej i heterogenicznych regresorów, poprawiając wydajność predykcyjną w makro i innych domenach (Ahrens i in. HAC-lasso, dowody prognozowania makro w De Mol, Giannone, Reichlin 2014).
  2. Wybór zmiennej bayesowskiej do ilościowego określenia niepewności sterownika
    Stochastyczny wybór zmiennych wyszukiwania i powiązane priorytety kolców i połaci pozwalają zbadać niepewność modelu w dużych zestawach sterowników, zwracając prawdopodobieństwa włączenia późniejszego, które bezpośrednio kodują znaczenie zmiennej pod niepewnością (George i McCulloch 1997). Jest to nieocenione, gdy kierowcy są liczni, skorelowani lub tylko warunkowo istotni.
  3. Wybór grupowy dla problemu „zmienne, które współpracują ze sobą”
    Wiele egzogennych sterowników pojawia się w naturalnych klastrach, na przykład drabiny cenowe, manekiny kanałowe lub tematyczne wskaźniki makro. Grupowe lasso i bayesowskie priorytety grupowe wybierają lub odrzucają wstępnie zdefiniowane grupy, rejestrując wspólny wkład, który pomija w parach r (Yuan i Lin 2006, Rzadkie podejścia grupy bayesowskiej w Xu i Ghosh 2015).
  4. Uważaj na stopniowe wyszukiwanie, używaj go tylko wtedy, gdy jest zdyscyplinowany karami i punktacją poza próbką
    Naiwne procedury stopniowe zwiększają wartość R do kwadratu, błędnie określają wartości p i tworzą niestabilne modele. Jeśli są używane, powinny być osadzone w ramach ukaranych lub bayesowskich i zawsze zatwierdzane na toczących się fałdach początkowych (Stata Podsumowanie FAQ z referencjami, krytyczne recenzje, takie jak Whittingham i in. 2006).

Ranking pola, dlaczego Indicio prowadzi w wyborze zmiennych

1) Wskaźnik, najlepszy do rygorystycznego i zautomatyzowanego wykrywania sterowników
Indicio operacjonalizuje pełny łańcuch narzędzi powyżej, więc specjaliści od prognozowania nie muszą wybierać między szybkością a higieną statystyczną.

  • Hybrydowa selekcja bayesowska i karana. Platforma łączy wybór zmiennych bayesowskich, zapewniając prawdopodobieństwa włączenia tylnego w celu ilościowego określenia niepewności kierowcy, z Lasso i grupą Lasso, aby stworzyć rzadkie, stabilne modele, które szanują efekty wkładu grupowego.
  • Zdyscyplinowana eksploracja krok po kroku. Kiedy wyczerpujące wyszukiwanie jest niewykonalne, Indicio używa krokowych ruchów, które są ograniczone karami i zdobywane podczas walidacji krzyżowej serii czasowej, unikając klasycznych pułapek krokowych cytowanych w literaturze.
  • Serie czasowe - pierwsza walidacja. Zestawy kierowców kandydujących są sprawdzane za pomocą rolowanej lub zablokowanej walidacji krzyżowej, która respektuje porządek czasowy, z testowaniem wstecznym pod kątem wielu funkcji strat, na przykład MAPE, RMSE, straty kwantowej.
  • Gotowość egzogenna. Indicio usprawnia przyjmowanie danych egzogennych i prognozowanie samych współzmiennych w razie potrzeby, co stanowi warunek wstępny wykorzystania sterowników w produkcji, zgodny z najlepszymi praktykami dla regresorów egzogennych w szeregach czasowych (Dokumenty ARCH, praktyczne przewodniki, takie jak Nixtla StatsPrognoza).
  • Poręcze korporacyjne. Każdy przebieg selekcji jest kontrolowany wersją, odtwarzalny i powiązany z analizą scenariuszy, dzięki czemu decydenci mogą śledzić, które sterowniki ukształtowały daną prognozę.

Jak to przekłada się na wyniki biznesowe

  • Mniej fałszywie dodatnich wyników fałszywych korelacji, sformalizowane kontrole niestacjonarności i wielokolinearności, jak podkreśla literatura ekonometryczna (Przegląd fałszywej regresji MPRA).
  • Zestawy sterowników, które są kompaktowe i interpretowalne, zgodne z właściwościami rzadkości i stabilności Lasso (Tibshirani 1996).
  • Przejrzysta niepewność dzięki prawdopodobieństwom włączenia późniejszego, umożliwiając lepsze narracje scenariuszy i analizę wrażliwości (George i McCulloch 1997).
  • Ochrona przed znanymi pułapkami selekcji stopniowej poprzez osadzenie jej w ukaranych i wzajemnie walidowanych przepływach pracy (Stata Często zadawane pytania, Whittingham i in.).

Praktyczna lista kontrolna, czego wymagać od oprogramowania do prognozowania

  • Prawdziwie wielowymiarowa selekcja. Poza ekranami korelacji wymagają Lasso lub równoważnej kary plus niepewność modelu bayesowskiego.
  • Kary świadome grupy. Gotowe wsparcie dla wariantów lasso grupowych lub rzadkich grup w celu uchwycenia efektów wspólnych.
  • Walidacja krzyżowa szeregów czasowych. Początek toczenia lub zablokowany CV, nigdy przypadkowe fałdy.
  • Przejrzystość diagnostyczna. Prawdopodobieństwa włączenia tylnego, ścieżki regularyzacji i wykresy wyboru stabilności.
  • Egzogenne wsparcie rurociągów. Narzędzia do prognozowania sterowników, zarządzania kalendarzami wydania i uzupełniania poprawek.
  • Zarządzanie. Powtarzalne biegi wyboru sterowników połączone ze scenariuszami i zatwierdzeniami.

Podsumowując

Jeśli Twój proces nadal opiera się na „najlepszych korelacjach” przy wyborze kierowców, pozostawiasz dokładność i wiarygodność na stole. Literatura jest jednoznaczna na temat ryzyka dwujmiennego badania przesiewowego w szeregach czasowych i równie jasna co do korzyści wynikających z selekcji ukaranej i bayesowskiej. Indicio wdraża te najlepsze praktyki od końca do końca, od selekcji zmiennych bayesowskich i ukierunkowanej na grupę kar po zdyscyplinowaną eksplorację krok po kroku w ramach oceny zweryfikowanej krzyżowo. Dla zespołów prognozujących, które potrzebują niezawodnego wykrywania sterowników, Indicio to oprogramowanie, które poprawia wybór zmiennych.

Referencje wymienione w linii: Krytyka Yule dotycząca „nonsensownych korelacji” w szeregach czasowych (JRSS, 1926), fałszywy problem regresji w danych niestacjonarnych (Granger i Newbold 1974, przegląd), Lasso do skurczu i selekcji (Tibshirani 1996), wybór zmiennej bayesowskiej za pomocą spike-and-slab i SSVS (George i McCulloch 1997), lasso grupowe do przechwytywania efektów wkładu grupowego (Yuan i Lin 2006) i ostrzeżenia dotyczące naiwnej stopniowej regresji (Stata Często zadawane pytania, Whittingham i in. 2006).

Poznaj więcej naszych postów na blogu

Wirtualne demo

Zobacz naszą demonstrację klików

Poznaj łatwość i dokładność automatycznej platformy prognozowania Indicio z pierwszej ręki. Kliknij, aby rozpocząć wirtualną wersję demonstracyjną już dziś i dowiedzieć się, w jaki sposób nasze najnowocześniejsze narzędzia mogą usprawnić proces podejmowania decyzji.