Prognozowanie było kiedyś grą liczb – wybierz metodę, dopasuj ją, dostarcz szacunek punktowy, idź dalej. Poważne zespoły już tak nie pracują. Teraz zadaniem jest ustalenie, które sygnały rynkowe faktycznie mają znaczenie, które z nich reagują jako pierwsze i czy są wartościowe, gdy włączysz je do odpowiedniego modelu.
To jest luka, którą Indicio zostało stworzone, aby wypełnić. To platforma prognozowania, która udostępnia podejścia ekonometryczne, AI i uczenia maszynowego zespołom, które nie chcą pisać kodu ani nadzorować potoków danych – zbudowana wokół zautomatyzowanego prognozowania, testowania wstecznego, analizy wskaźników wyprzedzających i wyjaśnialnych wyników. (indicio.com)
Jedna funkcja po cichu wykonuje dużą część pracy: analiza wskaźników wpływu gwiazdek. Wskaźniki są oceniane gwiazdkami, dzięki czemu na pierwszy rzut oka widać, które z nich mają rzeczywistą wagę predykcyjną. Więcej gwiazdek, silniejszy sygnał. Ale w tym systemie kryje się mniej oczywista lekcja:
Więcej gwiazdek to lepiej. Więcej wskaźników to niekoniecznie.
Model oparty na dwóch lub trzech wysoko ocenionych wskaźnikach czasami przewyższy ten napakowany tuzinem przeciętnych. To nie jest błąd – to jest sedno.
Co robi analiza wpływu gwiazdek
Klasyfikuje wskaźniki wyprzedzające według tego, jak bardzo faktycznie pomagają w prognozie. Więcej gwiazdek oznacza silny sygnał. Mniej gwiazdek, użyteczne, ale w mniejszym stopniu. Jedna gwiazdka, marginalne.
Celem nie jest gromadzenie wskaźników. Chodzi o znalezienie tych, które konsekwentnie poprawiają prognozę. Większość firm dysponuje znacznie większą liczbą potencjalnych czynników niż jest w stanie wykorzystać – dane makro, sygnały popytu, ceny, łańcuch dostaw, trendy wyszukiwania, pogoda, sentyment, ruchy konkurencji. Niektóre wyprzedzają cel. Niektóre opóźniają. Niektóre są duplikatami w innym przebraniu. Widok gwiazdek przebija się przez stos i ujawnia te nieliczne dane wejściowe, które zasługują na swoje miejsce.
Dlaczego więcej gwiazdek to lepiej
Wyższa ocena gwiazdkowa oznacza, że wskaźnik wykazał rzeczywisty, użyteczny związek ze zmienną, którą prognozujesz – lepsze wyczucie czasu, ściślejsze powiązanie statystyczne, silniejsze wyniki poza próbą, bardziej spójne zachowanie.
Nic z tego nie jest nowe. Literatura statystyczna mówi o tym od dziesięcioleci. Oryginalna praca Tibshiraniego na temat Lasso dowiodła: redukcja i selekcja dają model, który jest zarówno interpretowalny, jak i dobrze zachowujący się. (OUP Academic) W szeregach czasowych stawka jest wyższa – masz do czynienia z szumem, zmianami strukturalnymi, sezonowością i zmiennymi relacjami. Dobry wskaźnik wyprzedzający musi robić więcej niż tylko zgadzać się z historią. Musi pomagać przewidywać okresy, których model nie widział.
Dlaczego dwa lub trzy wskaźniki mogą być lepsze niż dziesięć
To wydaje się nielogiczne. Więcej informacji powinno oznaczać lepsze prognozy, prawda? Niekoniecznie. Modele prognozowania nagradzają użyteczną objętość, a nie surową objętość. Nagromadzenie wskaźników powoduje, że kilka rzeczy idzie nie tak:
- Wkrada się szum. Słabe wskaźniki dodają wariancji, której model nie jest w stanie oddzielić od sygnału.
- Model nadmiernie dopasowuje się. Zapamiętuje wzorce, które się nie powtarzają.
- Zmienne się pokrywają. Połowa wskaźników mówi to samo, a model liczy podwójnie.
- Kończy się historia. Krótkie szeregi nie mogą wspierać szerokiego zestawu zmiennych.
- Tracisz narrację. Trzy jasne dane wejściowe są łatwe do wyjaśnienia. Dwadzieścia niejasnych to czarna skrzynka, nawet gdy działają.
Badania nad Lasso i pokrewnymi metodami prowadzą do tego samego wniosku: wybór najbardziej informatywnych predyktorów sprawia, że modele są zarówno dokładniejsze, jak i bardziej stabilne. (Proceedings of Machine Learning Research)
Dlaczego modele preferują uboższy zestaw wskaźników
Wiele modeli prognozowania aktywnie unika niepotrzebnej złożoności, zwłaszcza w wielowymiarowych szeregach czasowych. Każdy nowy wskaźnik dodaje kolejny zestaw relacji do oszacowania.
Indicio oferuje szeroką bibliotekę – VAR, Structural VAR, VECM, VARX Lasso, VARMA, ARDL, VARX Lag Group Lasso, VAR Elastic Net, HVAR, BVAR, TVP BVAR with stochastic volatility, Markov Switching VAR, MIDAS, Random Forest VAR i inne. Wszystkie wymagają zdyscyplinowanych danych wejściowych. VAR i BVAR toną w parametrach, gdy tylko przesuniesz je w wysokie wymiary; literatura dotycząca bayesowskich modeli VAR zaleca redukcję w celu utrzymania stabilności oszacowań. (ScienceDirect) Lasso i Elastic Net rozwiązują to z innej perspektywy – Lasso sprowadza słabe współczynniki do zera, Elastic Net radzi sobie ze skorelowanymi predyktorami. (OUP Academic)
Dlatego model może zdecydować się na garść wysoko ocenionych wskaźników. Nie odrzuca informacji. Chroni prognozę przed słabymi, zbędnymi lub niestabilnymi danymi wejściowymi.
Gwiazdki sprawiają, że prognoza jest wyjaśnialna
Sama dokładność nie wystarczy. Zespoły prognozujące muszą wyjaśnić to, co przedstawiają kierownictwu. (indicio.com) Zamiast machać ręką na czarną skrzynkę, możesz wskazać wskaźniki, które wykonują pracę, i powiedzieć dlaczego:
„Prognoza poprawia się, ponieważ model wychwycił trzy silne wskaźniki wyprzedzające o dużym wpływie gwiazdek.”
To trafia do działów finansów, sprzedaży, łańcucha dostaw i zespołu wykonawczego. Brzmi to jak rozumowanie, a nie magia.
Testowanie wsteczne jest bezdyskusyjne
Ocena gwiazdkowa nie powinna pochodzić z przeczucia. Wskaźniki muszą być testowane pod kątem rzeczywistych wyników historycznych – testowanie wsteczne, ocena z ruchomym punktem początkowym, walidacja krzyżowa szeregów czasowych. Ocena szeregów czasowych musi uwzględniać czas: trenuj na przeszłości, testuj na przyszłości, nigdy nie tasuj danych tak, jak w standardowym uczeniu maszynowym. Ocena z ruchomym punktem początkowym jest jednym z bardziej uczciwych sposobów symulowania prognozowania w czasie rzeczywistym. (Springer)
Wskaźnik oznaczony gwiazdką ma wagę, ponieważ nie jest to „uważamy, że to ma znaczenie”. To jest „model widział ten sygnał w historii i uznał go za użyteczny”.
Kiedy więcej wskaźników faktycznie pomaga
Mało nie zawsze znaczy lepiej. Stock i Watson pokazali, że gdy wiele predyktorów dzieli wspólną strukturę czynnikową, można je skompresować do kilku czynników i na ich podstawie prognozować. (stock.scholars.harvard.edu) Haczyk: każdy dodatkowy wskaźnik musi wnosić coś nowego. Dziesięć wskaźników śledzących ten sam ruch to nie dziesięć wskaźników – to jeden sygnał z redundancją. System gwiazdek pozwala odróżnić więcej danych od lepszych danych.
Spójny przepływ pracy
- Rozrzuć szeroką sieć w poszukiwaniu potencjalnych wskaźników.
- Wydobądź te z wysoką oceną gwiazdkową.
- Testuj modele wstecznie na ich podstawie.
- Pozwól modelowi skłaniać się ku najsilniejszym, najbardziej stabilnym sygnałom.
- Użyj widoku gwiazdek, gdy musisz wyjaśnić prognozę.
- Odświeżaj w miarę napływu nowych danych.
Dlaczego to ma znaczenie dla biznesu
Prognozowanie biznesowe zazwyczaj zawodzi na jeden z dwóch sposobów – zespoły zbyt mocno ufają swojej intuicji, albo nadmiernie komplikują model zmiennymi marginalnymi. Indicio zostało stworzone, aby ograniczyć oba te problemy, łącząc poważne metody akademickie z użytecznością, której faktycznie potrzebują zespoły prognozujące. (indicio.com) Dla decydentów korzyści są konkretne: większa dokładność, wcześniejsze odczyty zmian rynkowych, prognozy, których można bronić na spotkaniu, i mniej czasu spędzonego na ręcznym przeglądaniu wskaźników.
Wnioski
Prognozowanie nagradza jakość ponad ilość. Wskaźnik z trzema gwiazdkami jest wartościowy, ponieważ wnosi rzeczywisty sygnał predykcyjny. Prognoza oparta na dwóch lub trzech takich wskaźnikach często przewyższy tę zbudowaną na długiej liście słabych.
Więcej gwiazdek to lepiej. Ale najlepsza prognoza to nie ta z największą liczbą wskaźników. To ta z właściwymi.


