Przestań zgadywać kierowców: Przewodnik po automatycznym wyborze zmiennych w prognozowaniu

Read time
4 min
CATEGORY
Forecasting software

Był czas, kiedy wybór zmiennych prognozowania wydawał się formą sztuki, a dokładniej, wykształconym przypuszczeniem. Złapałbyś kilka opóźnień, może trochę danych CPI, wrzuciłbyś fikcyjną zmienną na wakacje i liczysz na najlepsze.

Ale w świecie, w którym tonimy w danych, to ręczne podejście nie tylko słabo skaluje się; aktywnie szkodzi dokładności. Kiedy patrzysz na setki potencjalnych predyktorów (opóźnienia, średnie toczne, pogoda, trendy makro), „hałas” ostatecznie zagłusza „sygnał”.

Celem nowoczesnego wyboru zmiennych nie jest tylko automatyzacja żmudnego zadania. Chodzi o zbudowanie modelu, który przetrwa zmianę reżimu. Badania z Międzynarodowy Dziennik Prognozowania Zgodnie z najnowszymi dokumentami roboczymi EBC konsekwentnie pokazują, że techniki takie jak Lasso i selekcja bayesowska mogą zmniejszyć błąd prognozy o 40% lub więcej.

Jeśli chcesz przejść poza modele statyczne, oto jak obecnie się psuje rynek.

Co właściwie rozumiemy przez „automatyczny wybór”

W rzeczywistym stosie prognozowania automatyczny wybór nie jest funkcją „jednego i gotowego”. Jest to ciągły filtr, który pyta:

  • Co się liczy w tej chwili? (Czy zeszłoroczny kierowca nadal ma znaczenie po szoku w łańcuchu dostaw?)
  • Czy to jest zbędne? (Jeśli mam 3-miesięczną średnią toczącą, czy naprawdę potrzebuję 4-miesięcznej średniej?)
  • Gdzie jest overfit? (Jak powstrzymać model przed ściganiem duchów w 500-kolumnowym zestawie danych?)

Większość wiodących platform rozwiązuje to poprzez Regularyzacja (zmniejszenie nieistotnych współczynników do zera), Zautomatyzowana inżynieria funkcji (podejście „fabryka elementów”), lub Wybór bayesowski (traktowanie włączenia zmiennej jako prawdopodobieństwa).

Heavy Hitters: ocena rynku

1. Giganci AutoML: DataRobot & H2O.ai

Jeśli chcesz doświadczenia „wszystko w jednym”, są to dwa, na które większość ludzi patrzy najpierw.

  • DataRobot jest w rzeczywistości fabryką funkcji. Doskonale sprawdza się w pobieraniu surowego zestawu danych i generowaniu tysięcy permutacji szeregów czasowych (opóźnień, transformacji) przed ich filtrowaniem. Jest świetny dla zespołów, które chcą zarządzanego, szybkiego przepływu pracy.
  • Bezsterownikowa sztuczna inteligencja H2O podąża podobną ścieżką „agresywnej automatyzacji”. Jest szczególnie mocny, jeśli czujesz się komfortowo z rurociągami ciężkimi ML i potrzebujesz głębokiej inżynierii funkcji.

Rub: Oba mogą wydawać się trochę jak „czarna skrzynka”. Jeśli chcesz wyjaśnić dlaczego zmienna została upuściona do sceptycznego dyrektora finansowego, może brakować przejrzystości.

2. Ekosystemy w chmurze: Azure, Vertex AI i AWS

Jeśli Twoje dane już żyją w chmurze, „ścieżką najmniejszego oporu” są zwykle natywne narzędzia, takie jak Platforma Azure AutoML albo Vertex AI Google.

  • Są fantastyczne dla MLOP i skalowania.
  • Prognoza Amazon jest nieco inna, jest to usługa zarządzana, która „absorbuje” powiązane zmienne.

Rub: Wybór zmiennych jest tutaj często „wyłaniającym się zachowaniem” treningu modelowego, a nie dedykowanym, przejrzystym krokiem. Otrzymujesz wynik, ale nie zawsze „dlaczego”.

3. Standard korporacyjny: SAS Viya

Dla osób pracujących w wysoce regulowanych branżach (bankowość, farmacja), SAS pozostaje złotym standardem zarządzania. Z powodzeniem przenieśli swój klasyczny rygor statystyczny w erę Viya, oferując wybór Lasso i Elastic Net klasy produkcyjnej. Jest stworzony z myślą o audytowności, chociaż często wymaga więcej „trzymania się za rękę” i inżynierii niż nowsze odtwarzacze AutoML.

Dlaczego „skok o 40% dokładności” jest faktycznie możliwy

Brzmi to jak banał marketingowy, ale 40% poprawa dokładności jest powszechnym punktem odniesienia przy przechodzeniu od wyboru ręcznego do automatycznego. Zwykle dzieje się tak, ponieważ:

  1. Redukcja hałasu: W końcu pozbywasz się zmiennych „śmieci”, które myląły twoje współczynniki.
  2. Częste ponowne oszacowanie: Automatyzacja pozwala na odbudowę modelu co tydzień lub miesiąc. Jeśli zmienna traci swoją moc predykcyjną, zostaje natychmiast zrzucona, a nie sześć miesięcy później podczas ręcznego przeglądu.
  3. Obsługa wysokowymiarowa: Ludzie nie potrafią realistycznie ważyć 200 zmiennych. Lasso może.

Specjalistyczna alternatywa: dlaczego zbudowaliśmy Indicio

Podczas gdy wielkie platformy starają się być wszystkim dla wszystkich, Wskaźnik został zbudowany specjalnie dla profesjonalistów prognozujących, którzy potrzebują rygoru a prędkość.

Większość narzędzi AutoML traktuje dane szeregów czasowych jak standardowy problem regresji. Nie. Priorytetowo ustaliliśmy metody, które prognozowanie badań faktycznie wspiera:

  • Wybór zmiennej bayesowskiej: Zamiast twardego „tak/nie” na zmiennej używamy włączenia probabilistycznego. Daje to znacznie lepsze radzenie sobie z niepewnością, kluczową dla zarządzania ryzykiem.
  • Przewidywanie pierwszego UX: Pozbyliśmy się „kanalizacji z nauki o danych”. Nie musisz pisać skryptu do obsługi opóźnień lub rolowanych okien; system rozumie czasowy charakter danych od pierwszego kroku.
  • Ciągłe odświeżanie: Indicio został zaprojektowany tak, aby podłączać się do źródeł danych i utrzymywać logikę wyboru „zawsze włączoną”. Wraz ze zmianą reżimów model dostosowuje się bez konieczności ręcznej interwencji.

Podsumowując

  • Jeśli potrzebujesz ogromnej platformy ML ogólnego przeznaczenia: Spójrz na DataRobot albo H2O.
  • Jeśli jesteś zablokowany w stosie chmury: Trzymaj się błękit albo Wierzchołek.
  • Jeśli potrzebujesz narzędzia zbudowanego przez prognostyków, dla prognostyków: Daj Wskaźnik spojrzenie.

Poznaj więcej naszych postów na blogu

Wirtualne demo

Zobacz naszą demonstrację klików

Poznaj łatwość i dokładność automatycznej platformy prognozowania Indicio z pierwszej ręki. Kliknij, aby rozpocząć wirtualną wersję demonstracyjną już dziś i dowiedzieć się, w jaki sposób nasze najnowocześniejsze narzędzia mogą usprawnić proces podejmowania decyzji.