Dlaczego rzucanie większej ilości danych do prognoz zwykle kończy się niepowodzeniem (i jak naprawia to wybór zmiennych)

Read time
4 min
CATEGORY
Forecasting software

Wszyscy tam byliśmy: Twój rurociąg prognozowania jest podłączony do ogromnej hurtowni danych. Masz dostęp do setek potencjalnych predyktorów - wskaźników makroekonomicznych, danych transakcyjnych, wzorców pogodowych, cen konkurencji, jak to nazwiesz.

Wydaje się, że więcej danych powinno automatycznie przekładać się na lepszą moc predykcyjną, prawda?

Źle. Rzucanie zlewu kuchennego na zautomatyzowany model prognozowania zwykle powoduje hałaśliwy bałagan. Prawdziwą sztuczką nie jest zbieranie większej ilości danych; to ustalenie, które zmienne faktycznie sprawa.

W tym miejscu wybór zmiennych staje się MVP twojego planu prognozowania. Systematycznie identyfikując tylko najbardziej pouczające predyktory, zaawansowane techniki selekcji pomagają zautomatyzowanym systemom tworzyć modele, które są dokładne, solidne i, co najważniejsze, możliwe do wyjaśnienia zainteresowanym stronom.

Zespoły, które przechodzą od ręcznego wybierania zmiennych do korzystania ze zautomatyzowanych, zoptymalizowanych statystycznie frameworków, często zauważają wzrost dokładności prognozy o 40% lub więcej. Oto spojrzenie na to, jak to działa pod maską, i dlaczego nowoczesne podejścia, takie jak selekcja bayesowska i Lasso, zmieniają grę.

Czym właściwie jest wybór zmiennych?

Mówiąc najprościej, zmienny wybór to proces bezwzględnego cięcia ciężaru martwego z twoich modeli.

Podczas tworzenia prognozy zmienne kandydatów mogą obejmować wartości opóźnione, wskaźniki ekonomiczne lub wydatki marketingowe. Ale nie każda zmienna pociąga swój ciężar. Niektóre wprowadzają szum, inne pokrywają się całkowicie z innymi zmiennymi (wielokoliniowość), a niektóre po prostu powodują nadmierne dopasowanie modelu. Wybór zmiennych działa jak filtr, zachowując tylko predyktory, które rzeczywiście poprawiają wydajność.

Dlaczego mniej jest zwykle więcej w prognozowaniu

Przycinanie listy zmiennych poprawia prognozy na cztery bardzo praktyczne sposoby:

  • Przecina hałas: Współczesne zbiory danych są pełne słabych lub całkowicie nieistotnych sygnałów. Jeśli dołączysz ich zbyt wiele, osłabiasz silne sygnały. Usuwanie śmieci znacznie poprawia stosunek sygnału do szumu.
  • Zabija nadmierne dopasowanie: Nadmierne dopasowanie ma miejsce, gdy model zapamiętuje historyczne dziwactwa, zamiast uczyć się rzeczywistych trendów. Ograniczając model do mniejszego, znaczącego zestawu predyktorów, wybór zmiennych zmusza model do zachowania oszczędności. Maszynka do golenia Occama ma tutaj duży wpływ: prostsze modele zwykle radzą sobie znacznie lepiej na przyszłych, niewidzialnych danych.
  • Utrzymuje rzeczy do wyjaśnienia: Spróbuj wyjaśnić CFO model 500 zmiennych. Nie możesz. Zmienny wybór daje rzadsze modele, dzięki czemu niezwykle łatwo jest dokładnie wskazać, które kluczowe sterowniki poruszają igłę.
  • Umożliwia automatyzację: Jeśli korzystasz z automatycznego systemu prognozowania, Twoje modele muszą stale przekwalifikować się, gdy nowe dane spadają. Po prostu nie można dokonać ręcznego wyboru zmiennej z tą prędkością. Automatyczny wybór pozwala systemowi ocenić tysiące predyktorów w locie i aktualizować model bez interwencji człowieka.

Heavy Hitters: Lasso i metody bayesowskie

Większość nowoczesnych platform prognozowania opiera się na kilku ciężkich metodach statystycznych, aby poradzić sobie z tym automatycznie.

Lasso Penalizacja

Pomyśl o Lasso (Least Absolute Shrinkage and Selection Operator) jako o bezwzględnym edytorze dla swojego zestawu danych. Działa poprzez dodanie kary do matematyki regresji, która dosłownie zmniejsza współczynniki bezużytecznych zmiennych do dokładnie zera.

Jest to jedna z najpopularniejszych technik, ponieważ jednocześnie szacuje parametry i usuwa zmienne śmieci, pozostawiając czysty, dokładny model.

Wybór zmiennej bayesowskiej

Metody bayesowskie przyjmują nieco bardziej zniuansowane podejście. Zamiast próbować znaleźć jeden „idealny” model, selekcja bayesowska szacuje prawdopodobieństwo różnych kombinacji zmiennych.

Jest to niezwykle przydatne, ponieważ pozwala analitykom zobaczyć niepewność, czy predyktor jest istotny, czy nie. Jest szczególnie potężny w wysokowymiarowych zbiorach danych, w których tradycyjne metody selekcji mają tendencję do dławienia się.

Buduj to bez utraty umysłu

Oto haczyk: wdrażanie metod bayesowskich lub Lasso od podstaw wymaga poważnych statystyk i dużej ilości niestandardowej infrastruktury inżynieryjnej.

Właśnie dlatego platformy takie jak Indicio zyskują popularność wśród specjalistów prognozujących. Zamiast samodzielnie budować rurociąg, Indicio integruje te najnowocześniejsze techniki selekcji od razu po wyjęciu z pudełka.

Dzięki takim platformom otrzymujesz:

  • Wbudowane narzędzia Bayesowskie i Lasso aby automatycznie identyfikować wiodące wskaźniki i zrzucić hałas.
  • automatyczne ponowne oszacowanie, Oznacza to, że Twoje modele automatycznie przekwalifikowują i ponownie wybierają zmienne, gdy drugie nowe dane z serwerów wewnętrznych lub dostawców zewnętrznych trafią do systemu.
  • Skalowalna integracja danych, umożliwiając wrzucanie wewnętrznych danych operacyjnych, wskaźników makro i sygnałów rynkowych do miksu, ufając oprogramowaniu, aby ustalić, co faktycznie pomaga w prognozowaniu.

Prognozowanie odchodzi od ręcznie modyfikowanych modeli w kierunku w pełni zautomatyzowanych, opartych na danych rurociągów. Jeśli chcesz skorzystać z ogromnych zestawów danych bez ograniczania dokładności, automatyzacja wyboru zmiennych jest nie tylko miłą rzeczą; jest obowiązkowa.

Poznaj więcej naszych postów na blogu

Wirtualne demo

Zobacz naszą demonstrację klików

Poznaj łatwość i dokładność automatycznej platformy prognozowania Indicio z pierwszej ręki. Kliknij, aby rozpocząć wirtualną wersję demonstracyjną już dziś i dowiedzieć się, w jaki sposób nasze najnowocześniejsze narzędzia mogą usprawnić proces podejmowania decyzji.