Prognozowanie prawdopodobieństwa wyników wyborów prezydenckich w 2024 r. przy użyciu uczenia maszynowego

Published in

Official Allora Community

8 min readAug 8, 2024

Aleksander Huang, 8 lipca 2024 r. // Korekta tłumaczenia: Bart Zmuda

Przewidywanie wyników wyborów prezydenckich to fascynujące wyzwanie, które od dziesięcioleci przyciąga uwagę naukowców zajmujących się danymi, statystyków i analityków politycznych. Wybory prezydenckie w USA w 2024 r. nie są wyjątkiem. W 2008 r. Nate Silver spopularyzował podejście oparte na danych do prognozowania wyborów poprzez agregowanie sondaży i stosowanie rygorystycznej analizy statystycznej. Metody te okazały się dość skuteczne, ale wiążą się z nieodłącznymi ograniczeniami, takimi jak poważne błędy w sondażach i trudności w uwzględnianiu nieoczekiwanych zdarzeń. Silver próbował kontrolować te czynniki za pomocą rankingów ankieterów , które w pewien sposób próbują kontrolować błędy sondażowe, ale co się dzieje, gdy prawie cały wszechświat ankieterów jest stronniczy w tym samym kierunku? Prowadzi to do katastrofalnych niepowodzeń modeli, jak w historycznych wyborach w 2016 r., kiedy FiveThirtyEight przyznał Hillary Clinton 71% prawdopodobieństwa wygranej .

Zamiast tego zdecydowałem się na modelowanie podstawowych czynników wpływających na wyniki sondaży, wykorzystując moc uczenia maszynowego, aby przewidzieć wybory z jeszcze większą dokładnością. W przeciwieństwie do tradycyjnych metod statystycznych, ML może obsługiwać ogromne i złożone zestawy danych, ucząc się i dostosowując w miarę napływania nowych informacji. Ta adaptacyjność sprawia, że jest ona szczególnie dobrze przystosowana do dynamicznej i często nieprzewidywalnej natury wyborów.

Ten model zostanie zintegrowany za pośrednictwem Allora Network, jako część nowego tematu mającego na celu agregację wielu modeli w celu uzyskania najdokładniejszych prognoz wyborczych. Dzięki Allora możemy asymilować wiele modeli predykcyjnych i zestawów danych, aby stworzyć model, który jest większy niż suma jego części. Ta integracja zwiększa solidność i dokładność naszych prognoz wyborczych poprzez wykorzystanie różnych źródeł danych i technik modelowania w ramach ujednoliconych ram.

Definicja problemu

Przewidywanie wyników wyborów prezydenckich nie jest tak proste, jak zgadywanie, kto wygra głosowanie powszechne. System Kolegium Elektorów w Stanach Zjednoczonych wyznacza 51 oddzielnych wyścigów (50 stanów plus Waszyngton DC). Każdy wyścig przyczynia się do wyniku krajowego, co czyni go złożoną układanką, w której każdy element ma znaczenie.

Kluczowe kwestie:

Wybory w poszczególnych stanach: Każdy stan ma swój własny, unikalny krajobraz polityczny, strukturę demograficzną, gospodarkę i prawa wyborcze, przez co przewidzenie wyników wyborów w każdym stanie stanowi wyjątkowe wyzwanie.
Agregacja krajowa: Całkowity wynik wyborów zależy od systemu kolegium elektorów, a nie tylko od głosów powszechnych, co dodaje poziom złożoności do zadania przewidywania.

Wybór źródeł danych

Włączyłem różne źródła danych, aby zbudować solidny model ML do przewidywania wyników wyborów. Obejmują one:

Historyczne dane sondażowe: Zebrałem dane dotyczące aprobaty prezydenckiej sięgające lat 40. XX wieku. Oto rozkład „Aprobaty — Nieaprobaty” dla ostatnich 15 prezydentów:

Następnie, odwracając znak dla jednej partii, możemy uzyskać „wskaźnik nastrojów narodowych”, który pokazuje, czy kraj jako całość skłania się ku lewicy czy prawicy:

2. Dane makroekonomiczne: „To gospodarka, głupcze!”

Kampania Billa Clintona ukuła to wyrażenie w cyklu wyborczym w 1992 r. Lata wyborcze, zwłaszcza te, w których urzędujący prezydent ubiega się o reelekcję, są osądem tego, jak partia urzędująca radziła sobie w pierwszej kadencji. Bez względu na to, jak bardzo politycy próbują wykorzystać kwestie sporne, aby pozyskać wyborców na swoją stronę, wyborcy reagują na ból w swoich portfelach.

Oto wskaźniki aprobaty dla prezydenta zestawione z 12-miesięczną inflacją. Te dwie serie mają korelację -.28, co sprawia, że inflacja jest istotnym czynnikiem determinującym wyniki wyborów. W szczególności, gdy inflacja osiąga wartości ekstremalne (>7%), średni spread aprobaty jest o 22 punkty niższy niż wtedy, gdy inflacja jest pod kontrolą. Jest to szczególnie istotne w wyborach w 2024 r., gdy inflacja osiąga 40-letnie maksima. Oprócz inflacji, przyglądamy się również wskaźnikom bezrobocia i dostępności mieszkań w każdym stanie.

3. Historyczne wybory stanowe

Wyniki poprzednich wyborów na poziomie stanowym dostarczają cennych informacji na temat wzorców głosowania. Stany mają tendencję do głosowania zgodnie z historycznymi liniami z niewielkimi odchyleniami. Obliczamy długoterminowe średnie dla każdego stanu, a także trendy, które mogą nam powiedzieć, czy stan będący polem bitwy się odwróci.

4. Historyczne wybory do Izby Reprezentantów

Podczas gdy wybory prezydenckie odbywają się co cztery lata, wybory do Izby Reprezentantów odbywają się co dwa lata. Daje nam to zaawansowany wgląd w trendy, które mogą się ujawnić w cyklu wyborów prezydenckich.

5. Dane demograficzne dotyczące ras

Preferencje wyborców różnią się znacznie w zależności od grupy rasowej. Biali wyborcy faworyzują Partię Republikańską o 15%, podczas gdy czarni wyborcy faworyzują Partię Demokratyczną o około 60% (choć ta tendencja zaczyna się zmieniać ). Zebrałem dane demograficzne, aby uchwycić tę dynamikę, a także podstawowe trendy.

W wielu stanach obserwujemy ogólną tendencję zmniejszania się populacji białej oraz wzrostu populacji czarnej, Latynosów i Azjatów.

6. Geografia

Stany dzielą wartości i podobieństwa kulturowe z innymi w swoim obszarze geograficznym. Na przykład Maine, Connecticut, New Hampshire i Vermont mają wspólne nowoangielskie tło kulturowe jako kolonie pielgrzymów. Z kolei stany Głębokiego Południa, takie jak Missisipi, Alabama i Georgia, mają inne tło kulturowe oparte na ich gospodarce agrarnej i historii rasowej.

7. Liczba nielegalnych imigrantów, prawa dotyczące identyfikatorów wyborców i status głosowania korespondencyjnego

Pomimo ciągłych twierdzeń głównego nurtu mediów, że oszustwa wyborcze nie istnieją, nie trzeba być geniuszem danych, aby zauważyć, że brak identyfikatorów wyborców plus duża populacja nielegalnych imigrantów może mieć nielegalny wpływ na wyniki wyborów. Rzeczywiście, gdy nanosimy populację nielegalnych imigrantów na wyniki wyborów, otrzymujemy następujące dane:

Przy korelacji na poziomie -0,24 liczba nielegalnych imigrantów jest niemal tak samo silnym wskaźnikiem jak inflacja.

Wybór zmiennej docelowej

Wybór zmiennej docelowej jest kluczowy dla zbudowania efektywnego modelu ML. W tym zadaniu bierzemy pod uwagę kilka potencjalnych zmiennych docelowych:

Spread (RD): Różnica w podziale głosów między kandydatami Partii Republikańskiej i Demokratycznej.
Odchylenie od średniej krajowej: W jaki sposób wyniki poszczególnych stanów odbiegają od średniej krajowej.
Odchylenie od średnich długoterminowych: Porównanie bieżących wyników z historycznymi wynikami głosowania w poszczególnych stanach.

Więc jaki cel wybieramy? Ostatecznie chciałem uchwycić dynamikę wyborów z jak największej liczby kątów, więc stworzyłem modele dla wszystkich tych odpowiedzi, a następnie wziąłem średnią ze wszystkich wynikowych przewidywań.

Podczas szkolenia modelu musimy pamiętać o ważeniu próbek, ponieważ nie każdy stan jest sobie równy. Bardziej zaludnione stany, takie jak Kalifornia i Teksas, mają więcej głosów elektorskich niż te słabo zaludnione, takie jak Wyoming czy Dakota Północna, co oznacza, że ich próbki muszą być ważone wyżej w szkoleniu. Ponadto zmiany reżimu zachodzą w danych, gdy naród reaguje na pojawiające się problemy (takie jak innowacje technologiczne, napięcia geopolityczne, zmiany demograficzne lub nielegalna imigracja). Z tego powodu musimy nadać większą wagę próbce niedawnych wyborów niż tym z odległej przeszłości. Postanowiłem to zrobić, używając wykładniczego schematu ważenia.

W tym momencie mam 3 różne cele, plus różne wybory dla parametru ważenia wykładniczego, co daje dużą liczbę potencjalnych modeli. Biorąc prostą średnią ze wszystkich przewidywań, otrzymujemy następujące wyniki:

Ważne jest, aby pamiętać, że musimy pilnie usuwać wszelkie uprzedzenia dotyczące przewidywania przyszłości, gdzie mogą się one wkraść. Wyniki wygenerowano przy użyciu danych spoza próby, aby lepiej zrozumieć, jak model będzie działał na żywo.

Obliczanie prawdopodobieństwa

Jednak to nie wystarczy, aby dokonać prognozy punktowej dla zwycięzcy wyborów. Chcemy określić ilościowo prawdopodobieństwo wygranej, więc użyłem regresji kwantylowej. Ta metoda pozwala nam przewidzieć spread na różnych poziomach prawdopodobieństwa. Badając, gdzie przecinają się przewidywane kwantyle dla Demokratów i Republikanów, możemy określić prawdopodobieństwo, że każdy stan zmieni zdanie w jedną lub drugą stronę. To podejście probabilistyczne daje nam bardziej szczegółową i solidną prognozę niż prosty binarny model wygrana/przegrana.

Etapy regresji kwantylowej:

Szkolenie modelu: Szkolenie modelu regresji kwantylowej na danych historycznych w celu przewidzenia kwantyli warunkowych pomiędzy 0 i 1 dla rozrzutu wyników wyborów (RD) w każdym stanie.
Agregacja wyników krajowych: Dla każdego kwantyla oblicz zwycięzcę w każdym stanie oraz w wyborach krajowych.
Znajdź kwantyl przecięcia: Znajdź kwantyl, w którym prawdopodobieństwo zwycięstwa Demokratów przecina się z prawdopodobieństwem zwycięstwa Republikanów.

Wynik

3 czerwca 2024 r. mój model przewidział 62,5% szans na zwycięstwo Republikanów i 37,5% szans na zwycięstwo Demokratów. Ważne jest, aby zauważyć, że te prawdopodobieństwa odzwierciedlają szanse całej partii na wygraną, a nie pojedynczego kandydata. Ponieważ Trump jest jedynym kandydatem w Partii Republikańskiej, całe 62,5% trafia do Trumpa. W Partii Demokratycznej jednak wiceprezydent i wielu gubernatorów czeka w cieniu jak stado głodnych sępów na wypadek, gdyby geriatryczny Biden nie dał rady . Wszyscy oni łącznie otrzymali przewidywane 37,5% szans na zwycięstwo.

W tym czasie akcje Trumpa na Polymarket były notowane po 0,53 USD, podczas gdy Biden znajdował się na poziomie około 0,38 USD, a Michelle Obama i Gavin Newsom mieli po kilka centów. Według naszego modelu Trump byłby niedowartościowany, a wszyscy Demokraci byliby przewartościowani. W ciągu czerwca akcje Trumpa wzrosły do 0,60 USD, aby dogonić prognozę naszego modelu. To byłby 13% zwrot w mniej niż cztery tygodnie! Świetnie.

(Nawiasem mówiąc, w momencie pisania tego tekstu, 2 lipca 2024 r., wyniki modelu wynoszą 62,5% dla Trumpa i 37,5% dla wszystkich Demokratów. Spodziewam się jednak, że sytuacja ta ulegnie zmianie po opublikowaniu wyników sondaży, które pokażą, jak Biden wypadł w pierwszej debacie CNN.)

Wniosek

Gdyby istniało jedno zajęcie, co do którego wszyscy zgodziliby się, że powinno zostać zastąpione przez AI, byliby to eksperci polityczni w telewizji sieciowej. Wyobraź sobie świat, w którym sezon wyborczy nie jest już wypełniony niezliczonymi godzinami gadających głów przekrzykujących się nawzajem w telewizji, ale w którym modele ML przedstawiają bezstronne analizy dotyczące tego, kto wygra i dlaczego. Jaką ulgą byłoby to dla wielu z nas cierpiących na zmęczenie wyborami!

Więc niezależnie od tego, czy jesteś entuzjastą uczenia maszynowego, politycznym maniakiem, czy po prostu osobą, która uwielbia patrzeć, jak technologia przesuwa granice tego, co możliwe, dołącz do nas w tej podróży. Zmieńmy wybory prezydenckie 2024 w spektakl oparty na danych, który jest równie ekscytujący, co wnikliwy.

o autorze

Alexander Huang jest starszym inżynierem ML w Allora Labs. Posiada doświadczenie w nauce o danych w fintech, tradycyjnych finansach i handlu, ostatnio pełnił funkcję wiceprezesa ds. nauki o danych w zespole AI Acceleration w JP Morgan. Alex ma tytuł magistra matematyki finansowej na Uniwersytecie Stanforda.