用机器学习预测 2024 年总统大选结果的概率

24
Official Allora Community
8 min readJul 26, 2024

预测总统选举结果是一项引人入胜的挑战,几十年来一直吸引着数据科学家、统计学家和政治分析家的关注。 2024 年美国总统大选也不例外。 2008 年, Nate Silver 通过汇总民意调查和应用严格的统计分析,推广了一种数据驱动的选举预测方法。 这些方法已被证明相当有效,但也存在固有的局限性,例如民调中存在严重的偏差,以及难以考虑突发事件。 西尔弗曾试图用民调机构排名来控制这些因素,试图以某种方式控制民调偏差,但如果几乎所有的民调机构都偏向同一方向,会发生什么情况呢? 这会导致灾难性的模型失败,比如在历史性的 2016 年大选中,FiveThirtyEight 给出了希拉里-克林顿 71% 的获胜概率

相反,我决定利用机器学习的力量来模拟影响民意调查结果的基本要素,从而更准确地预测大选。 与传统的统计方法不同,机器学习可以处理庞大而复杂的数据集,并随着新信息的到来不断学习和调整。 这种适应性使其特别适合选举的动态性和不可预知性。

该模型将通过 Allora 网络进行整合,这是一个新课题的一部分,该课题旨在整合多个模型,以产生最准确的选举预测结果。 有了 Allora,我们可以将多个预测模型和数据集整合起来,创建一个大于各部分之和的模型。 通过在统一的框架内利用不同的数据源和建模技术,这种整合提高了我们选举预测的稳健性和准确性。

确定问题

预测总统选举结果并不像猜测谁将赢得普选那么简单。 美国的选举团制度指定了 51 场独立的竞选(50 个州加上华盛顿特区)。 每场选举都会对全国选举结果产生影响,因此选举团制度是一个复杂的拼图,每一块拼图都很重要。

主要考虑因素:

  1. 单个州的竞选: 每个州都有其独特的政治格局、人口构成、经济和投票法,因此预测每个州的结果都是一项独特的挑战。
  2. 全国汇总: 总体选举结果取决于选举人团制度,而不仅仅是普选结果,这给预测任务增加了一层复杂性。

选择数据源

我纳入了多种数据源,以建立预测选举结果的强大 ML 模型。 其中包括

  1. 历史民调数据: 我收集了上世纪40年代的总统支持率数据。 以下是过去 15 位总统的 “支持-不支持 “分布情况:

然后,通过翻转一党的符号,我们可以得到一个 “国民情绪指标”,显示整个国家是偏左还是偏右:

2. 宏观经济数据: “It’s the economy, stupid!”
比尔-克林顿的竞选团队在 1992 年的选举周期中创造了这句话。 大选年,尤其是现任总统竞选连任的大选年,是对现任政党第一任期表现的评判。

以下是总统支持率与 12 个月通货膨胀率的对比图。 这两个序列的相关性为-.28,这使得通货膨胀成为选举结果的一个重要决定因素。 特别是,当通胀率达到极值(7%)时,平均支持率差值比通胀率受控时低 22 个百分点。 这一点在 2024 年大选中尤为重要,因为通胀率达到了 40 年来的最高点。除了通胀率,我们还关注各州的失业率和住房负担能力指标。

3. 历史上的州选举
州一级过去的选举结果为了解投票模式提供了宝贵的信息。 各州的投票往往沿袭历史路线,略有偏差。 我们计算了各州的长期平均值,以及可能告诉我们战场州是否会翻盘的趋势。

4. 历史上的众议院选举
总统选举每四年举行一次,而众议院选举每两年举行一次。 这使我们能够提前洞察总统选举周期中可能出现的趋势。

5. 种族人口统计
不同种族群体的选民偏好差异很大。白人选民 支持共和党的比例为15%,而黑人选民支持民主党的比例约为60%(尽管这一趋势正在开始改变)。

在多个州,我们看到白人人口减少而黑人、拉丁裔和亚裔人口增加的总体趋势。

6. 地理
各州与其地理区域内的其他州在价值观和文化上有相似之处。 例如,缅因州、康涅狄格州、新罕布什尔州和佛蒙特州有着共同的新英格兰文化背景,都是朝圣者的殖民地。 相比之下,密西西比州、阿拉巴马州和佐治亚州等深南各州则有另一种基于农业经济和种族历史的文化背景。

7. 非法移民人数、选民身份法和邮寄投票状况
尽管 始终 声称 ;尽管主流媒体声称不存在选民舞弊现象,但不需要数据天才也能看出,缺乏选民身份证明加上庞大的非法移民人口如何对选举结果产生非法影响。 事实上,当我们绘制非法移民人口与选举结果的对比图时,我们会得到以下结果:

相关性为-0.24,非法移民人口的预测作用几乎与通货膨胀一样强大。

选择目标变量

目标变量的选择对于建立有效的 ML 模型至关重要。 为此,我们考虑了几个潜在的目标变量:

  1. Spread (R-D): 共和党和民主党候选人得票率的差异。
  2. 与全国平均值的偏差: 各州的得票率与全国民调平均值的偏差。
  3. 与长期平均值的偏差: 当前结果与各州历史投票模式的比较。

那么,我们选择哪个目标呢? 最终,我希望从尽可能多的角度捕捉选举动态,因此我为所有这些反应创建了模型,然后对所有预测结果取平均值。

在模型训练过程中,我们必须注意样本的加权,因为并非每个州都是平等的。 加利福尼亚州和得克萨斯州等人口较多的州比怀俄明州或北达科他州等人口稀少的州拥有更多的选举人票,这意味着它们的样本在训练中必须加权更多。 此外,当国家对新出现的问题(如技术创新、地缘政治紧张局势、人口变化或非法移民)做出反应时,数据中也会出现制度变化。 因此,我们必须赋予近期选举比远期选举更大的样本权重。 为此,我选择了指数加权法。

此时,我有 3 个不同的目标,加上指数加权参数的不同选择,产生了大量潜在模型。 通过对所有预测进行简单平均,我们可以得到以下结果:

值得注意的是,我们必须努力消除任何可能出现的前瞻性偏差。 我们使用样本外数据生成结果,以便更好地了解模型的实际表现。

计算概率

然而,仅仅对选举获胜者进行点预测是不够的。 我们希望量化获胜概率,因此我使用了量子回归法。 通过这种方法,我们可以预测不同概率水平下的差距。 通过观察民主党和共和党的预测定量交叉点,我们可以确定每个州向其中一方摇摆的概率。 与简单的二元输赢模型相比,这种概率方法能为我们提供更详细、更可靠的预测。

量子回归步骤:

  1. 模型训练: 在历史数据上训练量化回归模型,预测各州选举结果差值(R-D)在 0 和 1 之间的条件量化值。
  2. 全国结果汇总: 在每个量化值上,计算每个州和全国选举的获胜者。
  3. 查找交叉量值:查找从民主党到共和党获胜概率交叉的量值。

结果

2024 年 6 月 3 日,我的模型预测共和党获胜的概率为 62.5%,民主党获胜的概率为 37.5%。 值得注意的是,这些概率反映的是整个政党的获胜概率,而不是某个候选人的获胜概率。 因为特朗普是共和党唯一的候选人,所以 62.5% 的概率都归于特朗普。 然而,在民主党内,一位副总统和多位州长正像一群饥饿的秃鹫一样在暗处等待着,以防老年病人 拜登落选。 所有这些人加起来的预测胜算为 37.5%。

当时,特朗普的 Polymarket 股价为 0.53 美元,拜登的股价约为 0.38 美元,米歇尔-奥巴马和加文-纽森的股价分别为几美分。 根据我们的模型,特朗普的价值会被低估,而所有民主党人的价值都会被高估。 在 6 月份,特朗普的股价上涨到了 0.60 美元,赶上了我们的模型预测。 在不到四周的时间里,回报率达到了 13%! 不错。

(顺便提一下,在2024年7月2日撰写本文时,模型的输出结果仍然是特朗普占62.5%,所有民主党人占37.5%。 不过,我预计在民调结果反映出拜登在第一场 CNN 辩论中的表现后,这一情况会有所改变)。

结论

如果说有一种工作我想每个人都会同意应该由人工智能取代,那就是网络电视上的政治评论员。 想象一下,在这样一个世界里,选举季不再是电视上无数个小时的滔滔不绝,而是人工智能模型对谁将获胜以及获胜原因做出公正的分析。 这对我们许多患有选举疲劳症的人来说是多么大的安慰啊!

因此,无论您是机器学习爱好者、政治迷,还是喜欢见证技术突破极限的人,都请加入我们的旅程。 让我们把 2024 年总统大选变成一场数据驱动的盛会,既惊心动魄,又深入浅出。

作者简介

Alexander Huang 是 Allora Labs 的高级 ML 工程师。 他拥有金融科技、传统金融和交易领域的数据科学背景,最近曾担任摩根大通人工智能加速团队的数据科学副总裁。 Alex 拥有斯坦福大学金融数学硕士学位。

--

--