Dự đoán xác suất kết quả bầu cử tổng thống năm 2024 bằng các thuật toán ML

Published in

Official Allora Community

12 min read13 hours ago

Phiên dịch: Hung Pham

Dự đoán kết quả của một cuộc bầu cử tổng thống là một thách thức hấp dẫn đã thu hút sự chú ý của các nhà khoa học dữ liệu, nhà thống kê và nhà phân tích chính trị trong nhiều thập kỷ. Cuộc bầu cử tổng thống Hoa Kỳ năm 2024 cũng không ngoại lệ. Năm 2008, Nate Silver đã phổ biến một phương pháp tiếp cận dựa trên dữ liệu để dự báo bầu cử bằng cách tổng hợp các cuộc thăm dò và áp dụng phân tích thống kê nghiêm ngặt. Các phương pháp này đã được chứng minh là khá hiệu quả, nhưng chúng đi kèm với những hạn chế cố hữu, chẳng hạn như thiên vị nghiêm trọng trong thăm dò và khó khăn trong việc tính đến các sự kiện bất ngờ. Silver đã cố gắng kiểm soát các yếu tố này bằng bảng xếp hạng của các công ty thăm dò cố gắng kiểm soát thiên vị thăm dò theo một cách nào đó, nhưng điều gì sẽ xảy ra khi gần như toàn bộ vũ trụ của các công ty thăm dò đều thiên vị theo cùng một hướng? Điều này dẫn đến những thất bại thảm hại của mô hình, giống như trong cuộc bầu cử lịch sử năm 2016 khi FiveThirtyEight đưa ra khả năng chiến thắng là 71% cho Hillary Clinton.

Thay vào đó, tôi quyết định mô hình hóa các nguyên tắc cơ bản cơ bản ảnh hưởng đến kết quả thăm dò bằng cách khai thác sức mạnh của máy học để dự đoán cuộc bầu cử với độ chính xác thậm chí còn cao hơn. Không giống như các phương pháp thống kê truyền thống, ML có thể xử lý các tập dữ liệu lớn và phức tạp, học hỏi và thích nghi khi có thông tin mới. Khả năng thích nghi này khiến nó đặc biệt phù hợp với bản chất năng động và thường không thể đoán trước của các cuộc bầu cử.

Mô hình này sẽ được tích hợp thông qua Allora Network, như một phần của chủ đề mới nhằm tổng hợp nhiều mô hình để đưa ra dự đoán bầu cử chính xác nhất. Với Allora, chúng ta có thể đồng hóa nhiều mô hình và tập dữ liệu dự đoán để tạo ra một mô hình lớn hơn tổng các thành phần của nó. Sự tích hợp này tăng cường tính mạnh mẽ và độ chính xác của các dự báo bầu cử của chúng tôi bằng cách sử dụng nhiều nguồn dữ liệu và kỹ thuật mô hình hóa khác nhau trong một khuôn khổ thống nhất.

Xác định vấn đề

Dự đoán kết quả bầu cử tổng thống không đơn giản như đoán xem ai sẽ giành chiến thắng trong cuộc bỏ phiếu phổ thông. Hệ thống Đại cử tri đoàn ở Hoa Kỳ chỉ định 51 cuộc đua riêng biệt (50 tiểu bang cộng với Washington D.C.). Mỗi cuộc đua đều góp phần vào kết quả quốc gia, biến nó thành một câu đố phức tạp, trong đó mọi mảnh ghép đều quan trọng.

Những cân nhắc chính:

1. Các cuộc đua của từng tiểu bang: Mỗi tiểu bang có bối cảnh chính trị, thành phần nhân khẩu học, nền kinh tế và luật bỏ phiếu riêng, khiến việc dự đoán kết quả của từng tiểu bang trở thành một thách thức riêng.
2. Tổng hợp toàn quốc: Kết quả bầu cử chung phụ thuộc vào hệ thống đại cử tri đoàn, không chỉ là số phiếu phổ thông, làm tăng thêm độ phức tạp cho nhiệm vụ dự đoán.

Chọn nguồn dữ liệu

Tôi đã kết hợp nhiều nguồn dữ liệu khác nhau để xây dựng một mô hình ML mạnh mẽ nhằm dự đoán kết quả bầu cử. Bao gồm:

1. Dữ liệu thăm dò lịch sử: Tôi đã thu thập dữ liệu về sự chấp thuận của Tổng thống từ những năm 1940. Sau đây là sự phân bổ của “Phê duyệt — Không chấp thuận” cho 15 Tổng thống gần đây nhất:

Sau đó, bằng cách lật ngược dấu hiệu của một đảng, chúng ta có thể có được “chỉ số tình cảm quốc gia” cho thấy liệu toàn bộ quốc gia có thiên về cánh tả hay cánh hữu:

2. Dữ liệu kinh tế vĩ mô: “Đó là nền kinh tế, đồ ngốc!”
Chiến dịch tranh cử của Bill Clinton đã nghĩ ra cụm từ này trong chu kỳ bầu cử năm 1992. Những năm bầu cử, đặc biệt là những năm mà đương kim tổng thống đang tái tranh cử, là những năm đánh giá về việc đảng đương kim tổng thống đã làm như thế nào trong nhiệm kỳ đầu tiên. Bất kể các chính trị gia cố gắng sử dụng các vấn đề gây chia rẽ để giành được cử tri về phía mình bao nhiêu, cử tri vẫn phản ứng với nỗi đau trong túi tiền của họ.

Dưới đây là xếp hạng chấp thuận của Tổng thống được lập biểu đồ cùng với lạm phát trong 12 tháng. Hai chuỗi này có mối tương quan là -.28, khiến lạm phát trở thành yếu tố quyết định quan trọng trong kết quả bầu cử. Đặc biệt, khi lạm phát đạt đến các giá trị cực đại (>7%), mức chênh lệch chấp thuận trung bình thấp hơn 22 điểm so với khi lạm phát được kiểm soát. Điều này đặc biệt quan trọng trong cuộc bầu cử năm 2024 khi lạm phát đạt mức cao nhất trong 40 năm. Bên cạnh lạm phát, chúng tôi cũng đang xem xét các số liệu về tỷ lệ thất nghiệp và khả năng chi trả nhà ở của từng tiểu bang.

3. Bầu cử tiểu bang trong lịch sử
Kết quả bầu cử trước đây ở cấp tiểu bang cung cấp những hiểu biết có giá trị về các mô hình bỏ phiếu. Các tiểu bang có xu hướng bỏ phiếu theo các đường lối lịch sử với những sai lệch nhỏ. Chúng tôi tính toán các giá trị trung bình dài hạn cho từng tiểu bang cũng như các xu hướng có thể cho chúng ta biết liệu một tiểu bang chiến trường có lật ngược tình thế hay không.

4. Bầu cử Hạ viện trong lịch sử
Trong khi các cuộc bầu cử Tổng thống diễn ra bốn năm một lần, các cuộc bầu cử Hạ viện diễn ra hai năm một lần. Điều này cung cấp cho chúng ta cái nhìn sâu sắc hơn về các xu hướng có thể biểu hiện trong chu kỳ bầu cử Tổng thống.

5. Nhân khẩu học chủng tộc
Sở thích của cử tri rất khác nhau giữa các nhóm chủng tộc khác nhau. Cử tri da trắng ủng hộ đảng Cộng hòa 15%, trong khi cử tri da đen ủng hộ đảng Dân chủ khoảng 60% (mặc dù xu hướng này đang bắt đầu thay đổi). Tôi đã thu thập dữ liệu nhân khẩu học để nắm bắt những động lực này cũng như các xu hướng cơ bản.

Trên nhiều tiểu bang, chúng ta thấy xu hướng chung là dân số da trắng giảm trong khi dân số da đen, La tinh và châu Á tăng.

6. Địa lý
Các tiểu bang chia sẻ các giá trị và điểm tương đồng về văn hóa với những tiểu bang khác trong khu vực địa lý của họ. Ví dụ, Maine, Connecticut, New Hampshire và Vermont có chung nền tảng văn hóa New England là các thuộc địa của người hành hương. Ngược lại, các tiểu bang miền Nam như Mississippi, Alabama và Georgia có nền tảng văn hóa khác dựa trên nền kinh tế nông nghiệp và lịch sử chủng tộc của họ.

7. Số lượng người nhập cư bất hợp pháp, Luật định danh cử tri và Tình trạng bỏ phiếu qua thư
Mặc dù các phương tiện truyền thông chính thống liên tục tuyên bố rằng gian lận bầu cử không tồn tại, nhưng không cần phải là thiên tài về dữ liệu để thấy rằng việc thiếu định danh cử tri cộng với số lượng lớn người nhập cư bất hợp pháp có thể ảnh hưởng bất hợp pháp đến kết quả bầu cử như thế nào. Thật vậy, khi chúng ta lập biểu đồ dân số người nhập cư bất hợp pháp so với kết quả bầu cử, chúng ta sẽ nhận được kết quả sau:

Với hệ số tương quan là -0,24, dân số nhập cư bất hợp pháp gần như là một yếu tố dự báo mạnh mẽ như lạm phát.

Chọn Biến mục tiêu

Việc lựa chọn biến mục tiêu rất quan trọng để xây dựng một mô hình ML hiệu quả. Đối với nhiệm vụ này, chúng tôi xem xét một số biến mục tiêu tiềm năng:

Phân bổ (R-D): Sự khác biệt về tỷ lệ phiếu bầu giữa các ứng cử viên của Đảng Cộng hòa và Đảng Dân chủ.
Độ lệch so với Mức trung bình toàn quốc: Mức độ phân bổ của từng tiểu bang khác với mức trung bình thăm dò ý kiến toàn quốc như thế nào.
Độ lệch so với Phương tiện dài hạn: Kết quả hiện tại so với các mô hình bỏ phiếu lịch sử ở từng tiểu bang như thế nào.

Vậy chúng ta chọn mục tiêu nào? Cuối cùng, tôi muốn nắm bắt động lực bầu cử từ nhiều góc độ nhất có thể, vì vậy tôi đã tạo ra các mô hình cho tất cả các phản hồi này và sau đó lấy giá trị trung bình của tất cả các dự đoán thu được.

Trong quá trình đào tạo mô hình, chúng ta phải lưu ý đến việc cân nhắc các mẫu vì không phải mọi tiểu bang đều được tạo ra như nhau. Các tiểu bang đông dân hơn như California và Texas có nhiều phiếu đại cử tri hơn các tiểu bang thưa dân như Wyoming hoặc Bắc Dakota, điều đó có nghĩa là các mẫu của họ phải được cân nhắc cao hơn trong quá trình đào tạo. Ngoài ra, các thay đổi chế độ xảy ra trong dữ liệu khi quốc gia phản ứng với các vấn đề mới nổi (như đổi mới công nghệ, căng thẳng địa chính trị, thay đổi nhân khẩu học hoặc nhập cư bất hợp pháp). Vì lý do này, chúng ta phải đưa ra trọng số mẫu lớn hơn cho các cuộc bầu cử gần đây so với các cuộc bầu cử trong quá khứ xa xôi. Tôi đã chọn thực hiện điều này bằng cách sử dụng một sơ đồ trọng số theo cấp số nhân.

Tại thời điểm này, tôi có 3 mục tiêu khác nhau, cộng với nhiều lựa chọn khác nhau cho tham số trọng số theo cấp số nhân, tạo ra một số lượng lớn các mô hình tiềm năng. Bằng cách lấy trung bình đơn giản trên tất cả các dự đoán, chúng ta có được các kết quả sau:

Điều quan trọng cần lưu ý là chúng ta phải cẩn thận loại bỏ bất kỳ sai lệch nhìn trước nào có thể xuất hiện. Kết quả được tạo ra bằng cách sử dụng dữ liệu ngoài mẫu để hiểu rõ hơn về cách mô hình sẽ hoạt động trực tiếp.

Tính toán Xác suất

Tuy nhiên, chỉ đưa ra dự đoán điểm cho người chiến thắng trong cuộc bầu cử là chưa đủ. Chúng tôi muốn định lượng xác suất chiến thắng, vì vậy tôi đã sử dụng hồi quy phân vị. Phương pháp này cho phép chúng tôi dự đoán mức chênh lệch ở nhiều mức xác suất khác nhau. Bằng cách kiểm tra vị trí các phân vị dự đoán cho đảng Dân chủ và Cộng hòa giao nhau, chúng tôi có thể xác định xác suất mỗi tiểu bang sẽ nghiêng về một bên nào đó. Phương pháp xác suất này cung cấp cho chúng tôi dự đoán chi tiết và mạnh mẽ hơn so với mô hình thắng/thua nhị phân đơn giản.

Các bước trong Hồi quy phân vị:

1. Huấn luyện mô hình: Huấn luyện mô hình hồi quy phân vị trên dữ liệu lịch sử để dự đoán các phân vị có điều kiện từ 0 đến 1 cho mức chênh lệch kết quả bầu cử của mỗi tiểu bang (R-D).

2. Tổng hợp Kết quả Quốc gia: Tại mỗi phân vị, hãy tính toán người chiến thắng ở mỗi tiểu bang và cuộc bầu cử quốc gia.
3. Tìm Phân vị chéo: Tìm phân vị mà tại đó xác suất giao nhau từ chiến thắng của đảng Dân chủ sang chiến thắng của đảng Cộng hòa.

Kết quả

Vào ngày 3 tháng 6 năm 2024, mô hình của tôi dự đoán khả năng chiến thắng của đảng Cộng hòa là 62,5% và khả năng chiến thắng của đảng Dân chủ là 37,5%. Điều quan trọng cần lưu ý là các xác suất này phản ánh toàn bộ cơ hội chiến thắng của đảng chứ không phải của một ứng cử viên duy nhất. Vì Trump là ứng cử viên duy nhất của Đảng Cộng hòa, nên toàn bộ 62,5% đều thuộc về Trump. Tuy nhiên, trong Đảng Dân chủ, một Phó Tổng thống và nhiều thống đốc đang chờ đợi trong bóng tối như một bầy kền kền đói trong trường hợp một Biden già nua không thể vượt qua. Tất cả họ kết hợp lại có khả năng chiến thắng dự đoán là 37,5%.

Vào thời điểm đó, cổ phiếu của Trump trên Polymarket được giao dịch ở mức 0,53 đô la, trong khi Biden ở mức khoảng 0,38 đô la, còn Michelle Obama và Gavin Newsom chỉ có một vài xu. Theo mô hình của chúng tôi, Trump sẽ bị định giá thấp, và tất cả đảng viên Dân chủ sẽ bị định giá cao. Trong tháng 6, cổ phiếu của Trump đã tăng lên 0,60 đô la để bắt kịp dự đoán của mô hình. Đó sẽ là mức lợi nhuận 13% trong vòng chưa đầy bốn tuần! Tuyệt.

(Nhân tiện, kết quả đầu ra của mô hình vẫn là 62,5% cho Trump và 37,5% cho tất cả đảng viên Dân chủ tại thời điểm viết bài này vào ngày 2 tháng 7 năm 2024. Tuy nhiên, tôi hy vọng điều này sẽ thay đổi sau khi có kết quả thăm dò phản ánh cách Biden bị đánh bại trong cuộc tranh luận đầu tiên của CNN.)

Kết luận

Nếu có một công việc mà tôi nghĩ mọi người đều có thể đồng ý nên được thay thế bằng AI, thì đó sẽ là các chuyên gia chính trị trên truyền hình. Hãy tưởng tượng một thế giới mà mùa bầu cử không còn tràn ngập vô số giờ nói chuyện ồn ào trên TV nữa mà là nơi các mô hình ML đưa ra các phân tích khách quan về việc ai sẽ thắng và tại sao. Thật nhẹ nhõm cho nhiều người trong chúng ta đang mệt mỏi vì bầu cử!

Vì vậy, cho dù bạn là người đam mê học máy, nghiện chính trị hay chỉ là người thích nhìn công nghệ vượt qua ranh giới của những điều có thể, hãy tham gia cùng chúng tôi trong hành trình này. Hãy biến Cuộc bầu cử Tổng thống năm 2024 thành một cảnh tượng lấy dữ liệu làm trọng tâm, vừa ly kỳ vừa sâu sắc.

Về tác giả

Alexander Huang là Kỹ sư ML cấp cao tại Allora Labs. Với nền tảng về khoa học dữ liệu trong công nghệ tài chính, tài chính truyền thống và giao dịch, gần đây nhất ông giữ chức Phó chủ tịch Khoa học dữ liệu trong nhóm Tăng tốc AI của J.P. Morgan. Alex có bằng Thạc sĩ Toán học tài chính của Đại học Stanford.