2018新北市長選舉 政見文本分析

Ashe Liao
7 min readNov 22, 2018

--

- @民報 http://www.peoplenews.tw/news/0a2002ee-1ee6-4373-906a-969ca4f53657

# Outline

  • 前言
  • 方法
  • 探索性分析
  • 情緒分析
  • 結論

1 — 前言

2018年的市長選舉是我第一次投票。最近一年都在處理影像相關的專案,已經許久沒做文字分析,希望透過這個Side Project可以複習一下文字分析的能力,也能更了解兩位候選人聚焦的方向。

之所以選擇政見,一方面是因為辯論會逐字稿之前已經做過(川普對希拉蕊),另一方面我認為一般選民直接接觸到候選人的機會非常少,少數能了解候選人的方式就是透過政見。加上政見不像辯論會,除了闡述政策,更多的看點是候選人間的互相攻防,政見就是單純的表達候選人的施政立場,相對的文字分析會較有參考價值。

以下論述為確保公平性,一律依中選會抽籤號次來分析,會先分析一號候選人蘇貞昌再分析二號候選人侯友宜。

2 — 方法

本次透過網路爬蟲(BeautifulSoup)抓取兩位候選人的政見,再使用Jieba(中研院詞庫小組)以及自訂字典來斷詞並製作詞頻表,最後抓取兩位候選人最常用的100個詞彙。再透過GCP Sentiment Analysis和Azure Text Analytics API來計算兩位候選人政見文本的情緒分布。

詳細的技術細節和程式碼放在我的Github上。

3 — Exploratory Data Analysis

新北市長候選人一號蘇貞昌的官網政見全文為 38653字,二號侯友宜的政見全文為1468字

蘇貞昌說,政見規規矩矩放在官網上多達一百多頁,有5萬多字,那對手只有一頁,只有1300百字,可以比較這才是要做事的首長,這才是市民關心的事。新北》蘇貞昌說當年竊案是炒冷飯 葉元之質疑:蘇在怕什麼?

透過我們爬蟲的結果可以得知,兩位候選人的政見字數確實和蘇貞昌在上述訪問時所提到的字數比例相差不多,五萬字的政見或許是包含了蘇貞昌官網的產業之旅影片中的字數。但不論是三萬八千字或是五萬字,兩位候選人在政見數目和字數都是有差距的。

蘇貞昌在政見全文裡前一百個高頻詞彙中,可分為兩大面向:

  1. 政策主軸: 包含了產業(75次)、交通(56次)、文化(54次)、運動(47次)、環境(46次)、工作(46次)、住宅(44次)、垃圾/學校/原住民(27次)等主軸,在各項施政主軸上皆有著墨,其中以改善產業現狀、交通問題等較多。
  2. 施政願景: 在擘劃施政願景上,也多次使用新北市(含新北共221次)、未來(85次)、提供(76次)、協助(73次)、補助(53次)等正向詞彙來說服新北市民。

以下是蘇貞昌政見全文的前一百個高頻詞彙。

侯友宜在政見全文裡前一百個高頻詞彙中,由於總字數和一號候選人蘇貞昌有不小差距,並沒有像蘇貞昌一樣各個面向的政策都有提到。

但侯友宜的政見若拆分為兩大面向:

  1. 政策主軸: 最高頻率的字為捷運(8次, 輕軌3次)、托育(5次)、環境/健康/有機(4次)。可大略看出在交通政策、托育政策、環境政策等著墨較多。
  2. 施政願景: 根據選舉公報,侯友宜為中央警察大學犯罪防治研究所博士。因此和蘇貞昌不同的地方在於,在擘劃施政願景上,侯友宜強調打造一個安全的新北市。同樣使用大量的正面詞彙,如打造(6次)、增加/鼓勵(5次),較特別的是在政見全文中提及新北(3次)和新北市(2次)的次數,皆排不上前十名。

綜觀兩位候選人

  1. 蘇貞昌在政見中大量提到新北市(221次),但只有少量提及台北縣(16次),並沒有過多的以過去八年政績作為政策背書,反而強調未來(85次)。蘇貞昌在各項政策皆多有著墨,包含產業(75次)、交通(56次)、文化(54次)、運動(47次)、環境(46次)、工作(46次)、住宅(44次)皆為高頻詞彙。
  2. 侯友宜在政見字數上和網站的架構用心程度皆不及蘇貞昌(點入我的github專案就能知道爬取兩位候選人政見的難易度差別相當大)。在有限的篇幅中,侯友宜強調捷運在交通政策中扮演非常重要的角色,將持續推動三環三線,同時亦強調要打造一個安全的新北市。對於八年來已有的政績(運動中心、下水道接管率)亦有提及。
  3. 整體而言,兩位候選人對於交通方面的政策皆多有論述,蘇貞昌強調過去八年捷運工程延宕(經筆者查,2017年審計部總決算審核報告中確有提及新北市捷運三環三線計畫建設經費來源不確定、執行進度延宕等問題),未來他會強力推行交通政策,侯友宜則強調會以三環三線搭配輕軌解決交通問題和機捷票價降低等政策。

4 — Sentiment analysis

本次的情緒分析,會藉由GCP Sentiment Analysis和Azure Text Analytics API兩種方法來分析。

Google Cloud Platform Sentiment Analysis是Google所推出的雲端服務,可以分析一段文字的情緒後給予一個分數再以json檔回傳。

文件的情緒分數 (score) 代表文件的整體情緒。一般來說,若分析此文本為正面情緒,其分數會大於0,若分析為負面情緒,分數則會小於0。具有中立分數的文件 (0.0上下) 可能代表文件表現的情緒並不明顯,或情緒參半,同時具備高度正面和負面的數值,因而彼此抵消。 — Natural Language API

一號候選人蘇貞昌各項政見字數和情緒表

  1. 字數方面: 可以看出蘇貞昌對於經濟、環境、青年等政策著墨較多,另外校園和原住民族政策亦超過2000字。
  2. 情緒方面: 所有政見中皆無負面情緒,大多維持中立至正面。

二號候選人侯友宜各項政見文字和情緒表

  1. 字數方面: 可以看出侯友宜對於教育、交通、長照等政策論述較多,其中勞工政見最少,只有25字。
  2. 情緒方面: 所有政見中大多維持中立至正面,有少數幾項政見出現負面情緒,但應該是GCP將主導/介入/急迫等詞定義為負面詞彙的關係。

綜觀兩位候選人

由於兩位候選人字數有一段差距,以強度來比較似乎有失公允,單純以情緒分數而言,兩者皆維持中立至正面的論述。較特別的是侯友宜的勞工政策只有短短的25字。

5 — 結論

新北市人口約400萬,是全台人口最多的城市。也就是說,新北市長的政策將會影響400萬人的生活。洋洋灑灑打了一大篇,我知道多數人投票前很難有時間將所有政見看完,希望透過此次政見分析,可以幫助大家作出投票的選擇。本次所使用到的詞頻、情緒分析等技巧,並不限使用於政見,任何文本都可以進行分析。

最後,說一點我自己的感想。在還沒做這個分析前,其實我並不知道蘇貞昌和侯友宜政策字數的差距如此之大,很難想像一位勞工政策只有25字,全數政策只有1400多字的候選人有心、有能力可以將新北市治理好。或許會有人說政策不能代表一切,但政策至少能代表候選人,成為候選人接觸選民的第一線,我相信有心的話,政見不會只有短短1400字。或許會有人說蘇貞昌騙神明,人格有問題。但我其實更務實地認為市長的責任是將一個城市治理好,而不是回到非藍即綠,非黑即白的那個傳統藍綠對決的社會。總體來說,騙神明對我來講真的沒那麼重要,我們是選一位用意用心治理的市長,不是好人好事代表。

--

--

Ashe Liao

Azure Solution Specialist, Microsoft Taiwan | Microsoft 15th MTC TAI | NTU BDSRC RA, DSSI TA