计算机眼中的小说人物

楚乔传社交网络分析

引子

电视剧《楚乔传》收视率火爆,这部改编自文学IP的作品从一开始就已经受到了大众的关注和资本的加持。原著小说《11处特工皇妃》从09年开始连载,已经拥有了4个亿的阅读量。本文使用楚乔传的原著小说, 利用社交网络算法对其中出现的所有配角人物进行分析。让我们来看看计算机眼中的楚乔传究竟是个什么样子。

为计算机准备好数据

首先让我们准备好素材:小说原本的文件,并且找到一份小说中的人物列表。

计算机并不具备阅读理解力, 所以数据准备中最核心的工作是建立小说人物间的关系,从而形成一个数据化的关系网络。这里使用的做法非常简单,遍历小说的所有段落,找出小说每一段中同时出现的人名,当一段文字中两个角色同时出现时, 则判定两者具备连接的关系。

为了能获得更好分析结果,这里去除了小说的三位主要角色:楚乔、诸葛玥、燕洵,本文尝试分析在不存在三大主角的情况下小说中的配角人物关系。下图为导入可视化平台后的小说人物社交网络数据。

导入可视化平台后的社交网络

网络数据统计

概要

我们对该社交网络进行简单的数据统计分析。首先这里选取的小说人物数量为47个。最小连接数为1,最大连接数为21。均值连接数量约等于4.86,标准差约为4.39。

统计信息

网络直径(Network Diameter)

网络直径在一定程度上代表了社交网络的大小,其数值表示的是社交网络中最长的最短路径。楚乔传的人物关系中,网络直径为5,如果加入男女主角的话当然会更短。下图中列举一些距离为5的最短路径。

最短路径

在形成图以后,我们可以很方便地通过程序来寻找两个角色之间的最短路径。比如上面提到的最短路径,查询结果如下图所示。

最短路径

当然我们也可以找出它的所有最短路径,方便我们更深入地观察与研究。

两节点间的所有最短路径

分析究竟谁才是重要的配角

既然去除了所有的主角,那我们可以看看到底谁才是最重要的配角。这里分别从度中心性间接中心性亲密中心性以及最后的PageRank算法来看配角们的重要性排名。

度中心性(Degree Centrality)

度中心性是一个节点在网络中的连接数,表示小说人物与其它人物的连接数量,度中心性越高表示角色越处于中心地位。下图分别是人物的度中心性排名、度分布图以及加权度中心性排名与加权度分布图。其中加权的含义是算上每个边的权重,人物间在不同段落里一起出现的次数越多,权重也会相应地变高。

可以看出在不含三大主角的情况下,赵彻具备最强的度中心性,李策次之。赵飏虽然度中心性上仅排第七,但在加权度中心性排名第三,可以猜测虽然在连接数上赵飏不能算多,但是大多都属于强连接。

间接中心性(Betweenness Centrality)

间接中心性表示节点出现在其他节点间最短路径的个数,该数值越高代表节点对于整个社交网络的连接性越强,作为一个中间节点显得更为重要。从结果中可以发现,除了赵彻和李策以外,小说中的大反派诸葛怀具备最高的间接中心性,在整个社交网络中起到了很强的连接作用。

亲密中心性(Closeness Centrality)

亲密中心性计算每个节点对于其它所有节点的信息传播能力,其数值为节点到其它所有节点平均距离的倒数。也就是说这一数值代表了小说人物在整个小说中的影响力。从排名发现前三强排名与度中心性基本相同,但从之后开始排名则发生变化,贺萧获得了第四的位置。

佩奇排序(PageRank)

佩奇排序是一种谷歌的网页排名算法,其核心思想是通过计算节点各个连接节点的质量来判断当前节点的优先等级,也就是说连接的节点少但质量高的会优于节点多但质量一般的。下图是楚乔传关系图中人物的pagerank,可以发现有意思的一点是在度中心性中羽姑娘的排名要低于赵嵩,而在Pagerank中羽姑娘却超越了赵嵩排在了第三位。

小结

网络小说 IP 的影视化已经是一种潮流,对于翻拍作品时该如何选取角色,也许这样的社交网络分析能够帮助到影视公司。

参考文献

[1] Network of Thrones Data Set (https://www.macalester.edu/~abeverid/thrones.html)

[2] Analyzing the Graph of Thrones (http://www.lyonwj.com/2016/06/26/graph-of-thrones-neo4j-social-network-analysis)