朋友圈谁的影响力最大?《楚乔传》里谁的地位最高?《冰与火之歌》谁才是真正的主角?今天我们便来用人人都能看懂的文字为你介绍一下社交网络分析中的中心性。
社交网络中心性
在社交网络中,我们经常会有需求去对每一个处于网络中的个体(节点)的影响力(中心性)进行评估,以此来满足各种各样衍生出来的分析需求。这种分析手段和过程,我们称之为社交网络中心性分析。
值得一提的是, 这里所说的是指广义上的社会网络,代指任何社会关系及社会化的网状结构,而不仅仅是英特网上微信微博的概念。同时,所谓的“中心性”定义亦是根据不同的分析手段而变化的,或者说对“中心性”的定义本身就已经是一项分析过程了。
接着让我们来举个栗子:某个明星开通了微博,在短短数小时内,就有几十万的粉丝关注了他的微博。我们可以认为,他的“受欢迎程度”很高。如果把社交网络中的“关注行为”看做一条有向边,由关注者指向被关注者,那么代表这个明星的“节点”就会拥有很高的“入度”,那我们可以把一个节点的“入度”看做是节点中心性的度量指标。当然这只是一个最简单的估计方法,还有很多方法能够度量社交网络中各个节点的中心性。
接下来,我们就用《楚乔传》这一目前火热的IP作为示例向大家具体介绍一下主流的社交网络中心性分析手段。
《楚乔传》及数据预处理
在最近播放的电视剧中,《楚乔传》算得上是异常火爆了,在各大网络、社交媒体上均引起了广泛的关注,似乎即将成为一部现象级影视作品以及近两年来文学IP改编成功的又一经典案例。《楚乔传》的原著名为《11处特工皇妃》,该书从09年便开始连载,截至目前已经拥有了4亿的阅读量。不难想象,巨大的粉丝基础为这部文学IP改编作品获取大量关注和资本加持起到了关键作用……
今天我们便借用《楚乔传》这一大IP向大家简要地介绍一下社交网络中心性分析的常用手段。值得一提的是,本次我们将使用的素材是《楚乔传》原著小说的文本文件,故部分结论可能和广大的电视观众想法的不同,还希望大家对此报以理解。
作为整个分析过程的基础,我们将首先建立一个数据化的小说人物关系网络。做法非常简单,我们用计算机遍历小说的所有段落,找出小说每一自然段中同时出现的人名,当一段文字中两个或以上的人物角色时, 则判定他们之间产生一次连接关系。而“连接”这个概念将会贯穿我们之后的分析过程。
最后仍要提的重要一点是,由于小说中的三位主要角色:楚乔、诸葛玥、燕洵,在该“社交网络”中扮演着强中心的角色,在分析结果中他们会弱化其它角色的重要性,故我们会在一开始在数据集中剔除这几位角色。故我们最终的实验目标是通过社交网络中心性分析探究《楚乔传》中各个配角之间的人物关系以及发现谁才具有更大的影响力。
社交网络分析
在进行中心性分析之前,首先我们需要先对该社交网络进行简单的数据统计与关键指标建立:
连接(Link)
我们先从书中选取了除主角外的47个小说人物,在此我们统一称之为节点,并依上文所述对他们建立连接,即若其中的两个节点出现在同一小说自然段,则视他们出现一次连接。每一个节点在整个数据集(即整本小说)中所产生的的连接总和称为它的连接数。
例如以上示例图(后文中所指的示例图皆为此图),各个节点的连接数分别为1,3,1,2,1
经过系统对文本的预处理之后,我们得出了所有47个节点的连接数,其中同一个节点产生的最小连接数为1(即这个人物和其他人物出现在同一段的次数只有一次),而最大连接数则为21。平均每个节点产生的连接数为4.86,标准差则为4.39
同时,我们再将各个节点按照它们之间的连接关系进行数据可视化,以便更清晰地观察节点之间不同的连接状态。我们得到了下图:
图中,各条连接的粗细反映了这两个节点之间所产生连接的数量,线条越粗代表它们之间的连接越多、关系越紧密。而各个节点的颜色则是反映它们各自所拥有连接的数量,颜色越深则代表着和它产生连接的节点越多。
网络直径(Network Diameter)
同时我们再定义:从一个节点通过连接到达另外一个节点的轨迹叫做两个节点之间的路径,每条路径所经过的连接数称之为路径的长度。从一个节点到另一个节点可以经过连接数量最少的路径分别称之为最短路径。
而网络直径指的是在一个固定的社交网络中最长的最短路径。即在这个社交网络中,任意两节点之间都可以通过一个长度不超过网络直径的路径到达。在一定程度上,网络直径可以用来描述该社交网络规模的大小。
再以《楚乔传》为例,经过对所有47个节点所产生的路径进行分析得出,其网络直径为5,及任意两个节点都存在一条长度不超过5的路径相连接。(不难想象,如果加入男女主角的话,路径会更丰富,网络直径会变得更短。)下图中我们列举一些距离为5的最短路径:
我们可以很方便地通过现有的算法来寻找任意两个节点之间的最短路径,并通过程序将之可视化。如上文最短路径的示例,查询结果如下图所示:
当然我们也可以找出它的所有最短路径,方便我们更深入地观察与研究:
在接下来的示例中,我们将使用四种主流的社交网络中心性算法来探究下《楚乔传》中各个配角的地位究竟如何。这些算法包含了:度中心性、间接中心性、亲密中心性以及最后的PageRank算法。
度中心性(Degree Centrality)
度中心性指是与某个节点之间最短路径为1的所有节点(相邻节点)数量大小,在小说中便是表示与某个人物产生过连接的人物数量。在一个社交网络中,度中心性越高表示角色越处于中心地位。以示例图为例,其度中心性最高节点即连接数最多的节点2。
以下分别展示了《楚乔传》中人物的度中心性排名、度分布图(处于不同度中心性状态的节点数量)以及加权度中心性排名与加权度分布图。这里的权重指的是每个节点和相邻节点所产生的连接数量,连接越多,权重则也越高。故即便相邻节点数量少,但若与他们产生的连接较多则其加权度中心性的排名也可能会更高。在分析《楚乔传》之后可以看出,在不含三大主角的情况下,赵彻具备最强的度中心性,李策次之。赵飏虽然度中心性上仅排第七,但在加权度中心性排名第三,可以猜测虽然在连接数上赵飏不能算多,但是大多都属于强连接。
间接中心性(Betweenness Centrality)
间接中心性反应是这个社交网络中含有该节点的最短路径个数,及该节点为其它任意两节点进行最短连接时所起到贡献的次数。该数值越高代表节点对于整个社交网络进行连接的帮助越大,作为一个中间节点显得更为重要。以示例图为例,其中各个节点的简介中心性分别为0,5,0,3,0
同样,我们以此对小说进行分析并从结果中可以发现,除了赵彻和李策以外,小说中的大反派诸葛怀具备最高的间接中心性,在整个社交网络中起到了很强的连接作用。
亲密中心性(Closeness Centrality)
亲密中心性代表了每个节点对于其它所有节点的信息传播能力,其数值为该节点到其它所有节点最短路径长度均值的倒数。以示例图为例,各个节点的亲密中心性分别为1/8,1/5,1/8,1/6,1/9。而在小说中,这一数值则反映了这个人物和其他人物之间整体亲密程度,一定程度上也反映了其重要性。从分析结果排名来看,前三强排名与度中心性基本相同,但从之后开始排名则发生变化,贺萧获得了第四的位置。
佩奇排序(PageRank)
佩奇排序是来自于Google的一种网页排名算法,其核心思想是通过计算与某个节点之间最短路径为1的所有节点的质量来判断当前节点的优先等级,也就是说即便直接连接的节点数量不多但质量却很高,该节点仍然可能会拥有较高的优先级。在这个系统中,最为重要的“质量”是由一个固定算法计算得出,由于该公式比较复杂,故在这里就先不具体展开了,有兴趣的同学可以点击以下链接研习:https://en.wikipedia.org/wiki/PageRank
下图则是这次的Pagerank分析结果,可以发现有意思的是虽然在度中心性排名中羽姑娘的排名要低于赵嵩,但在Pagerank中羽姑娘却超越了赵嵩排在了第三位。
结尾
以上便是我们通过分析《楚乔传》配角在原著中重要程度所想向大家展示的常用社交网络中心性分析方法。我们需要明白的是,任何一种中心性分析手段都存在它的优势以及其适应的环境。在实际应用环境中,数据分析人员们还是需要通过实际情况,结合自身在软件能力及硬件资源等多方面因素的综合考量下来选择最适合自己的中心性算法。
评论