论文部分内容阅读
自然科学的发展拓展了人类对生存环境的理解,而社会科学的进展相对缓慢。大数据时代为跨学科研究提供了前所未有的机遇,计算社会学应用而生。其中,人类学作为社会科学中研究人类自身的重要科学,也受到学术界的很大关注。自我中心网络,或者个人中心网络(EgoNetwork)是人类学中的重要概念,指的是以一个人(ego)为中心,由其直接联系人(alters)和它们之间的交互组成的网络结构,个人中心网络包含了一个人能维系的所有社交关系。通信数据是大数据时代重要的数据源之一,随着移动通信的发展,其成本越来越低,应用也越来越广泛,通信数据逐渐成为学术界研究人与人之间社交关系的重要数据源。本文基于通信数据对个人中心网络的结构进行建模与研究。研究中使用的CDR数据(Call Detail Record)由合作运营商提供,数据覆盖某城市该运营商的所有记录,时间跨度为2014年1月到6月。ICT(Information and Communication Technology)技术的发展带来了更多维系社交关系的新途径,那么这种趋势能否让个人中心网络的规模不断增长而没有上限?个人中心网络的分层结构是否也会随之改变?同时,大数据时代对数据展示技术提出了更高的要求,如何支持交互式地探索与分析海量数据也成为可视分析领域面临的挑战。针对以上三个研究问题与挑战,本文主要工作和创新点如下:首先,为了回答关于个人中心网络规模是否有临界值的问题,已有学者基于Facebook和Twitter等在线社交网络数据进行了探索,然而在线社交网络中的交互行为都是信息的转发和评论,并非直接的社交行为,同时相关工作主要基于某些具体交互行为进行讨论,并未基于个人中心网络模型进行系统分析,同时也没有关注通信行为方向的社会学意义。区别于已有成果,本文通过构建个人中心网络模型,系统研究了个人中心网络的临界规模问题。首先,本文提出了有向含权的个人中心网络模型,考虑到网络中边的方向及其在社交关系中的重要作用,本文首次提出了吸引力平衡指数和强弱链平衡指数两个指标,以表征个人与整网之间的吸引力平衡和个人中心网络中强、弱关系比例的平衡,本研究考察并分析了节点平均权重、吸引力平衡指数和强弱链平衡指数与网络规模之间相关关系的变化,提出了基于相关性的检测算法以得到个人中心网络的临界值。结果表明,个人中心网络的规模会对其他网络属性产生重要影响,且其规模存在临界值,该临界值在Dunbar数字150的±20%范围内,Dunbar数字指出一个人只能维持150个左右的社交关系。当个人中心网络规模超过该临界值时,ego与alters之间社交关系的平均强度会剧烈下降,同时网络的平衡结构也会被打破(吸引力平衡指数和强弱链平衡指数均会下降)。本研究说明,ICT技术的发展并不能让个人中心网络规模无限制地增长,其规模依然存在临界值。其次,为了探索个人中心网络内部的分层结构,部分研究者基于在线社交网络和通信网络数据进行了研究,结果均支持个人中心网络5-15-50-150的结构。这些工作中使用的算法均需要人为指定个人中心网络的层数,然后从多个结果中寻找最好的分层结果进行分析。区别于以上工作,为了得到更加本征的个人中心网络分层数与每层人数,本文使用不指定分层个数的自动分层算法,根据数据本身的特征找到个人中心网络的本征结构。因此本文将传统的Jenks自然断点算法改进为无参Jenks自然断点算法,同时使用无参Jenks自然断点算法和头/尾间隔算法从通信频次和通信时长两个角度对个人中心网络的分层结构进行研究。结果表明,个人中心网络具有明显的层次结构,其中最普遍存在的是4层结构约占30%~66%,拥有3-5层个人中心网络结构的个体占74%~98.92%以上;算法可以识别稳定存在的支持层以及其内部由1-2人组成的核心层;不论4层还是5层个人中心网络,其相邻圈层中的人数比约为3左右(±30%)。然而,本研究中的4 层结构为 1.73-4.68-15.45-66.58,5 层结构为 1.09-2.38-7.56-21.52-78.84,与经典的5-15-50-150结构不符,因此不支持经典理论中的4圈层个人中心网络结构。最后,为了应对交互式地探索与展示海量数据的挑战,有学者提出了通用的多尺度界面等可视分析方法,该方法与本研究中3尺度联动视图思路一致,但该方法并未针对个人中心网络的可视化提出相应设计。个人中心网络可视化的相关工作中也并未涉及从个人中心网络模型整体特征到详细通信行为的多层次可视设计。为了从个人中心网络角度交互式地挖掘和展示通信网络中用户的行为模式,本文提出了基于个人中心网络的可视分析系统egoPortray。该研究的主要贡献在于:基于个人中心网络,提出了支持交互的3尺度联动可视设计,分别为:1)采用散点布局的宏观统计视图,该视图提供了数据整体的分布与相关性信息;2)基于glyph和矩阵布局的介观分组视图,该视图方便用户对比多个个人中心网络的多维度特征;3)使用嵌套布局和弦图设计的微观signature视图,该视图展示特定用户的个人中心网络及其与所有alters之间完整的交互信息。为了验证可视设计的有效性,本文以异常用户检测任务为案例进行分析,结合EAS算法挖掘通信数据中的异常用户,并对这些用户进行分析和展示。案例分析表明,本系统可以帮助分析者直观、高效地判断大规模通信网络中的异常用户,找到异常的原因,并且展示所有用户的通信模式。本系统同时可以作为探索工具,支持和验证之前两章的研究结果。综上,本文在提出了有向含权的个人中心网络模型以及相关测度的基础上,循序渐进研究了个人中心网络的临界规模问题和层次结构问题,最后将个人中心网络的研究视角与可视分析技术相结合,提出了基于个人中心网络的可视分析系统egoPortray以交互式地探索和展示大规模个人中心网络数据。个人中心网络的研究视角相比整网视角更加关注用户个体,与实际应用系统中个性化服务的需求相契合,该研究角度也可以拓展到任何包含网络关系的其他场景中。