论文部分内容阅读
随着信息时代的飞速推进,手机作为一种必备品,功能和角色越来越多样化,现在的手机具有通话、发短信、上网、导航、办公等各种功能,也记录着通话信息、人际关系、生活习惯等情况。同时,手机也被多数犯罪分子广泛地运用在犯罪实施的过程中。大多数罪犯在预谋和犯罪行为中都不同程度地使用了手机。因此,对话单中的通话记录进行分析已经成为日常办案中必不可少的重要手段。通过分析话单信息得到机主的通话特征和相关人物与机主之间的人物关系,已经成为了警方调查案件和侦查嫌疑人的重要手段。本文以Spark平台作为研究的平台基础,话单通话记录中的数据作为数据基础,通过预处理、存储、查询和分析话单数据,生成相关的通话特征信息,利用决策树分类算法得到人物关系,利用可视化对人物关系加以展现,为侦察嫌疑人提供技术支持。本文主要工作如下:1、提出了一种基于Spark MLlib的决策树分类分析方法,对话单数据进行数据挖掘,生成人物关系。通过Spark SQL查询技术,对机主话单数据的通话信息进行统计,掌握机主的基本通话信息,获取重要的通话特征信息,例如通话次数、通话时间、通话时长和通话位置。之后,利用Spark大数据平台的Spark MLlib,结合所获得的通话特征信息,进行决策树建模,构建出决策树的分类模型。之后便可以对话单中的人物关系进行分类,得到所需要的人物关系,辅助用户快速了解机主的社交圈,挖掘机主与相关号码的人物关系情况。2、设计一种基于Spark Graphx图计算的获取共同好友及数据可视化方法。用通过使用Spark Graphx图计算框架的运算和连通图子图算法,获得机主的所有好友列表以及多维好友列表。然后基于六度分割理论,对Spark Graphx中的单源最短路径算法进行了改进,获得两点之间的连通路径,得到了获得共同好友的算法,用来确定不同机主之间是否有共同联系人或者共同好友。最后,通过Echarts可视化库实现相关通话特征和人物关系图的可视化显示,包括折线图、柱状图、饼状图和人物关系图。3、设计并实现了基于Spark平台及话单的人物关系分析及可视化系统,对用户进行通话特征统计及相关人物关系分析。对话单记录进行查询得到的特征信息,可视化展示特征信息的统计结果如折线图、柱状图、饼状图。通过这些通话的特征信息,构建决策树分析得到人物关系,并利用数据可视化手段对分析出的网状关系进行可视化展示;对于联系密切的联系人,针对人物关系建立机主与对方号码之间的人物关系网络。通过Spark平台获取好友列表和共同好友,分析可疑联系人。