论文部分内容阅读
社会上的热点事件常常引起在线社交网络上的广泛讨论,触发事件相关信息在社交网络上的大范围传播。在线社交网络在这些事件的发展中发挥着推波助澜的作用。无论是对借助热点事件进行传播的不良信息进行治理,还是通过在线社交网络来感知热点事件的发生和发展,均需要对在线社交网络中传播的热点事件相关信息进行分析,这种分析需建立在对在线社交数据的有效利用的基础上。现有的社交网络分析应用系统难以利用在线社交大数据支撑热点事件相关信息传播分析,其中的一些共性技术问题尚未得到很好的解决。从原始的在线社交数据到能够辅助决策的分析应用,面对的挑战和难题来自数据、分析方法、应用等多个方面,且相互影响和制约。在这一背景下,本研究通过热点事件库来实现利用在线社交大数据支撑热点事件相关信息传播分析,在热点事件库的技术框架内展开研究,需解决三方面问题:首先,在数据方面缺乏异构在线社交数据的统一模型,以及在此基础上对来自多个来源的在线社交数据进行集成的方法,阻碍在线社交数据的有效利用;其次,分析方法是分析应用的理论基础和实现依据,缺少适用的溯源分析方法导致难以实现信息溯源分析应用,而信息溯源分析应用对于不良信息治理意义重大;最后,热点事件库中各种分析应用和不同组织形式的数据资源数量庞大,难以快速、准确地找到所需分析应用和数据资源。针对上述问题,本研究以建立能够利用在线社交数据对热点事件相关信息传播进行有效分析的热点事件库为背景,主要做了以下工作:首先,针对在线社交数据多源异构不可靠的问题,采取语义网技术与数据建模技术相结合的方法建立了社交网络语义数据模型,提供了在线社交数据的统一表示,作为热点事件库本身以及各种信息传播分析算法实现的基础。该模型支持利用推理规则进行一致性检查和隐含知识发现,此外还具有便于互操作、支持语义搜索等优点。给出了基于数据实例级相似度的模式映射方法以及数据转换方法,能够解决在获取社交大数据时常常遇到的无法直接得知属性名称情况下的模式映射与数据转换问题,在实验中发现对于属性值长度相差较大的属性,映射的准确性更好。其次,面对不完整观测条件下异步传播过程的溯源问题,构建溯源估计函数并提出了传播时间近似方法对异步信息传播过程的溯源问题进行研究,探索了溯源方法在不同的网络结构、传播参数、样本节点选取策略条件组合下的推测源节点的效果。在实验中,与现有工作中采用了类似前提假设的溯源分析方法进行了对比,实验结果表明本文提出的方法具有更好的准确性和适应性。实验分析了不同参数的影响,发现提出的方法在基于介度的样本节点选取方法的配合下有着更好的表现,随着转发概率增加,溯源准确性会明显上升。此外,实验表明采用本文提出的传播时间近似方法能够改善溯源方法的表现。再次,面对如何从热点事件库中找出所需数据资源与分析应用的问题,将数据资源与分析应用封装成服务,在此基础上提出了一种基于语义相似度的服务发现方法。该方法以请求与服务的输入和输出为依据,主要包括预处理器、服务过滤器和服务匹配器三部分。通过前两步缩小了搜索空间,并在服务匹配器中考虑了概念之间的关系。实验表明,相比现有方法,本文提出的方法在准确率与召回率方面有更好的表现,并且运行时间更少。最后,给出了热点事件库原型系统的设计,进行了系统展示与案例研究,为类似的在线社交网络分析应用系统的设计与实现提供了参考。