基于隐狄利克雷分布的社区发现技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:kwannew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来互联网技术的快速兴起,在线社交网络作为一种现实社交在互联网中的投射物,越来越具有相当的研究价值。在现实社会关系中,以自然人为节点,人与人之间的各种直接联系为边,可以构建出一个十分复杂的社交关系网。人类的社会性和地理、文化等因素又共同决定着这种现实社交关系网必定是以各种各样或大或小的社交圈组成的,而现实中的这种社交圈特征投射到在线社交网络中,则表现为以虚拟用户为节点的虚拟社区。  虚拟社区检测对于理解在线社交网络的结构特征以及其演化规律、从而为进一步理解人类社会关系特征、乃至于理解人类行为规律都有着十分重要的作用。从应用的角度来讲,在社交网络中发现虚拟社区可以让互联网服务提供者更好地理解用户的行为模式和兴趣爱好,从而更好的为用户提供个性化服务。而在信息安全的层面,虚拟社区检测技术在应对网络水军、非法信息传播控制等上都具有相当高的现实意义。  本文分析了社区发现领域的现有理论和技术,总结出其面临的几个问题,在综合考虑模型效果、在线社交网络数据形式以及处理效率的的基础上,提出了基于隐狄利克雷分布的社区发现模型及其实现。本文的主要工作以及研究成果包括:  1、介绍了社交网络大数据挖掘的基本背景以及社区发现的已有相关研究和工作,在对已有工作进行阐述和分析的基础上,总结出现有工作所面临的问题,并提出了相应的解决办法;  2、基于贝叶斯图模型,提出了一种可综合考虑交互信息、网络结构以及交互行为时间信息的社区发现模型COT(Community Over Time),可用于从在线社交网络的交互数据中发现具有特定主题倾向及周期性行为模式的动态交互社区;  3、为了使COT模型适应于大数据时代海量数据处理的要求,本文在对COT模型进行详细分析和优化的基础上提出了一种可有效应用于并行与分布式计算环境下的近似模型AD-COT(Approximate Distributed COT),大大提升了COT模型的可扩展性;  4、利用新浪微博的大规模数据集,本文基于Apache Spark平台对COT及AD-COT模型进行了实验验证,并对试验结果进行详细分析和总结,并对下一步工作的方向进行展望。
其他文献
随着云计算、物联网、大数据等众多新技术和应用的空前发展以及智能终端的爆炸式增长,要求网络必须能够像用户应用程序一样可以被定制和编程,基于专用硬件的网络设备已经很难
在高性能计算领域,I/O性能已经成为影响计算机性能的重要因素。为了提高I/O性能,人们开发了层次式存储系统。而当前常用的I/O性能评价基准如S3D I/O、,BTIO、MADbench2、FLAS
Ad Hoc网络是一种由一组无线节点组成的没有预定基础设施支撑的自组织可重构的多跳无线网络。在该网络中,网络的拓扑、信道的环境和业务的模式是随节点的移动而动态改变的。A
随着人类社会和计算机技术的飞速发展,电子数据的积累出现了爆炸式的增长。这些海量的电子数据里面无疑隐藏着丰富的对人类深具价值的知识,而传统的数据分析工具只能利用其中的
随着社会信息化进程的不断发展,人们对信息的需求和依赖程度越来越高,如何从海量信息中快速有效的获取有用信息,已经成为人们研究的焦点。信息集成的研究可以帮助人们有效的
入侵检测技术是继防火墙、数据加密等传统安全保护措施后的一种新的网络安全保障技术。作为一种主动防御技术,它不但能检测到来自外部网络的攻击,而且还能检测来自内部的入侵
随着计算机技术尤其是网络技术的发展,作为互联网的重要组成部分——学校的教育网络也在不断地发展。校园网建设的深入开展无疑对加大信息资源共享度,提高工作效率起到积极重
随着数据挖掘技术的发展,人们对时态信息的关注日益提高。时态数据库中既反映被处理事件的历史信息又体现系统中元事件时态信息的双时态数据库日益受到人们的重视。随着双时
边缘是图像中重要的特征之一,边缘检测是计算机视觉、模式识别等的基础。然而,边缘检测又是图像处理中一个困难的问题,因为实际景物图像中的边缘往往是各种类型的边缘以及它
随着互联网技术的发展与应用的深化,各种数据呈爆炸式增长,数据密集型应用的负载特性与传统应用具有很大区别,传统处理器利用时空局部性提升性能的方法将不再适用。因此,针对