论文部分内容阅读
社会网络分析已经成为数据挖掘领域中研究的热点之一。随着研究的深入,社会网络的概念也被逐步扩大,也出现了大量的社会网络平台。例如以好友关系为基础的Facebook、人人等,以信息传播为基础的Twitter、新浪微博等,以用户兴趣为基础的Flick,豆瓣等,还包括以学者合作为基础的DBLP等等。用户每天在社会网络平台中产生大量的实体及关系。社会网络中实体之间的关系是错综复杂的,通过挖掘实体间的潜在关系,能够深入理解社会网络中的社区结构、信息传播、群体行为和社会舆情等。因此,社会网络中的关系挖掘已经成为相关领域研究的的基础。传统社会网络中的关系挖掘主要关注人及人之间的关系,而真实社会网络中的实体除了包括人之外,还包含很多其他实体。例如知识图谱研究关注的概念实体,信息推荐关注的项目、位置等。社会网络中的关系主要包括两类:同质关系和异质关系。两类关系通常同时存在,并且是相互关联的。因此,实体和关系是社会网络关系挖掘算法关注的焦点。从数据挖掘的视角出发,针对社会网络中实体间的复杂关系进行挖掘分析,能够从结构、内容、行为等多角度理解社会网络。本文从关系挖掘的角度出发,主要针对以下几个方面开展研究:首先,社会网络中用户之间的社区特征、消息的话题相似性、用户行为的趋同性等表现出大量的同质关系。针对社会网络中的同质关系很难在单一尺度下分析的问题,提出了基于扩散小波的多尺度分析框架。在统一的框架下针对社会网络中的社区结构、话题、用户行为等进行多尺度分析。其次,针对大规模异质关系数据中的稀疏性和非平衡问题,提出了基于关联矩阵的稀疏非负矩阵分解算法HSNMF-CM。算法中选择异质关系对应的较小一类实体的相关关系构建关联矩阵,既降低了矩阵的稀疏度,又提高了算法的处理效率。HSNMF-CM在块坐标下降的框架下,通过稀疏约束下的高效投射算法快速求解矩阵分解。针对高阶异质关系,算法通过聚类指示矩阵融合的方法处理复杂的异质关系数据。再次,针对大规模微博消息流的突发话题检测问题,在动态窗口划分的基础上,通过联合聚类算法挖掘用户、消息和特征实体之间的关系,实现快速、准确的突发话题检测。从实体影响力的角度定义突发话题,充分考虑话题的动态性。针对中文微博,以字为特征实体,实现高效的实体关系建模。最后以突发字为基础构建词、有意义串。因此能够检测新词、口语化词等诱导的突发现象。最后,针对微博中的异常检测问题,从同、异质关系协同的角度开展研究,提出了基于异质关系矩阵分解的异常检测算法。从内容、交互行为、用户属性等方面定量度量用户和消息对应的相似性和相异性同质关系,并通过距离度量学习将同质关系矩阵嵌入到异质关系矩阵中。算法通过对用户和消息间的异质关系矩阵采用非负矩阵三分解,同时得到用户和消息的异常检测结果,实现微博中的个体异常和群体异常检测。